Google Translate (GT) est certainement le logiciel de traduction le meilleur et le plus utilisé au monde. Il prend en charge jusqu'à 103 langues, 10 000 paires de langues et traite jusqu'à 500 millions de traductions chaque jour. Les experts prédisent que le système neuronal de GT sera bientôt capable de traiter des fichiers audio et vidéo en plus des textes.
Google Translate depuis 2016, il utilise le Neural Machine Translation System (GNMT). Un système basé sur un réseau neuronal artificiel est considérablement amélioré la qualité de la traduction. Trois ans se sont écoulés depuis lors et nous pouvons maintenant évaluer son efficacité. La qualité des traductions s'est-elle vraiment améliorée et que reste-t-il à changer pour qu'elle s'améliore ?
Comment fonctionne l'algorithme de Google Translate ?
Google Traduction sont développé en 2006 et a d'abord travaillé avec l'aide méthodes statistiques de traduction automatique. Cela signifie qu'il a stocké des milliards et des milliards de mots dans son programme. Lors de la traduction, il a simplement choisi les équivalents les plus appropriés ou les plus populaires des deux langues et les a écrits. Google utilisé dans la création du traducteur Documents des Nations Unies (anglais, arabe, français, chinois, russe et espagnol) et a ainsi produit un corpus de six langues mondiales avec environ 20 milliards de mots. Ce processus était lent, imprécis et consommait beaucoup de puissance de calcul.
Aujourd'hui, Google Translate utilise le soi-disant méthode d'apprentissage en profondeur (Deep Learning Method), dans laquelle un grand réseau de neurones artificiels est particulièrement important.
Avant que Google ne commence à utiliser les réseaux de neurones, la traduction se faisait mot à mot. Le système traduit facilement chaque mot séparément, tout en suivant les règles de base de la grammaire. Par conséquent, la qualité de la traduction était très discutable.
Avec le nouveau modèle neuronal de traduction, cependant l'unité de traduction de base n'est plus un mot, mais seulement une partie d'un mot. Ainsi, la traduction ne se concentre pas sur les formes de mots, mais sur le contexte et le sens de toute la phrase. Le programme traduit donc la phrase dans son ensemble, selon son sens contextuel, sans stocker des centaines de versions de traduction possibles dans sa mémoire.
Le logiciel traduit donc la phrase entière en tenant compte du contexte, et ne se concentre plus uniquement sur les mots individuels. Il ne stocke pas des centaines de versions de traduction dans sa mémoire. Au lieu de cela, il opère sur la sémantique du texte et divise les phrases en segments de dictionnaire.
Comment Google traduit-il à l'aide d'un réseau de neurones ?
Aujourd'hui, il utilise Google Translate environ 32 000 de ces fragments. À l'aide de décodeurs individuels, il détermine initialement le sens de chaque partie du texte. Il calcule ensuite le nombre maximum possible de sens et de traductions possibles. Enfin, il combine les segments traduits avec des règles de grammaire. Selon les développeurs, cette approche permet d'assurer une vitesse et une précision de traduction élevées sans consommer une puissance de calcul excessive. Cependant, comme chaque langue a ses propres règles (sémantiques et grammaticales), Google Translate a également besoin de modules et de dictionnaires spéciaux pour chaque langue, qui sont implémentés dans des algorithmes distincts.
Interlingue
L'intelligence artificielle utilisée par Google Translate comme langue intermédiaire, s'appelle Interlingua. Ce langage informatique universel est, bien entendu, totalement inadapté à la communication humaine. L'intelligence artificielle est utilisée dans la traduction, où elle est utilisée comme langue intermédiaire avec laquelle il peut également traduire vers et depuis des langues pour lesquelles il n'a pas été créé.
L'avantage du réseau de neurones est qu'il peut fonctionner avec un plus grand nombre de paires de langues, même avec celles qui n'étaient pas incluses dans le processus d'apprentissage initial. Par exemple, si le système a été formé pour traduire les paires de langues anglais-japonais et anglais-coréen, il peut également facilement traduire la paire de langues japonais-coréen sans utiliser l'anglais comme langue intermédiaire.
La méthode de traduction mise en œuvre par Google, les développeurs ont appelé la traduction zéro-shot, est plus sophistiquée et s'appuie sur un langage artificiel intermédiaire pour la traduction. Ce domaine de recherche se développe très rapidement, et bientôt ces systèmes de traduction deviendront le principal outil de traduction. C'est un système autodidacte - améliore lui-même ses connaissances et peut également traduire correctement des mots d'argot et d'argot, des néologismes et d'autres mots qui ne figurent pas dans les dictionnaires généraux.
Paires de langues
Le système GNMT a considérablement amélioré la traduction des paires de langues les plus couramment utilisées : espagnol-anglais et français-anglais. L'exactitude des traductions a augmenté jusqu'à 85%.
En 2017, Google a mené une enquête auprès des utilisateurs réguliers du traducteur. Il leur a été demandé d'évaluer trois options de traduction : statistique automatique, neuronale et humaine. Les résultats ont été impressionnants - les traductions faites par le réseau de neurones étaient presque parfaites dans certaines paires de langues.
Il est évident que la qualité des traductions dans les paires de langues anglais-espagnol et français-anglais est presque la même que celle des traductions humaines. Ce fait n'est pas surprenant, puisque ces paires de langues ont été utilisées pour l'apprentissage en profondeur des algorithmes de Google Traduction. La situation est différente pour les autres paires de langues. Cependant, si la traduction neuronale fonctionne de manière comparable entre des langues structurellement similaires, la traduction informatique sera bien pire pour les paires de langues où les systèmes linguistiques sont radicalement différents.
Quels sont les inconvénients de Google Traduction ?
Il est vrai que Google Translate est très pratique et, grâce à son accessibilité et à son fonctionnement rapide, il est utile pour la traduction de tous les jours. Cependant, il manque encore quelque chose d'essentiel - compréhension. La traduction informatique n'est jamais centrée sur la compréhension. Les développeurs du programme ont essayé d'améliorer la méthode de décryptage, ou en d'autres termes, ils ont essayé de faire en sorte que la machine de traduction la gère avec ses capacités d'analyse. Cependant, ils devaient trouver équilibre entre précision et vitesse de traduction.
Effet Eliza
Pour toute machine, appareil informatique ou logiciel, les mots comptent. Cependant, les machines ne peuvent pas encore comprendre le sens profond des mots.
Années 1960 ils ont créé Eliza, un appareil mécanique qui manipulait une série de réponses, donnant l'impression qu'il générait en fait des phrases intelligentes. Dès lors, la question de savoir si les machines peuvent penser comme les humains a été nommée Effet Éliza.
L'effet Eliza a influencé les chercheurs en intelligence artificielle et les développeurs de logiciels pendant des décennies. La plupart des utilisateurs de Google Translate pensent que ce programme, au moins parfois, est capable de comprendre le sens des mots. Cependant, ce n'est pas vrai - Google Translate ne comprend pas la langue, mais il arrive quand même à faire des phrases qui sonnent plutôt bien. Parfois, il parvient même à traduire parfaitement un paragraphe ou deux, et nous croyons presque que le programme comprend réellement la langue. Cependant, il ne faut pas oublier que Google Translate n'est pas capable de penser comme un humain et ne peut traiter les textes que d'une manière spécifique. Un programme informatique n'a ni mémoire, ni imagination, ni compréhension du sens caché des mots. Il n'y a donc aucune raison de ne pas croire que les ordinateurs seront un jour capables de penser comme les humains.
Cependant, on attend d'eux qu'ils soient capables d'excellentes traductions entre différentes langues. Il est très probable qu'ils le feront un jour capable de traduire des blagues, des nouvelles, de la poésie et des essais. Après tout, la technologie évolue à la vitesse de la lumière.
Plus d'information:
translate.google.com