Skip to main content

1 Nov, 2018

Un nouveau système du MIT pourrait mener les quelques 7000 langues parlées dans le monde à la traduction assistée par ordinateur.

Un nouveau système du MIT pourrait mener les quelques 7000 langues parlées dans le monde à la traduction assistée par ordinateur.

Les chercheurs du MIT ont mis au point un nouveau modèle de traduction « non supervisé », qui fonctionne sans annotations ni conseils humains, ce qui pourrait permettre une traduction informatique plus rapide et plus efficace de beaucoup plus de langues.

Les systèmes de traduction de Google, Facebook et Amazon nécessitent des modèles de formation pour rechercher des modèles dans des millions de documents – tels que des documents juridiques et politiques ou des articles de presse – traduits dans différentes langues par des humains. À partir de nouveaux mots dans une langue, ils peuvent ensuite trouver les mots et les phrases correspondants dans l’autre langue.

Mais ces données de traduction prennent beaucoup de temps et sont difficiles à rassembler et peuvent tout simplement ne pas exister pour la plupart des 7000 langues parlées dans le monde. Récemment, des chercheurs ont développé des modèles «monolingues» qui permettent des traductions entre des textes dans deux langues, mais sans information de traduction directe entre les deux.

Dans un document présenté cette semaine à la Conférence sur les méthodes empiriques dans le traitement du langage naturel, des chercheurs du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) décrivent un modèle plus rapide et plus efficace que ces modèles monolingues.

Le modèle exploite une métrique statistique appelée distance de Gromov-Wasserstein, qui mesure essentiellement les distances entre les points d’un espace de calcul et les fait correspondre à des points distancés de la même manière dans un autre espace. Ils appliquent cette technique aux «combinaisons de mots» de deux langues, qui sont des mots représentés sous forme de vecteurs – en gros, des tableaux de nombres – avec des mots de signification similaire regroupés plus étroitement. Ce faisant, le modèle aligne rapidement les mots, ou vecteurs, dans les deux incorporations les plus étroitement corrélées aux distances relatives, ce qui signifie qu’il s’agit probablement de traductions directes.

Au cours des expériences, le modèle des chercheurs a fonctionné avec autant de précision que les modèles monolingues les plus avancés – et parfois plus précisément – mais beaucoup plus rapidement et n’utilisant qu’une fraction de la puissance de calcul.

«Le modèle considère les mots dans les deux langues comme des ensembles de vecteurs et fait correspondre ces vecteurs de l’un vers l’autre en préservant essentiellement les relations», explique le co-auteur de l’article, Tommi Jaakkola, chercheur au CSAIL et Thomas Siebel Professor au Département de génie électrique et informatique et à l’Institut des données, des systèmes et de la société. « Cette approche pourrait aider à traduire des langues ou des dialectes aux ressources limitées, à condition qu’ils contiennent suffisamment de contenu monolingue. »

Le modèle représente un pas en avant vers l’un des objectifs majeurs de la traduction automatique, à savoir l’alignement entièrement non supervisé des mots, explique le premier auteur David Alvarez-Melis, étudiant au doctorat au CSAIL: «Si vous ne possédez aucune donnée correspondant à deux langues… vous pouvez faire correspondre deux langues et, à l’aide de ces mesures de distance, les aligner. « 

Les relations comptent le plus

L’alignement des mots incorporés pour une traduction automatique non supervisée n’est pas un nouveau concept. Des travaux récents forment (entrainent) des réseaux de neurones pour faire correspondre des vecteurs directement dans des matrices de mots, à partir de deux langues. Mais ces méthodes nécessitent beaucoup de peaufinage lors de la formation (entrainement) pour obtenir les alignements exacts, ce qui est inefficace et prend du temps.

Mesurer et mettre en correspondance des vecteurs basés sur des distances relationnelles, en revanche, est une méthode beaucoup plus efficace qui ne nécessite pas d’affinement. Peu importe si les vecteurs de mots appartiennent à une matrice donnée, la relation entre les mots, signifiant leurs distances, restera la même. Par exemple, le vecteur de «père» peut tomber dans des zones complètement différentes dans deux matrices. Mais les vecteurs pour «père» et «mère» seront très probablement toujours proches l’un de l’autre.

«Ces distances sont invariantes», explique David Alvarez-Melis. « En regardant la distance et non les positions absolues des vecteurs, vous pouvez alors ignorer l’alignement et aller directement à la correspondance des correspondances entre les vecteurs. »

C’est là que Gromov-Wasserstein est utile. Cette technique a été utilisée en informatique pour, par exemple, aider à aligner les pixels d’une image dans le graphisme. Mais la métrique semblait «sur mesure» pour l’alignement des mots, assure David Alvarez-Melis: «S’il y a des points ou des mots proches l’un de l’autre dans un espace, Gromov-Wasserstein essaiera automatiquement de trouver le groupe de points correspondant dans l’autre espace. « 

Pour la formation et les tests, les chercheurs ont utilisé un ensemble de données d’intégrations de mots accessibles au public, appelé FASTTEXT, comportant 110 paires de langues. Dans ces incorporations, entre autres, les mots qui apparaissent de plus en plus fréquemment dans des contextes similaires ont des vecteurs très proches. «Mère» et «père» seront généralement proches l’un de l’autre, mais tous deux plus éloignés, par exemple, de «maison».

Fournir une “traduction douce”

Le modèle note les vecteurs étroitement liés mais différents des autres, et attribue une probabilité de correspondance entre les vecteurs distancés de la même manière et ceux de l’intégration. C’est un peu comme une «traduction douce», précise David Alvarez-Melis, «car au lieu de simplement renvoyer une traduction d’un mot, il vous dit que ce vecteur, ou ce mot, a une forte correspondance avec ce ou ces mots, dans l’autre langue. »

Un exemple serait les mois de l’année, qui apparaissent étroitement ensemble dans de nombreuses langues. Le modèle verra un groupe de 12 vecteurs regroupés dans un groupe embarqué remarquablement similaire dans l’autre. « Le modèle ne sait pas que ce sont des mois », dit David Alvarez-Melis. « Il sait seulement qu’il existe un groupe de 12 points qui s’aligne sur un groupe de 12 points dans l’autre langue, mais comme ils diffèrent du reste des mots, ils vont probablement bien ensemble. » En trouvant ces correspondances pour chaque mot, il aligne tout l’espace simultanément. « 

Les chercheurs espèrent que le travail servira de «vérification de faisabilité», lance Tommi Jaakkola, pour appliquer la méthode Gromov-Wasserstein aux systèmes de traduction automatique afin de fonctionner plus rapidement et plus efficacement, ainsi que d’accéder à un plus grand nombre de langues.

En outre, un avantage possible du modèle est qu’il génère automatiquement une valeur pouvant être interprétée comme une quantification, à une échelle numérique, de la similarité entre les langues. Cela pourrait être utile pour les études de linguistique, disent les chercheurs. Le modèle calcule à quelle distance tous les vecteurs sont distants l’un de l’autre dans deux intégrations, ce qui dépend de la structure de la phrase et d’autres facteurs. Si les vecteurs sont tous très proches, ils se rapprocheront de 0 et plus ils seront éloignés, plus le score sera élevé. Les langues romanes similaires telles que le français et l’italien, par exemple, ont un score proche de 1, alors que le chinois classique affiche une note entre 6 et 9 avec les autres langues principales.

«Cela vous donne un chiffre simple et agréable sur la façon dont des langues similaires sont… et peut être utilisé pour tirer un éclairage sur les relations entre les langues», conclut David Alvarez-Melis.

http://news.mit.edu/2018/unsupervised-model-faster-computer-translations-languages-1030