Skip to main content

20 Oct, 2020

La nouvelle IA polyglotte de Facebook peut traduire entre 100 langues

La nouvelle IA polyglotte de Facebook peut traduire entre 100 langues

Ce modèle, qui est le fruit de diverses techniques d’apprentissage automatisé et automatique, est mis à la disposition de la communauté des chercheurs.

Facebook a ouvert un nouveau modèle de langage d’IA baptisé M2M-100 qui peut traduire entre n’importe quelle paire de langues parmi 100. Sur les 4450 combinaisons de langues possibles, il en traduit directement 1100. Cela contraste avec les modèles multilingues précédents, qui s’appuient fortement sur l’anglais comme intermédiaire. Une traduction du chinois au français, par exemple, passe généralement du chinois à l’anglais puis de l’anglais au français, ce qui augmente le risque d’introduire des erreurs.

Le modèle a été formé sur 7,5 milliards de paires de phrases. Afin de compiler un ensemble de données aussi important, les chercheurs se sont appuyés sur la conservation automatisée. Ils ont utilisé des crawlers pour gratter des milliards de phrases sur le web et ont fait identifier la langue par un autre modèle de langue appelé FastText. Ils ont ensuite utilisé un programme appelé LASER 2.0, développé précédemment par le laboratoire de recherche en IA de Facebook, qui utilise un apprentissage non supervisé – un apprentissage automatique qui ne nécessite pas de données étiquetées manuellement – pour faire correspondre les phrases d’une langue à l’autre en fonction de leur signification.

Le LASER 2.0 crée ce que l’on appelle des « incrustations » à partir de grands ensembles de phrases non structurées. Il s’entraîne sur les exemples de phrases disponibles dans chaque langue et établit des relations entre elles en fonction de la fréquence et de la proximité de leur utilisation. Ces incrustations aident le modèle d’apprentissage machine à se rapprocher du sens de chaque phrase, ce qui permet ensuite au LASER 2.0 de coupler automatiquement des phrases qui partagent le même sens dans différentes langues.

Appariement des langues : Les chercheurs se sont concentrés sur les combinaisons de langues qui, selon eux, seraient les plus demandées. Ils ont regroupé les langues en fonction de leurs similitudes linguistiques, géographiques et culturelles, en partant du principe que les personnes vivant dans la même région communiqueraient plus souvent. Un groupe de langues, par exemple, comprenait les langues les plus couramment parlées en Inde, dont le bengali, l’hindi, le tamoul et l’urdu. LASER 2.0 a ensuite ciblé sa recherche de paires de phrases sur toutes les paires de langues possibles au sein de chaque groupe.

Les langues parlées dans des endroits comme l’Afrique et l’Asie du Sud-Est souffrent encore de problèmes de qualité de traduction, car les données linguistiques disponibles sont trop peu nombreuses pour être extraites du web, explique Angela Fan, la chercheuse principale du projet. Compte tenu de la dépendance aux données du web, les chercheurs doivent également trouver des techniques pour identifier et éradiquer tout sexisme, racisme et autres préjugés discriminatoires. Pour l’instant, les chercheurs ont utilisé un filtre de « blasphème » pour nettoyer certains propos particulièrement choquants, mais il se limite essentiellement à l’anglais.

Facebook ne prévoit pas pour l’instant d’utiliser ce modèle dans ses produits. Le M2M-100 est destiné à la recherche uniquement, explique Fan. Cependant, l’objectif final est que le modèle améliore et étende les capacités de traduction existantes de Facebook. Les applications pourraient inclure la communication avec les utilisateurs (par exemple, la fonction qui permet aux gens de traduire des messages dans leur langue maternelle) et peut-être la modération de contenu.

https://www.technologyreview.com/2020/10/19/1010678/facebook-ai-translates-between-100-languages

https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

https://venturebeat.com/2020/10/19/facebooks-open-source-m2m-100-model-can-translate-between-100-different-languages/

https://ai.facebook.com/blog/laser-multilingual-sentence-embeddings/