Le Translatotron de Google convertit une langue parlée en une autre, sans texte intermédiaire.
Le Translatotron de Google convertit une langue parlée en une autre, sans texte intermédiaire.

Chaque jour, nous nous approchons un peu plus du fameux poisson Babel de Douglas Adams (1). Un nouveau projet de recherche de Google prend des phrases prononcées dans une langue et produit des mots prononcés dans une autre – mais contrairement à la plupart des techniques de traduction, il n’utilise pas de texte intermédiaire, travaillant uniquement avec l’audio. Cela le rend rapide, mais surtout permet de refléter plus facilement la cadence et le ton de la voix de l’orateur.
Le projet Translatotron, comme on l’appelle, est l’aboutissement de plusieurs années de travaux connexes, bien qu’il s’agisse encore d’une expérience. Les chercheurs de Google et d’autres chercheurs étudient depuis des années la possibilité d’une traduction directe de la parole à la parole, mais ces efforts n’ont porté leurs fruits que récemment.
La traduction de la parole se fait généralement en décomposant le problème en petits problèmes séquentiels : transformer la parole source en texte (parole-à-texte, ou STT), transformer le texte d’une langue en texte dans une autre (traduction automatique), puis transformer le texte résultant en parole (text-to-speech, ou TTS). Cela fonctionne très bien, vraiment, mais ce n’est pas parfait ; chaque étape comporte des types d’erreurs auxquelles elle est sujette, et celles-ci peuvent s’aggraver mutuellement.
De plus, ce n’est pas vraiment la façon dont les gens multilingues traduisent dans leur propre tête, comme le suggère le témoignage sur leur propre processus de pensée. Il est impossible de dire avec certitude comment cela fonctionne exactement, mais peu de gens diraient qu’ils décomposent le texte et le visualisent en changeant de langue, puis lisent le nouveau texte. La cognition humaine est souvent un guide sur la façon de faire progresser les algorithmes d’apprentissage automatique.

Spectrogrammes de la parole source et traduite. La traduction, avouons-le, n’est pas la meilleure. Mais ça sonne mieux !
À cette fin, les chercheurs ont commencé à se pencher sur la conversion des spectrogrammes, des décompositions détaillées de fréquence de l’audio, de la parole dans une langue directement en spectrogrammes dans une autre. Il s’agit d’un processus très différent du processus en trois étapes, qui a ses propres faiblesses, mais aussi ses avantages.
La première est que, bien que complexe, il s’agit essentiellement d’un processus en une seule étape plutôt qu’en plusieurs étapes, ce qui signifie que, si vous avez suffisamment de puissance de traitement, Translatotron pourrait fonctionner plus rapidement. Mais ce qui est plus important pour beaucoup, c’est que le processus permet de conserver facilement le caractère de la voix source, de sorte que la traduction ne s’effectue pas de manière robotisée, mais avec le ton et la cadence de la phrase originale.
Naturellement, cela a un impact énorme sur l’expression, et quelqu’un qui se fie régulièrement à la traduction ou à la synthèse vocale appréciera non seulement ce qu’il dit, mais comment il le dit. On ne saurait trop insister sur l’importance que cela revêt pour les utilisateurs réguliers de la parole synthétique.
La précision de la traduction, admettent les chercheurs, n’est pas aussi bonne que les systèmes traditionnels, qui ont eu plus de temps pour affiner leur précision. Mais bon nombre des traductions qui en résultent sont (au moins partiellement) assez bonnes, et le fait de pouvoir inclure l’expression est un grand avantage à ne pas laisser passer. En fin de compte, l’équipe décrit modestement son travail comme un point de départ démontrant la faisabilité de l’approche, bien qu’il soit facile de voir qu’il s’agit également d’un grand pas en avant dans un domaine important.
L’article décrivant la nouvelle technique a été publié sur Arxiv, et vous pouvez parcourir des exemples de discours, de la source à la traduction traditionnelle à Translatotron, à cette page. Sachez simplement qu’ils ne sont pas tous sélectionnés pour la qualité de leur traduction, mais qu’ils servent plutôt d’exemples de la façon dont le système conserve l’expression tout en obtenant l’essentiel de la signification.
- Le poisson Babel (Babel fish en anglais) est une espèce imaginaire de poisson dans Le Guide du voyageur galactique de Douglas Adams. Il permet, après se l’être enfoncé dans l’oreille, de comprendre n’importe quelle langue. Le nom du poisson renvoie au récit biblique de la Tour de Babel, qui décrit les événements qui, selon la théologie chrétienne et juive, ont conduit Dieu à introduire des langues différentes dans le monde.
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html