Skip to main content

19 Fév, 2024

Amazon dévoile le plus grand modèle de synthèse vocale jamais réalisé

Amazon dévoile le plus grand modèle de synthèse vocale jamais réalisé

Un aperçu de BASE TTS. Le tokeniseur de parole (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur de code vocal (3) convertit les représentations vocales prédites en une forme d’onde. Crédit : arXiv (2024). DOI : 10.48550/arxiv.2402.08093

Une équipe de chercheurs en intelligence artificielle d’Amazon AGI a annoncé le développement de ce qu’elle décrit comme le plus grand modèle de synthèse vocale jamais réalisé. Par plus grand, ils signifient avoir le plus de paramètres et utiliser le plus grand ensemble de données de formation. Ils ont publié un article sur le serveur de préimpression arXiv décrivant comment le modèle a été développé et formé.

Les LLM comme ChatGPT ont attiré l’attention pour leur capacité humaine à répondre intelligemment aux questions et à créer des documents de haut niveau. Mais l’IA continue également de faire son chemin dans d’autres applications grand public. Dans ce nouvel effort, les chercheurs ont tenté d’améliorer la capacité d’une application de synthèse vocale en augmentant son nombre de paramètres et en élargissant sa base de formation.

Le nouveau modèle , appelé Big Adaptive Streamable TTS with Emergent skills, (BASE TTS en abrégé) comporte 980 millions de paramètres et a été formé à l’aide de 100 000 heures de parole enregistrée (trouvée sur des sites publics), dont la plupart étaient en anglais. L’équipe lui a également donné des exemples de mots et d’expressions prononcés dans d’autres langues pour permettre au modèle de prononcer correctement des expressions connues lorsqu’il les rencontre, « au contraire », par exemple, ou « adios, amigo ».

L’équipe d’Amazon a également testé le modèle sur des ensembles de données plus petits, dans l’espoir de savoir où il développe ce qui est désormais connu dans le domaine de l’IA comme une qualité émergente, dans laquelle une application d’IA, qu’il s’agisse d’une application LLM ou de synthèse vocale, semble soudainement atteindre un niveau d’intelligence supérieur. Ils ont constaté que pour leur application, un ensemble de données de taille moyenne était le lieu où se produisait le saut vers un niveau supérieur, avec 150 millions de paramètres.

Ils ont également noté que ce saut impliquait une multitude d’attributs linguistiques, tels que la capacité d’utiliser des noms composés, d’exprimer des émotions, d’utiliser des mots étrangers, d’appliquer la paralinguistique et la ponctuation et de poser des questions en mettant l’accent sur le bon mot dans une phrase.

L’équipe affirme que BASE TTS ne sera pas rendu public – elle craint qu’il ne soit utilisé de manière contraire à l’éthique – mais prévoit de l’utiliser comme application d’apprentissage. Ils espèrent appliquer ce qu’ils ont appris jusqu’à présent pour améliorer la qualité sonore des applications de synthèse vocale en général.

https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data

https://arxiv.org/abs/2402.08093