Skip to main content

10 Jan, 2023

La nouvelle IA de Microsoft peut simuler la voix de n’importe qui avec 3 secondes d’audio

La nouvelle IA de Microsoft peut simuler la voix de n’importe qui avec 3 secondes d’audio

Le modèle de synthèse vocale peut préserver le ton émotionnel et l’environnement acoustique du locuteur.

Jeudi, les chercheurs de Microsoft ont annoncé un nouveau modèle d’IA de synthèse vocale dénommé VALL-E, capable de simuler fidèlement la voix d’une personne à partir d’un échantillon audio de trois secondes. Une fois qu’il a appris une voix spécifique, VALL-E peut synthétiser l’audio de cette personne en disant n’importe quoi – et le faire d’une manière qui tente de préserver le ton émotionnel de l’orateur.

Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l’édition de la parole, où l’enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle (en lui faisant dire quelque chose qu’elle ne disait pas à l’origine), et pour la création de contenu audio lorsqu’il est combiné à d’autres modèles d’IA générative comme GPT-3.

Microsoft appelle VALL-E un « modèle de langage de codec neuronal », et il s’appuie sur une technologie baptisée EnCodec, que Meta a annoncée en octobre 2022. Contrairement à d’autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir de textes et d’invites acoustiques.

En fait, il analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » de la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l’échantillon de trois secondes. Ou, comme le dit Microsoft dans le document VALL-E :

Pour synthétiser de la parole personnalisée (par exemple, un TTS sans coupure), VALL-E génère les jetons acoustiques correspondants, conditionnés par les jetons acoustiques de l’enregistrement enrôlé de trois secondes et l’invite de phonème, qui contraignent respectivement les informations sur le locuteur et le contenu. Enfin, les jetons acoustiques générés sont utilisés pour synthétiser la forme d’onde finale avec le décodeur de codec neuronal correspondant.

Microsoft a entraîné les capacités de synthèse vocale de VALL-E sur une bibliothèque audio, assemblée par Meta, appelée LibriLight. Elle contient 60 000 heures de parole en anglais provenant de plus de 7 000 locuteurs, la plupart tirées de livres audio du domaine public LibriVox. Pour que VALL-E génère un bon résultat, la voix de l’échantillon de trois secondes doit correspondre étroitement à une voix des données d’entraînement.

Sur le site Web d’exemples de VALL-E, Microsoft fournit des dizaines d’exemples audio du modèle d’IA en action. Parmi ces exemples, le « Speaker Prompt » est la voix de trois secondes fournie à VALL-E qu’il doit imiter. Le « Ground Truth » est un enregistrement préexistant de ce même locuteur prononçant une phrase particulière à des fins de comparaison (un peu comme le « contrôle » dans l’expérience). Le « Baseline » est un exemple de synthèse fourni par une méthode conventionnelle de synthèse texte-parole, et l’échantillon « VALL-E » est la sortie du modèle VALL-E.

Schéma fonctionnel de VALL-E fourni par les chercheurs de Microsoft.

En utilisant VALL-E pour générer ces résultats, les chercheurs n’ont introduit dans VALL-E que l’échantillon de trois secondes « Speaker Prompt » et une chaîne de texte (ce qu’ils voulaient que la voix dise). Comparez donc l’échantillon « Ground Truth » à l’échantillon « VALL-E ». Dans certains cas, les deux échantillons sont très proches. Certains résultats de VALL-E semblent générés par l’ordinateur, mais d’autres pourraient potentiellement être confondus avec la parole d’un humain, ce qui est l’objectif du modèle.

En plus de préserver le timbre vocal et le ton émotionnel d’un locuteur, VALL-E peut également imiter l' »environnement acoustique » de l’échantillon audio. Par exemple, si l’échantillon provient d’un appel téléphonique, la sortie audio simulera les propriétés acoustiques et fréquentielles d’un appel téléphonique dans sa sortie synthétisée (c’est une façon élégante de dire que cela ressemblera aussi à un appel téléphonique). Et les échantillons de Microsoft (dans la section « Synthèse de la diversité ») démontrent que VALL-E peut générer des variations dans le ton de la voix en changeant la graine aléatoire utilisée dans le processus de génération.

Peut-être en raison de la capacité de VALL-E à alimenter potentiellement l’espièglerie et la tromperie, Microsoft n’a pas fourni le code de VALL-E pour que d’autres puissent l’expérimenter. Les chercheurs semblent conscients du préjudice social potentiel que cette technologie pourrait entraîner. Dans la conclusion de l’article, ils écrivent :

« Puisque VALL-E pourrait synthétiser une parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels de mauvaise utilisation du modèle, comme l’usurpation de l’identification vocale ou l’usurpation de l’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection permettant de déterminer si un clip audio a été synthétisé par VALL-E ». Nous mettrons également en pratique les principes d’IA de Microsoft lors du développement ultérieur des modèles. »

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

https://valle-demo.github.io/

https://arxiv.org/pdf/2301.02111.pdf

https://ai.facebook.com/tools/libri-light/

https://librivox.org/