Skip to main content

4 Mar, 2024

Un système d’IA peut convertir une piste vocale en vidéo d’une personne parlant à l’aide d’une image fixe

Un système d’IA peut convertir une piste vocale en vidéo d’une personne parlant à l’aide d’une image fixe

EMO est un cadre de génération de portraits-vidéos expressifs pilotés par l’audio. À partir d’une image de référence unique et d’une piste audio vocale, par exemple pour parler ou chanter, notre méthode peut générer des vidéos d’avatars vocaux avec des expressions faciales expressives et diverses poses de la tête. En même temps, nous pouvons générer des vidéos de n’importe quelle durée en fonction de la longueur de la piste audio d’entrée.

Une petite équipe de chercheurs en intelligence artificielle de l’Institute for Intelligent Computing, Alibaba Group, démontre, à l’aide de vidéos qu’ils ont créées, une nouvelle application d’IA qui peut accepter une simple photographie du visage d’une personne et une bande sonore d’une personne parlant ou chantant et les utiliser pour créer une version animée de la personne parlant ou chantant la piste vocale. Le groupe a publié un article décrivant son travail sur le serveur arXiv preprint.

Des chercheurs ont déjà présenté des applications d’IA capables de traiter la photographie d’un visage et de l’utiliser pour en créer une version semi-animée. Dans ce nouvel effort, l’équipe d’Alibaba est allée plus loin en ajoutant du son. Et, ce qui est peut-être tout aussi important, elle l’a fait sans utiliser de modèles 3D ni même de repères faciaux. Au lieu de cela, l’équipe a utilisé la modélisation de la diffusion basée sur l’entraînement d’une IA sur de vastes ensembles de données de fichiers audio ou vidéo. En l’occurrence, l’équipe a utilisé environ 250 heures de données de ce type pour créer son application, qu’elle a appelée Emote Portrait Alive (EMO).

En convertissant directement la forme d’onde audio en images vidéo, les chercheurs ont créé une application qui saisit les gestes subtils du visage humain, les bizarreries de la parole et d’autres caractéristiques qui permettent d’identifier une image animée d’un visage comme étant de type humain. Les vidéos recréent fidèlement les formes probables de la bouche utilisées pour former des mots et des phrases, ainsi que les expressions qui y sont généralement associées.

L’équipe a publié plusieurs vidéos montrant les performances étonnamment précises qu’elle a générées, affirmant qu’elles surpassent d’autres applications en termes de réalisme et d’expressivité. Ils notent également que la longueur de la vidéo finie est déterminée par la longueur de la piste audio d’origine. Dans les vidéos, l’image originale est montrée à côté de la personne qui parle ou chante avec la voix de la personne enregistrée sur la piste audio originale.

L’équipe conclut en reconnaissant que l’utilisation d’une telle application devra être restreinte ou surveillée afin d’éviter toute utilisation contraire à l’éthique.

https://techxplore.com/news/2024-03-ai-voice-track-video-person.html

https://arxiv.org/abs/2402.17485