Skip to main content

22 Avr, 2024

L’IA de Microsoft crée des vidéos parlantes étonnantes à partir d’une seule photo

L’IA de Microsoft crée des vidéos parlantes étonnantes à partir d’une seule photo

Le modèle d’IA VASA-1 peut générer des séquences vidéo de têtes parlantes réalistes à partir d’une seule photo de référence, qui est synchronisée avec une piste audio.

Microsoft Research Asia a dévoilé un modèle d’IA capable de générer des vidéos « deepfake » d’un réalisme effrayant à partir d’une seule image fixe et d’une piste audio. Comment pourrons-nous désormais faire confiance à ce que nous voyons et entendons en ligne ?

Les systèmes d’intelligence artificielle nous ont surpassés sur des points de référence clés au cours des dernières années, et de nombreuses personnes s’inquiètent déjà d’être prématurément mises au rancart et remplacées par des algorithmes.

Nous avons récemment vu des gadgets intelligents relativement limités se transformer en puissants assistants quotidiens et en outils de productivité essentiels. Il existe également des modèles capables de générer des effets sonores réalistes sur des clips vidéo muets, et même de créer des séquences étonnantes à partir d’invites textuelles. Le cadre VASA-1 de Microsoft semble être un autre grand pas en avant.

Après avoir entraîné le modèle sur des séquences d’environ 6 000 visages parlants de la vie réelle provenant de l’ensemble de données VoxCeleb2, la technologie est capable de générer une vidéo réelle dans laquelle le sujet nouvellement animé est non seulement capable de se synchroniser avec précision sur une piste audio vocale fournie, mais aussi d’arborer des expressions faciales variées et des mouvements de tête naturels, le tout à partir d’une simple photo statique de la tête.

Ce modèle est assez similaire au modèle de diffusion Audio2Video de l’Institut pour l’informatique intelligente d’Alibaba, apparu il y a quelques mois, mais il est encore plus réaliste et précis sur le plan photographique. VASA-1 serait capable de générer des vidéos synchronisées de 512×512 pixels à 40 images par seconde, « avec une latence initiale négligeable ».

Le modèle d’IA VASA-1 est capable de générer une vidéo réelle et effrayante, non seulement capable de se synchroniser sur une piste audio vocale fournie, mais aussi d’inclure des expressions faciales et des mouvements de tête naturels, le tout à partir d’une seule prise de vue statique de la tête.

Bien que toutes les photos de référence utilisées pour les démonstrations du projet aient été elles-mêmes générées par StyleGAN2 ou DALL-E, il y a un exemple réel remarquable utilisé pour montrer les prouesses du framework pour sortir de son cadre de formation – une Mona Lisa qui rappe !

La page du projet présente de nombreux exemples de vidéos de conversation et de chant générées à partir d’une image fixe et associées à une piste audio, mais l’outil propose également des commandes optionnelles pour définir la « dynamique faciale et les poses de la tête », telles que les émotions, les expressions, la distance par rapport à la caméra vidéo virtuelle et la direction du regard. Un outil puissant.

« L’émergence de visages parlants générés par l’IA ouvre une fenêtre sur un avenir où la technologie amplifie la richesse des interactions entre humains et entre humains et IA », peut-on lire dans l’introduction d’un article décrivant cette réalisation. « Cette technologie promet d’enrichir la communication numérique, d’accroître l’accessibilité pour les personnes souffrant de troubles de la communication, de transformer les méthodes d’enseignement grâce au tutorat interactif de l’IA et d’apporter un soutien thérapeutique et une interaction sociale dans le domaine des soins de santé.« 

Les chercheurs reconnaissent cependant le risque d’utilisation abusive. Bien qu’il semble déjà impossible de distinguer les faits de la fabrication pure et simple lorsque nous digérons notre dose quotidienne d’informations en ligne, imaginez que vous disposiez d’un outil capable de faire dire à pratiquement n’importe qui ce que vous voulez qu’il dise.

Il peut s’agir de faire une farce inoffensive à un parent en lui envoyant un FaceTime de son acteur hollywoodien ou de sa pop star préférée, d’impliquer un innocent dans un crime grave en publiant des aveux en ligne, d’escroquer quelqu’un en prenant l’apparence d’un petit-enfant chéri en difficulté, de faire en sorte que des hommes politiques importants soutiennent des programmes controversés, et ainsi de suite. De manière réaliste et convaincante.

Toutefois, le contenu généré par le modèle VASA-1 « contient des artefacts identifiables » et les chercheurs n’ont pas l’intention de rendre la plateforme accessible au public « tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur ».

https://www.microsoft.com/en-us/research/project/vasa-1

https://arxiv.org/abs/2404.10667