Skip to main content

29 Jan, 2024

Google annonce le développement de Lumiere, un générateur de texte-vidéo de nouvelle génération basé sur l’intelligence artificielle.

Google annonce le développement de Lumiere, un générateur de texte-vidéo de nouvelle génération basé sur l’intelligence artificielle.

Exemples de résultats générés par Lumiere, y compris la génération de texte-vidéo (première ligne), la génération d’images-vidéo (deuxième ligne), la génération référencée par style et l’inpainting vidéo (troisième ligne ; la boîte de délimitation indique la région du masque d’inpainting).

Une équipe de chercheurs en IA de Google Research a mis au point un générateur de texte-vidéo de nouvelle génération basé sur l’IA, appelé Lumiere. Le groupe a publié un article décrivant ses efforts sur le serveur de prépublication arXiv.

Au cours des dernières années, les applications de l’intelligence artificielle sont passées du laboratoire de recherche à la communauté des utilisateurs au sens large. Des LLMs tels que ChatGPT, par exemple, ont été intégrés aux navigateurs, permettant aux utilisateurs de générer du texte de manière inédite.

Plus récemment, des générateurs texte-image ont permis aux utilisateurs de créer des images surréalistes. Enfin, les générateurs de texte-vidéo ont permis aux utilisateurs de créer de courts clips vidéo à partir de quelques mots seulement. Dans ce nouvel effort, l’équipe de Google a porté cette dernière catégorie à de nouveaux sommets avec l’annonce d’un générateur texte-vidéo appelé Lumiere.

Lumiere, qui doit son nom aux frères Lumière, pionniers de l’équipement photographique, permet aux utilisateurs de saisir une phrase simple telle que « deux ratons laveurs lisant des livres ensemble » et d’obtenir en retour une vidéo complète montrant deux ratons laveurs en train de lire des livres, et ce avec une résolution étonnamment élevée. Le nouveau générateur représente une nouvelle étape dans le développement des générateurs de texte-vidéo, car il permet d’obtenir des résultats de bien meilleure qualité.

Google décrit la technologie qui sous-tend le nouveau générateur comme une « architecture Space-Time U-Net révolutionnaire ». Il a été conçu pour générer des vidéos animées en un seul passage de modèle.

La vidéo de démonstration montre que Google a ajouté des fonctionnalités supplémentaires, comme la possibilité pour les utilisateurs de modifier une vidéo existante en mettant en surbrillance une partie de celle-ci et en tapant des instructions, telles que « changer la couleur de la robe en rouge ».

Le générateur produit également différents types de résultats, tels que des stylisations, où le style d’un sujet est créé plutôt qu’une représentation en couleur. Il autorise également les sous-styles, tels que les différentes références de style. Il permet également de créer des cinémagraphes, dans lesquels l’utilisateur peut mettre en évidence une partie ou la totalité d’une image fixe et l’animer.

Un cinémagraphe est une photographie animée d’un léger mouvement répétitif. Il est généralement au format GIF animé et peut donner l’impression de regarder une vidéo

Dans son annonce, Google n’a pas précisé s’il prévoyait de publier ou de distribuer Lumiere au public, probablement en raison des ramifications juridiques évidentes qui pourraient découler de la création potentielle de vidéos violant les lois sur les droits d’auteur.

https://techxplore.com/news/2024-01-google-lumiere-ai-based-generation.html

https://arxiv.org/abs/2401.12945

https://lumiere-video.github.io/