Skip to main content

24 Avr, 2023

La nouvelle IA texte-vidéo de nVidia progresse à un rythme effréné

La nouvelle IA texte-vidéo de nVidia progresse à un rythme effréné

Un stormtrooper passe l’aspirateur à la plage… sauf que la tête de l’aspirateur est un nettoyeur de piscine et qu’elle est branchée sur ses fesses. Nous vivons une époque intéressante

Il y a un mois ou deux, « Will Smith mangeant des spaghettis » faisait passer les IA génératives texte-vidéo pour des plaisanteries, mais nVidia vient de présenter un nouveau système qui semble surpasser les efforts précédents. Le rythme des progrès est étonnant.

Présenté lors de la conférence IEEE 2023 sur la vision artificielle et la reconnaissance des formes, le nouveau générateur vidéo de nVidia commence par un modèle de diffusion latent (MDL) entraîné à générer des images à partir de texte, puis introduit une étape supplémentaire au cours de laquelle il tente d’animer l’image en utilisant ce qu’il a appris en étudiant des milliers de vidéos existantes.

Le MDL est chargé d’estimer ce qui est susceptible de changer dans chaque zone d’une image au cours d’une certaine période. Il crée un certain nombre d’images clés tout au long de la séquence, puis utilise un autre MDL pour interpoler les images entre les images clés, générant ainsi des images de qualité similaire pour chaque image de la séquence.

This is bonkers! Nothing in this video is real, it’s all #AI generated by NVIDIA team using their Video LDMs!
This is a Specific Driving Scenario Simulation by training a bounding box-conditioned image-only LDM
And more in thread  pic.twitter.com/sQIPLE6x7H

— Min Choi (@minchoi) April 20, 2023

nVidia a testé le système en utilisant des séquences de basse qualité de type « dashcam » et a constaté qu’il était capable de générer plusieurs minutes de ce type de vidéo de manière « temporellement cohérente », à une résolution de 512 x 1024 pixels – une prouesse sans précédent dans ce domaine en évolution rapide.

Mais il est également capable de fonctionner à des résolutions beaucoup plus élevées et dans une gamme énorme d’autres styles visuels. L’équipe a utilisé le système pour générer une pléthore d’exemples de vidéos d’une résolution de 1 280 x 2 048 pixels, simplement à partir d’invites textuelles. Ces vidéos contiennent chacune 113 images et sont rendues à 24 images par seconde, soit une durée d’environ 4,7 secondes. Pousser plus loin que cela en termes de durée totale semble casser les choses, et introduit beaucoup plus de bizarreries.

Ils sont toujours clairement générés par l’IA, et il y a encore beaucoup d’erreurs bizarres à trouver. L’emplacement des images clés est également assez évident dans de nombreuses vidéos, avec des accélérations et des ralentissements bizarres autour d’elles. Mais en termes de qualité d’image, il s’agit d’un incroyable bond en avant par rapport à ce que nous avons vu avec ModelScope au début du mois.

NVIDIA announces model for high-resolution text to video generation. It can generate videos with resolution up to 1280 x 2048. pic.twitter.com/waRXCQFWfa

— bleedingedge.ai (@bleedingedgeai) April 19, 2023

Il est assez incroyable d’observer ces étonnants systèmes d’intelligence artificielle dans leur phase de formation, qui commencent à comprendre le fonctionnement des images et des vidéos. Pensez à tout ce qu’ils doivent comprendre : l’espace tridimensionnel, par exemple, et la façon dont un effet de parallaxe réaliste peut se produire lorsqu’une caméra est déplacée. Ensuite, il y a le comportement des liquides, qu’il s’agisse du spectacle des vagues qui s’écrasent contre les rochers au coucher du soleil, du sillage en légère expansion laissé par un canard qui nage, ou de la façon dont le lait à la vapeur se mélange et mousse lorsque vous le versez dans le café.

Il y a aussi les reflets subtilement changeants sur une coupe de raisin en rotation. Ou la façon dont un champ de fleurs se déplace dans le vent. Ou encore la façon dont les flammes se propagent le long des bûches d’un feu de camp et lèchent le ciel. Sans parler de la grande variété de comportements humains et animaux qu’il faut recréer.

NVIDIA released text-to-video research
« Align your Latents:
High-Resolution Video Synthesis with Latent Diffusion Models »
« Only 2.7B of these parameters are trained on videos. This means that our models are significantly smaller than those of several concurrent works.… pic.twitter.com/z868xAkwyT

— Zaesar aifilms.ai (@zaesarius) April 19, 2023

Aujourd’hui, cela incarne le rythme effréné des progrès réalisés dans l’ensemble des projets d’IA générative, des modèles de langage comme ChatGPT aux systèmes de génération d’images, de vidéos, d’audio et de musique. On entrevoit ces systèmes et ils semblent ridiculement impossibles, puis ils sont hilarants et, enfin, ils sont étonnamment bons et extrêmement utiles. Nous nous situons aujourd’hui quelque part entre l’hilarant et l’étonnamment bon.

NVIDIA published a new Text-To-Video method this week which is able to build upon existing pre-trained Latent Diffusion Models like #StableDiffusion 
 pic.twitter.com/z9UUsrB8i7

— Dreaming Tulpa (@dreamingtulpa) April 20, 2023

De la manière dont ce système est conçu, il semble que nVidia cherche à lui donner une capacité unique au monde à prendre des images ainsi que des invites textuelles, ce qui signifie que vous pourriez être en mesure de télécharger vos propres images, ou des images provenant de n’importe quel générateur d’IA donné, et de les développer en vidéos. À partir d’une série d’images de Kermit la grenouille, par exemple, il a été possible de générer une vidéo de lui jouant de la guitare et chantant, ou tapant sur un ordinateur portable.

Il semble donc qu’à un moment relativement proche, il sera possible d’enchaîner ces IA pour créer des formes de divertissement ridiculement intégrées. Un modèle linguistique pourrait écrire un livre pour enfants et le faire illustrer par un générateur d’images. Ensuite, un modèle de ce type pourrait prendre le texte de chaque page et l’utiliser pour animer les illustrations, d’autres IA apportant des effets sonores réalistes, des voix et des bandes sonores musicales finement réglées. Un livre pour enfants devient ainsi un court métrage qui conserve parfaitement l’aspect visuel des illustrations.

À partir de là, ils peuvent commencer à modéliser les environnements entiers de chaque scène en 3D, créer une expérience VR immersive ou construire un jeu vidéo autour de l’histoire. Et si cela se produit, vous pourrez parler directement avec n’importe quel personnage, à propos de ce que vous voulez, puisque les personnages IA personnalisés sont déjà capables de tenir des conversations verbales étonnamment complexes et instructives.

« Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models » from NVIDIA Some very high-resolution, temporally-coherent text-to-video output from this model, which is fine-tuned on video sequences (with a temporally-aware upscaler). pic.twitter.com/LEjTohe39k

— Ben Ferns (@ben_ferns) April 19, 2023

Le plus fou, c’est que l’IA principale sera probablement bien meilleure que nous pour rédiger des messages-guides afin d’obtenir des résultats exceptionnels des autres IA de la chaîne, ainsi que pour évaluer les résultats et demander des révisions – il est donc concevable que ces projets entiers soient générés à partir d’un seul message-guide et de quelques demandes de changement itératives. Cette technologie est absolument stupéfiante ; à un moment plus proche que vous ne le pensez, vous serez en mesure de passer d’une idée conceptuelle à une franchise de divertissement entièrement développée en l’espace de quelques minutes.

Pour l’instant, nVidia traite ce système comme un projet de recherche plutôt que comme un produit de consommation. On peut supposer que la société n’a que peu d’intérêt à payer les coûts de traitement d’un système ouvert, qui risquent d’être importants. Elle cherche probablement aussi à éviter les problèmes de droits d’auteur qui pourraient découler de son ensemble de données d’entraînement, et il est clair qu’il y a d’autres dangers à éviter lorsque ces systèmes commencent à produire des vidéos réalistes de choses qui ne se sont jamais produites.

Mais ne vous y trompez pas : ce genre de choses arrive, et à un rythme que vous pouvez trouver soit palpitant, soit terrifiant. Nous vivons une époque dont on se souviendra comme d’une époque intéressante, à condition qu’il y ait quelqu’un pour s’en souvenir.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/