Skip to main content

10 Fév, 2023

Les outils d’IA créent désormais des vidéos et des effets sonores correspondants

Les outils d’IA créent désormais des vidéos et des effets sonores correspondants

Gen-1 vous permet de créer instantanément vos propres filtres de transformation alimentés par l’IA pour la vidéo.

« Pas de lumières, pas de caméras, que de l’action. » Vous saviez que ça allait arriver. L’une des principales entreprises à l’origine du générateur d’images Stable Diffusion a lancé un outil époustouflant de création et de montage de vidéos par l’IA, qui fonctionne un peu comme DALL-E pour les images animées.

Runway AI travaille sur un certain nombre d’extraordinaires projets d’IA créative de nouvelle génération, mais son outil vidéo Gen-1, qui vient d’être lancé, est un instantané vraiment saisissant de l’état d’avancement de cette technologie et de la vitesse à laquelle elle progresse.

Regardez ce que Gen-1 peut faire. Il ne s’agit pas d’un véritable générateur de texte-vidéo ; vous ne pouvez pas lui demander de s’en aller et de réaliser une publicité pour des aliments pour chiens dans le style d’Hitchcock. Enfin, pas encore. Au lieu de cela, il vous demande une vidéo d’entrée, puis crée différentes versions de cette vidéo d’entrée en réponse à des invites de texte, d’image ou de vidéo.

Ainsi, si vous filmez quelque chose de manière très approximative – juste pour obtenir les angles de base, les actions et les mouvements de caméra – vous pouvez demander à Gen-1 de prendre cette séquence et de la recréer dans un style complètement différent. Vous pouvez lui dire « faites une scène de film noir », ou « faites une scène sous-marine dans l’Atlantide », ou « mettez ces personnages dans un bus en mouvement à Londres ». C’est comme si vous pouviez maintenant concevoir instantanément vos propres filtres Snapchat.

Ou vous pouvez trouver une image ou une vidéo qui correspond au style que vous recherchez et la télécharger. Gen-1 l’analysera, trouvera ce que c’est et fera de son mieux pour recréer les éléments clés de votre vidéo dans un contexte similaire. Vous pouvez aussi lui demander d’isoler et de suivre un sujet, et de le modifier d’une manière ou d’une autre. Vous pouvez également utiliser un ensemble plus large de données d’entraînement pour améliorer la fidélité de vos résultats. Consultez le site :

Gen-1 : la prochaine étape de l’IA générative.

Oui, à l’instar des filtres Snapchat, cette technologie est un peu grossière, vacillante et instable pour le moment, mais même sous sa forme actuelle, elle est déjà tout à fait pertinente pour les clips musicaux, les publicités et un large éventail d’autres projets vidéo artistiques.

Et peu importe qu’il s’agisse de la Gen-1 ou d’une autre technologie, la direction que prendront les choses devrait être claire. Le rythme des progrès de l’IA créative est effréné. Clignez des yeux, et des algorithmes comme celui-ci réaliseront des films entiers en 3D 4K. Téléchargez Pulp Fiction et voyez-le interprété entièrement par des chiens. Prenez un dessin animé et générez une version en prise de vue réelle différente pour chaque région où il est diffusé, en changeant la race des acteurs, le décor, les arrière-plans et les points de repère pour que chacun se sente chez lui. Donnez à tous les acteurs du film une moustache en forme de guidon. Remplacez automatiquement vos placements de produits. Retirez Winnie l’ourson de l’étagère des jouets pour enfants pour la sortie en Chine. Remettez les fesses sur les chats.

Cela deviendra un studio d’effets visuels super rapide et super bon marché dans une boîte. Et si les spécialistes des effets sonores ne se sentent pas suffisants, Runway a également des emplois dans le domaine de l’audio en ligne de mire.

La société semble être encore au stade de la recherche sur un autre système appelé Soundify. Soundify accepte une entrée vidéo, l’analyse pour déterminer ce que c’est et ce qui est susceptible de se passer, puis crée le son correspondant.

Disons que vous téléchargez une scène où quelqu’un monte dans une voiture garée à la campagne et s’en va. Le logiciel tente de faire correspondre un fond sonore à l’environnement, puis d’identifier les sujets, ce qu’ils font, les moments exacts où leur activité devrait produire des sons, et d’où ces sons devraient provenir dans l’espace stéréo. Ensuite, il génère ce son, adapté à la vidéo. Il doit y avoir des bruits de pas, des bruits de fermeture de porte, des bruits de moteur, des bruits de pneus, tout ce que la scène exige. Voici quelques exemples :

Soundify Sample Result A

Encore une fois, comme Gen-1, Soundify est une itération précoce et n’est pas encore prêt pour le prime time. Mais honnêtement, qui parierait contre les outils d’IA à ce stade – en particulier ceux qui permettront à un réalisateur de modifier son résultat avec le même genre de messages en langage clair qu’il donne actuellement à son équipe d’effets sonores ?

Ces outils constituent un autre point d’inflexion doux-amer ; ils vont démocratiser la création cinématographique dans une mesure qui aurait été inimaginable il y a quelques années. Ils vont également faire disparaître des carrières entières – dans ce cas, des carrières de rêve pour les créatifs.

A un moment donné, ces outils vont commencer à converger. Les générateurs de texte issus d’entités divines comme ChatGPT commenceront à imaginer des scénarios entiers, du concept au style artistique en passant par le script, en se basant sur leur connaissance encyclopédique de toute l’histoire de cette forme d’art, combinée à une capacité sans précédent à suivre les tendances, les problèmes, les préoccupations, l’utilisation du langage et la mode de l’humanité actuelle.

Ils s’interfaceront avec un générateur d’images de type DALL-E pour créer un style visuel cohérent, en s’inspirant de toutes les œuvres d’art humaines significatives depuis les peintures rupestres. Et ils s’interfaceront avec des outils de création de films comme Gen-1 et Soundify, eux aussi formés à toutes les œuvres cinématographiques importantes que l’homme a créées, pour produire des films entiers, des publicités, des Tik Tok, des vidéos de vœux de Noël personnalisées, de la propagande… Vous voyez le genre. Tout style, tout visage, toute voix, toute modification, rien ne le dérange.

Des bandes-son ? Avez-vous consulté l’outil MusicLM de Google ? Encore à ses débuts, il crée des enregistrements entiers, entièrement orchestrés et mixés, dans presque tous les styles possibles, en réponse à des invites textuelles. La musique s’élèvera et s’abaissera parfaitement en réponse au scénario et à l’action ; il sera trivial pour des outils comme celui-ci de repérer le point culminant émotionnel d’une scène et de l’amplifier ou de le renverser avec une musique parfaitement synchronisée. L’ensemble du système répondra aux demandes de changement sans effort, comme les clients semblent l’attendre des professionnels de la vidéo d’aujourd’hui.

Bandes-annonces, affiches, produits dérivés… il est difficile de voir quelles parties de l’ensemble de l’industrie cinématographique ne peuvent pas être transformées en algorithmes rapides comme l’éclair. Et si l’on considère l’état actuel de cette technologie, on peut légitimement parler d’un système réalisable d’ici dix ans.

À plus petite échelle, que diriez-vous de créer votre propre filtre Snapchat personnalisé pour une vidéo en direct, en utilisant simplement des images ou du texte ? Ceci sera réalisable dans trois ans, au maximum.

https://research.runwayml.com/gen1

https://www.vanityfair.com/hollywood/2020/04/cats-butthole-cut-vfx-editor

https://google-research.github.io/seanet/musiclm/examples/