Skip to main content

20 Fév, 2024

Une nouvelle IA étonnante ajoute des effets sonores réalistes à n’importe quelle vidéo

Une nouvelle IA étonnante ajoute des effets sonores réalistes à n’importe quelle vidéo

« Et si vous pouviez décrire un son et le générer avec l’IA ? », lance ElevenLabs alors que des effets sonores et des dialogues générés par l’IA sont ajoutés à des séquences vidéo générées par Sora d’OpenAI.

La semaine dernière, OpenAI a publié un nouveau modèle d’IA appelé Sora, capable de générer des clips vidéo haute résolution à partir d’invites textuelles. Mais il s’agit essentiellement de films muets intelligents. ElevenLabs vient d’ajouter des sons de fond aux séquences créées par Sora.

La startup ElevenLabs, spécialisée dans le clonage de voix par l’IA, a été cofondée par Piotr Dabkowski, ancien ingénieur en apprentissage automatique chez Google, et Mati Staniszewski, ancien stratège en déploiement chez Palantir, en 2022. Elle a depuis lancé un logiciel de synthèse vocale par l’IA et un outil de doublage par l’IA conçu pour traduire automatiquement le discours d’une vidéo dans plus de 20 langues en « conservant le ton et le style de la voix d’origine ».

Aujourd’hui, l’entreprise travaille sur un nouveau produit, qui serait capable de générer des sons pour accompagner des séquences vidéo autrement silencieuses, en se basant sur les descriptions d’une scène données par un utilisateur.

Il s’agit d’une équipe d’effets sonores et de bruitage dans une boîte, et pour démontrer ses prouesses, ElevenLabs l’a lâchée sur du contenu généré par Sora.

Nous avons utilisé des textes tels que « vagues qui s’écrasent », « métal qui s’entrechoque », « gazouillis d’oiseaux » et « moteur de voiture de course » pour générer des sons que nous avons superposés à certains de nos clips préférés de l’annonce OpenAI Sora », explique la société dans un billet de blog.

Les effets sonores arrivent bientôt chez ElevenLabs

Les détails de Sound Effects by ElevenLabs n’ont pas encore été dévoilés, mais la démo montre une série de clips vidéo générés par Sora et accompagnés de sons d’arrière-plan assez réalistes – des bruits de pas dans une rue animée au bourdonnement de la ville, en passant par les bips et le bourdonnement mécanique d’un robot bipède du futur, jusqu’à une narration de type cinématographique avec une voix promotionnelle de style hollywoodien. Tout cela apparemment à partir de messages texte-audio.

Comme pour Sora, il y aura sans doute des problèmes à résoudre, ainsi que des protections contre la fraude et des protocoles de sécurité à mettre en place, mais le rythme de développement de l’IA étant si rapide, peut-on s’attendre à ce que les Oscars du meilleur produit soient décernés à une IA dans un avenir proche ? Des temps intéressants (et peut-être effrayants) nous attendent.

Nous ne savons pas encore quand la technologie des effets sonores sera mise en place, mais les personnes intéressées sont invitées à manifester leur intérêt.

https://twitter.com/elevenlabsio/status/1759240084342059260