Skip to main content

12 Août, 2020

La nouvelle IA fait croire aux humains que les effets sonores synthétisés sont réels

La nouvelle IA fait croire aux humains que les effets sonores synthétisés sont réels

Grâce à l’apprentissage machine, AutoFoley détermine les actions qui se déroulent dans un clip vidéo et crée des effets sonores réalistes

Imaginez que vous soyez en train de regarder un film d’horreur : l’héroïne se faufile dans un sous-sol sombre, en état d’alerte. Une musique de suspense joue en arrière-plan, tandis qu’une créature invisible et sinistre se faufile dans l’ombre… et puis-BANG ! Elle renverse un objet.

De telles scènes ne seraient guère aussi captivantes et effrayantes sans les effets sonores intenses, mais parfaitement synchronisés, comme le grand boum qui a fait tourner notre personnage principal dans la peur. En général, ces effets sonores sont enregistrés par les artistes de Foley en studio, qui produisent les sons à l’aide des nombreux objets à leur disposition. L’enregistrement du bruit de verre brisé peut impliquer de briser le verre à plusieurs reprises, par exemple, jusqu’à ce que le son corresponde étroitement au clip vidéo.

Plus récemment, les chercheurs ont créé un programme automatisé qui analyse le mouvement des images vidéo et crée ses propres effets sonores artificiels en fonction de la scène. Lors d’un sondage, la majorité des personnes interrogées ont indiqué qu’elles croyaient que les faux effets sonores étaient réels. Le modèle, AutoFoley, est décrit dans une étude publiée le 25 juin dans IEEE Transactions on Multimedia.

« L’ajout d’effets sonores en post-production en utilisant l’art de Foley a été une partie complexe des bandes sonores de films et de télévision depuis les années 1930 », explique Jeff Prevost, un professeur de l’Université du Texas à San Antonio qui a cocréé AutoFoley. « Les films sembleraient creux et distants sans la couche contrôlée d’une bande sonore réaliste de Foley. Cependant, le processus de synthèse sonore de Foley ajoute donc un temps et un coût importants à la création d’un film ».

Intrigués par l’idée d’un système Foley automatisé, Jeff Prévost et sa doctorante, Sanchita Ghose, ont entrepris de créer un programme d’apprentissage automatique à plusieurs niveaux. Ils ont créé deux modèles différents pouvant être utilisés dans la première étape, qui consiste à identifier les actions dans une vidéo et à déterminer le son approprié.

Le premier modèle d’apprentissage machine extrait les caractéristiques de l’image (par exemple, la couleur et le mouvement) des images des clips d’action rapide pour déterminer un effet sonore approprié.

Le second modèle analyse la relation temporelle d’un objet dans des images séparées. En utilisant le raisonnement relationnel pour comparer différentes images dans le temps, le second modèle peut anticiper l’action qui se déroule dans la vidéo.

Dans une dernière étape, le son est synthétisé pour correspondre à l’activité ou au mouvement prédit par l’un des modèles. Jeff Prevost et Sanchita Ghose ont utilisé AutoFoley pour créer le son de 1 000 courts-métrages capturant un certain nombre d’actions courantes, comme une pluie qui tombe, un cheval au galop et une horloge qui fait tic-tac.

L’analyse montre – sans surprise – que l’AutoFoley est le meilleur moyen de produire des sons lorsque le timing n’a pas besoin de s’aligner parfaitement avec la vidéo (par exemple, une pluie qui tombe, un feu qui crépite). Mais le programme est plus susceptible d’être désynchronisé par rapport à la vidéo lorsque les scènes visuelles contiennent des actions aléatoires avec des variations dans le temps (par exemple, la frappe, les orages).

Ensuite, Jeff Prevost et Sanchita Ghose ont interrogé 57 étudiants de l’université locale sur les clips vidéo qui, selon eux, comportaient des bandes sonores originales. En évaluant les bandes sonores générées par le premier modèle, 73 % des étudiants interrogés ont choisi le clip AutoFoley synthétisé comme pièce originale, plutôt que le véritable clip sonore original. Lors de l’évaluation du second modèle, 66% des personnes interrogées ont choisi le clip AutoFoley plutôt que le clip sonore original.

« Une des limites de notre approche est l’exigence que le sujet de la classification soit présent dans toute la séquence d’images vidéo », explique M. Prevost, qui note également que l’AutoFoley repose actuellement sur un ensemble de données comportant des catégories de Foley limitées. Bien qu’un brevet pour AutoFoley soit encore au stade initial, Jeff Prevost indique que ces limitations seront prises en compte dans les recherches futures.

https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/new-ai-dupes-humans-into-believing-synthesized-sound-effects-are-real

https://ieeexplore.ieee.org/document/9126216/