Skip to main content

18 Juin, 2019

Un nouvel algorithme de deepfake permet de modifier très facilement les mots d’un locuteur dans une vidéo.

Un nouvel algorithme de deepfake permet de modifier très facilement les mots d’un locuteur dans une vidéo.

Un nouveau logiciel vous permet d’ajouter, de modifier ou de supprimer des mots de la transcription d’une vidéo, et les changements se reflètent de façon transparente dans la vidéo (Crédit : Ohad Fried)

Il est maintenant possible de prendre une vidéo de type « tête parlante » et d’ajouter, de supprimer ou de modifier les mots de l’orateur aussi simplement que vous le feriez avec un traitement de texte. Ce nouvel algorithme de deepfake (1) peut traiter l’audio et la vidéo dans un nouveau fichier dans lequel le haut-parleur dit plus ou moins ce que vous voulez qu’il dise.

C’est le travail d’une équipe collaborative de l’Université de Stanford, du Max Planck Institute for Informatics, de l’Université de Princeton et d’Adobe Research, qui disent que dans un monde parfait, la technologie serait utilisée pour réduire les re-shoots coûteux quand un acteur se trompe, ou quand un scénario doit être changé.

Pour apprendre les mouvements du visage d’un orateur, l’algorithme nécessite environ 40 minutes de vidéo d’apprentissage et une transcription de ce qui est dit, donc ce n’est pas quelque chose qui peut être lancé sur un court extrait vidéo et mis en route si vous voulez de bons résultats. Ces 40 minutes de vidéo donnent à l’algorithme la chance de déterminer exactement les formes de visage que le sujet prend pour chaque syllabe phonétique dans le script original.

A partir de là, une fois le script édité, l’algorithme peut ensuite créer un modèle 3D du visage en créant les nouvelles formes requises. Et à partir de là, une technique d’apprentissage machine appelée Rendu neuronal peut peindre le modèle 3D avec des textures photoréalistes pour le rendre pratiquement impossible à distinguer de la réalité.

Comment fonctionne l’algorithme

D’autres logiciels tels que VoCo peuvent être utilisés si vous souhaitez générer l’audio et la vidéo de l’orateur, et il adopte la même approche, en décomposant un tas d’audio d’apprentissage en phonèmes et en utilisant ensuite cet ensemble de données pour générer de nouveaux mots dans une voix familière.

L’équipe est consciente du potentiel d’utilisation contraire à l’éthique de ses logiciels. Le monde n’a pas encore été frappé par son premier grand scandale – peut-être verrons-nous les deepfakes devenir partie intégrante du champ de bataille des élections américaines de 2020 – mais il est facile de les imaginer comme des outils de tromperie incroyablement efficaces devant un public sans éducation.

Il est d’autant plus inquiétant de se rendre compte que leur simple existence permettra à des personnalités malhonnêtes de nier ou de mettre en doute des vidéos authentiques qui les montrent sous un mauvais jour. Dès qu’un ensemble de scandales de grande envergure de taille décente aura dépassé les rédacteurs en chef de CNN et aura été exposé, nous entrerons dans une ère où les gens ne pourront pas, ou plus précisément, ne feront pas confiance à ce qu’ils ont vu dans un format vidéo.

L’équipe de recherche à l’origine de ce logiciel fait de faibles tentatives pour faire face à sa mauvaise utilisation potentielle, en proposant une solution dans laquelle quiconque utilise le logiciel peut facultativement le filigraner comme un faux et fournir « un registre complet d’éditions ». Ce n’est évidemment pas un obstacle à une mauvaise utilisation.

L’équipe suggère également que d’autres chercheurs mettent au point  » de meilleures techniques médico-légales, telles que des techniques d’empreintes digitales ou non, pour déterminer si une vidéo a été manipulée à des fins ultérieures « . En effet, il est possible d’utiliser ici des enregistrements permanents de type blockchain, ce qui permettrait de comparer n’importe quel morceau de vidéo à son point d’origine. Mais cela n’est pas encore en place et on ne sait pas très bien comment il pourrait être mis en œuvre à l’échelle mondiale.

Pour ce qui est de l’aspect non lié à l’empreinte digitale, de nombreuses applications d’apprentissage approfondi, sinon la plupart, se penchent déjà sur le problème de la détection des contrefaçons. En effet, avec l’approche Generative Adversarial Network, deux réseaux s’affrontent – l’un générant faux après faux, et l’autre essayant de choisir les faux à partir de données réelles. Au fil des millions de générations, le réseau de détection s’améliore en matière de détection des faux, et plus il s’améliore, plus le réseau de production de faux doit s’améliorer pour le tromper.

Ainsi, plus ces systèmes parviendront à repérer automatiquement les fausses vidéos, plus les faux le deviendront (faux). Ainsi, les CNN de ce monde ne pourront pas se fier à un algorithme simple qui leur permet de balayer automatiquement les vidéos entrantes à la recherche de deepfakes. Il s’agit d’un problème complexe et grave, et il est pratiquement certain qu’il aura un impact majeur sur les reportages au cours des prochaines décennies, même s’il n’en est encore qu’à ses débuts.

  1. Deepfake, ou hypertrucage ou permutation intelligente de visages, est une technique de synthèse d’images basée sur l’intelligence artificielle. Elle sert principalement à superposer des images et des vidéos existantes sur d’autres images et/ou vidéos (par exemple : le changement de visage d’une personne sur une vidéo). Le terme est un mot-valise formé à partir de deep learning (« apprentissage profond ») et de fake (« faux »). Les deepfakes sont surtout connus pour avoir été utilisés afin de créer de fausses vidéos érotiques (sextapes), mettant en scène des célébrités, et de la pornodivulgation (revenge porn). Cette technique peut être utilisée pour créer des infox et des canulars malveillants.

https://news.stanford.edu/2019/06/05/edit-video-editing-text/