Skip to main content

9 Nov, 2021

Attention, vidéastes de mariage, l’IA arrive et les éditeurs vidéo automatisés fusionneront intelligemment les flux simultanés d’événements

Attention, vidéastes de mariage, l’IA arrive et les éditeurs vidéo automatisés fusionneront intelligemment les flux simultanés d’événements

Vous vous souvenez peut-être d’avoir assisté à un mariage et d’avoir trouvé sur chaque table un appareil photo bon marché, accompagné d’une note demandant aux invités de prendre des photos de leur mariage. Ou, plus récemment, vous avez peut-être ajouté vos vidéos d’un mariage, d’un match de football d’enfants ou d’un autre événement à un dossier en ligne partagé. Dans ces deux cas, l’hôte de l’événement ou la personne désignée a eu beaucoup de travail à faire pour transformer ces images et ces vidéos en un souvenir utilisable.

Bien que la qualité des vidéos enregistrées par les smartphones se soit considérablement améliorée ces dernières années, la difficulté de collecter et d’assembler plusieurs enregistrements d’un même événement n’a guère changé. Bien sûr, les experts de TikTok, les influenceurs d’Instagram et d’autres amateurs dévoués ont appris à utiliser des logiciels de montage pour assembler des films de smartphones engageants et partageables.

Mais cela laisse beaucoup d’entre nous hors du coup, mais plus pour très longtemps. La prochaine frontière de la création vidéo grand public sera alimentée par l’IA, et non par un vidéaste professionnel ou un amateur passionné. Ces systèmes combineront intelligemment et automatiquement des vidéos provenant de plusieurs smartphones et autres appareils vidéo, y compris des caméras d’action, des drones, des caméras à cardan ou pratiquement toute autre caméra connectée, pour en faire une production finie. Nous pensons que ce type de système sera disponible pour les consommateurs d’ici 2 à 3 ans.

Il s’agit de la production vidéo multicam grand public, un écosystème de technologies qui pourrait bien faire disparaître les vidéastes de mariage, ou du moins leur faire perdre de l’argent. Les éléments constitutifs de ce système existent déjà. Il s’agit des caméras et des logiciels de traitement vidéo avancés intégrés aux smartphones d’aujourd’hui, de l’IA qui est déjà très performante en matière de reconnaissance d’images, et des communications sans fil à haut débit et faible latence, notamment les réseaux sans fil LTE à haut débit, les réseaux Wi-Fi et la 5G.

Voici comment cela fonctionnera.

Imaginez que plusieurs membres d’une famille enregistrent la vidéo d’un événement. Tout d’abord, ils utilisent une application pour rejoindre un projet partagé. Lorsqu’ils commencent à enregistrer, le logiciel de leurs appareils détermine automatiquement ce que chacun filme, en balisant le contenu avec des métadonnées détaillées.

Au fur et à mesure que l’événement progresse, ces flux vidéo balisés par des métadonnées passent des smartphones au cloud. Là, le système de production IA fait correspondre les flux en vérifiant les horodatages, en synchronisant le contenu visuel et audio lorsque cela est possible, et en évaluant la fiabilité de toute la synchronisation.

Ensuite, il classe les flux en termes de distance par rapport aux objets, de direction de la caméra et d’orientation. Et il les classe en termes de contenu, en utilisant la reconnaissance d’objets, la détection de paysages et la reconnaissance faciale et vocale. Il commence également à comparer le contenu entre les flux, en identifiant le contenu qui se trouve dans un flux mais pas dans un autre.

Les algorithmes attribuent des notes au contenu en fonction du contenu lui-même (une personne qui rit dans une scène peut avoir plus de valeur pour le produit final que le fait que la composition d’une image respecte la règle des tiers), ainsi que de paramètres de qualité (un plan bien éclairé et bien composé a plus de chances d’être retenu pour le montage final qu’un autre).

Ces évaluations aident le monteur automatique à composer la vidéo finale, en prenant les décisions qu’un monteur humain prendrait, comme la sélection de clips et le mixage audio. Il peut appliquer des thèmes visuels, compenser les lacunes du contenu par des techniques comme le ralenti ou les images fixes, ajouter des médias de stock si nécessaire et inclure des titres ou des légendes spécifiés par l’utilisateur.

Enfin, le système convertit la vidéo dans des formats et des résolutions adaptés à la plateforme choisie par l’utilisateur, qu’il s’agisse de médias sociaux ou de home cinéma, et ajoute des informations sur les droits d’auteur, voire un filigrane vidéo, pour attester de son authenticité. Il peut également la préparer pour la distribution, via les médias sociaux, un lien textuel ou simplement un fichier téléchargeable.

À l’avenir, lorsque les réseaux sans fil à haut débit permettront un processus de production multicaméra en temps réel, ce système devrait inclure une boucle de rétroaction. Par exemple, si le système d’intelligence artificielle se rend compte qu’il n’y a pas de gros plan de la fille de la famille célébrant le but victorieux, il peut déclencher une caméra de smartphone contrôlable pour zoomer.

Bien entendu, toute application de la technologie vidéo multicaméra doit inclure des mesures de sécurité pour s’assurer que les personnes qui contribuent aux flux de contenu sont connues du système et ont la permission de participer. Une grande partie de ces mesures peut être gérée au niveau de l’application, par le biais de connexions, de mots de passe, etc.

Mais les smartphones génèrent également des données d’identification sur le téléphone lui-même et sur l’utilisateur, qui peuvent être analysées par le système à la recherche d’informations pouvant indiquer un accès non autorisé. Cette production vidéo multicaméra basée sur l’IA pourrait également inclure des garanties pour lutter contre un fléau médiatique contemporain : les « deepfake videos ».

En effet, une vidéo produite par une plateforme vidéo multicaméra pourrait être automatiquement dotée d’un filigrane, indiquant que ce qui a été produit n’a pas été modifié et a été créé à partir d’un contenu réel.

Avec la production vidéo multicaméra, les bases sont en place pour étendre la façon dont nous utilisons nos appareils pour capturer le monde qui nous entoure, transformant la création vidéo, et pas seulement la consommation de vidéos, en une expérience véritablement sociale.

https://spectrum.ieee.org/ai-video-editing

https://citizenlab.ca/2015/05/the-many-identifiers-in-our-pocket-a-primer-on-mobile-privacy-and-security/

https://spectrum.ieee.org/what-is-deepfake