Skip to main content

7 Fév, 2020

Comment L’IA a contribué à faire passer un film de 1896 au format 4K

Comment L’IA a contribué à faire passer un film de 1896 au format 4K

L’Arrivée d’un train en gare de La Ciotat

Lors de la première du court métrage muet de 50 secondes « L’Arrivée d’un train en gare de La Ciotat » en 1896, certains spectateurs auraient couru pour se mettre à l’abri à la vue d’un train projeté en approche, pensant qu’un vrai train allait éclater à tout moment sur l’écran. Une idée folle, vu la qualité floue et de basse résolution du film original. Heureusement, ces pionniers cinéphiles paniqués n’ont jamais vu la version améliorée par l’IA de Denis Shiryaev, sinon ils auraient complètement retourné leur veste.

Denis Shiryaev a utilisé un ensemble de programmes d’amélioration disponibles au public, DAIN et l’IA Gigapixel de Topaz Labs, pour transformer la séquence originale en un clip 4K à 60FPS. L’IA Gigapixel utilise un algorithme d’interpolation propriétaire qui « analyse l’image, reconnaît les détails et les structures et « complète » l’image » selon le site web de Topaz Labs. En fait, Topaz a appris à une IA à rendre les images plus nettes et plus claires, même après qu’elles aient été agrandies de 600 %. DAIN, en revanche, imagine et insère des images entre les images clés d’un clip vidéo existant. C’est le même concept que la fonction de lissage de mouvement des téléviseurs 4K que seuls vos parents utilisent. Dans ce cas, cependant, il a ajouté suffisamment d’images pour augmenter le taux à 60 FPS.

Ce sont deux exemples de technologie de montée en qualité, qui est un élément essentiel du divertissement télévisuel depuis 1998, lorsque les premiers téléviseurs haute définition sont arrivés sur le marché. Les anciens téléviseurs à définition standard affichaient une résolution de 720×480, soit un total de 345 600 pixels de contenu pouvant être diffusé en une seule fois. Les téléviseurs haute définition affichent une résolution de 1920×1080, soit un total de 2 073 600 pixels (six fois la résolution SD), tandis que les téléviseurs 4K, avec leur résolution de 3840×2160, ont besoin de 8 294 400 pixels.

Il faut ajouter 6 millions de pixels supplémentaires pour agrandir une image HD afin qu’elle tienne sur un écran 4K. Le upscaler doit donc trouver ce qu’il faut pour afficher ces pixels supplémentaires. C’est là qu’intervient le processus d’interpolation. L’interpolation estime ce que chacun de ces nouveaux pixels devrait afficher en fonction de ce que les pixels autour d’eux montrent ; cependant, il existe un certain nombre de façons différentes de mesurer cela.

La méthode du « plus proche voisin » consiste simplement à remplir les pixels vides avec la même couleur que leur plus proche voisin (d’où le nom). C’est simple et efficace, mais le résultat est une image irrégulière, avec des pixels en dents de scie. L’interpolation bilinéaire exige un peu plus de puissance de traitement, mais elle permet au téléviseur d’analyser chaque pixel vide en fonction de ses deux voisins les plus proches et de générer un gradient entre eux, ce qui rend l’image plus nette. L’interpolation bicubique, par contre, échantillonne ses 16 voisins les plus proches. Il en résulte une coloration précise mais une image floue. Pourtant, en combinant les résultats de l’interpolation bilinéaire et bicubique, les téléviseurs peuvent prendre en compte les défauts de chaque processus et générer des images à l’échelle supérieure avec une perte minimale de qualité optique (netteté et artefacts occasionnels) par rapport à l’original.

Puisque le processus d’interpolation est essentiellement un jeu de devinettes, pourquoi ne pas demander à une IA de prendre les décisions ? En utilisant des réseaux neuronaux convolutionnels profonds, des programmes comme DAIN peuvent analyser et cartographier des clips vidéo, puis insérer les images de remplissage générées entre les images existantes.

L’effet n’est en aucun cas parfait. Chris Schodt, un producteur vidéo pour le site Engadget, a noté de nombreux artefacts visuels lors d’une inspection rapprochée, notamment un mouvement de train ondulant et des piétons fondus. « En bref, c’est très beau comme une pièce de la taille de YouTube », a déclaré Chris Schodt. « Mais si on le passe en plein écran, j’ai l’impression que les objets du premier plan et l’intérieur des objets sont plutôt bien, mais si on regarde les bords des objets, ou des trucs en arrière-plan, les coutures se défont un peu ».

Même avec ses défauts actuels, la technique de Denis Shiryaev offre des possibilités séduisantes. Pourrait-on assister bientôt à une renaissance du cinéma muet grâce à la numérisation et à l’augmentation des stocks de films par l’IA ?

https://www.engadget.com/2020/02/04/how-ai-helped-upscale-an-antique-1896-film-to-4k/

https://help.topazlabs.com/hc/en-us/articles/360012419692-Introducing-Gigapixel-AI

https://pathmind.com/wiki/convolutional-network

https://arxiv.org/abs/1811.10515