Un outil d’IA transforme des photos 2D en scènes 3D en quelques secondes
Un outil d’IA transforme des photos 2D en scènes 3D en quelques secondes

Pour démontrer l’efficacité de l’outil Instant NeRF, Nvidia a transformé des photos d’un mannequin habillé comme Andy Warhol en une image tridimensionnelle haute résolution.
Lors de la conférence des développeurs de la GTC de la semaine dernière, Nvidia a dévoilé un outil d’IA très astucieux qui prend plusieurs photos 2D de la même scène sous différents angles et les transforme presque instantanément en un rendu numérique tridimensionnel.
Cette avancée s’appuie sur des recherches menées par l’université de Berkeley, Google et l’université de San Diego, qui utilisent des réseaux neuronaux pour rendre des images 3D photoréalistes de scènes en utilisant comme source un petit ensemble de photos 2D prises sous différents angles. L’outil NeRF (Neural Radiance Fields) estime essentiellement les informations relatives à la couleur et à la lumière de la scène qui manquent dans les données d’entrée et comble les lacunes.
Bien que les premiers modèles NeRF aient pu produire des scènes rendues en quelques minutes, la formation des réseaux neuronaux prenait beaucoup plus de temps. Le développement de l’Instant NeRF de Nvidia réduit essentiellement les temps de formation et de rendu « de plusieurs ordres de grandeur » et peut former le modèle sur quelques dizaines d’images fixes (avec les données d’angle de caméra) en quelques secondes seulement, puis rendre une scène 3D à 1 920 x 1 080 pixels quelques dizaines de millisecondes plus tard.
L’outil Instant NeRF de Nvidia peut entraîner un réseau neuronal pour estimer les informations manquantes sur la couleur et l’éclairage à partir d’un petit ensemble de photos 2D et rendre une image 3D complète en quelques secondes.

Cela a été rendu possible grâce au développement d’une nouvelle méthode d’encodage d’entrée appelée encodage de grille de hachage multi-résolution (multi-resolution hash grid encoding), qui a été optimisée pour les GPU Nvidia et permet d’obtenir « des résultats de haute qualité à l’aide d’un minuscule réseau neuronal qui fonctionne rapidement. »
« Si les représentations 3D traditionnelles comme les maillages polygonaux s’apparentent à des images vectorielles, les NeRF sont comme des images bitmap : ils capturent de manière dense la façon dont la lumière rayonne d’un objet ou au sein d’une scène », a déclaré le vice-président de la recherche graphique de Nvidia, David Luebke. « En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l’ont été pour la photographie 2D – en augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D. »
La société suggère que la technologie pourrait trouver une utilité dans l’entraînement des robots et des voitures à conduite autonome pour mieux comprendre les objets du monde réel, ainsi que pour la création de contenu en réalité virtuelle, la vidéoconférence, la cartographie numérique, l’architecture et le divertissement. La vidéo ci-dessous en dit plus.
https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/