Générer un monde 3D réaliste
Générer un monde 3D réaliste

Illustration d’une simulation virtuelle de salle à manger, alors que la table est en train d’être retournée.
Une nouvelle plateforme virtuelle alimentée par l’IA utilise la physique du monde réel pour simuler un environnement audiovisuel riche et interactif, permettant l’apprentissage, la formation et les études expérimentales pour les humains et les robots.
Dans une cuisine, vous poussez des bols métalliques dans l’évier avec un bruit sourd et vous étendez une serviette sur le dossier d’une chaise. Dans une autre pièce, on a l’impression que des blocs de bois empilés de façon précaire sont tombés et qu’une voiture jouet a fait un accident épique. Ces interactions avec notre environnement ne sont qu’une partie de ce que les humains vivent quotidiennement à la maison, mais si ce monde peut sembler réel, il ne l’est pas.
Une nouvelle étude menée par des chercheurs du MIT, du MIT-IBM Watson AI Lab, de l’université de Harvard et de l’université de Stanford permet de créer un monde virtuel riche, très proche de celui de « Matrix ». Leur plateforme, appelée ThreeDWorld (TDW), simule des environnements audio et visuels de haute-fidélité, tant à l’intérieur qu’à l’extérieur, et permet aux utilisateurs, aux objets et aux agents mobiles d’interagir comme ils le feraient dans la vie réelle et selon les lois de la physique. Les orientations, les caractéristiques physiques et les vitesses des objets sont calculées et exécutées pour les fluides, les corps mous et les objets rigides au fur et à mesure des interactions, produisant des collisions et des bruits d’impact précis.
TDW est unique en ce sens qu’il est conçu pour être flexible et généralisable, générant des scènes synthétiques photoréalistes et un rendu audio en temps réel, qui peuvent être compilés dans des ensembles de données audiovisuelles, modifiés par des interactions au sein de la scène, et adaptés pour l’apprentissage humain et les réseaux neuronaux et les tests de prédiction.
Différents types d’agents robotiques et d’avatars peuvent également être créés dans la simulation contrôlée pour effectuer, par exemple, la planification et l’exécution de tâches. Et en utilisant la réalité virtuelle (RV), l’attention humaine et le comportement de jeu dans l’espace peuvent fournir des données du monde réel, par exemple.
« Nous essayons de construire une plate-forme de simulation polyvalente qui imite la richesse interactive du monde réel pour une variété d’applications d’IA », explique l’auteur principal de l’étude, Chuang Gan, chercheur au MIT-IBM Watson AI Lab.
La création de mondes virtuels réalistes permettant d’étudier les comportements humains et de former des robots est un rêve pour les chercheurs en IA et en sciences cognitives. « À l’heure actuelle, la majeure partie de l’IA est basée sur l’apprentissage supervisé, qui repose sur d’énormes ensembles de données d’images ou de sons annotés par l’homme », explique Josh McDermott, professeur associé au département des sciences cérébrales et cognitives (BCS) et chef de projet au MIT-IBM Watson AI Lab.
Ces descriptions sont coûteuses à compiler, ce qui crée un goulot d’étranglement pour la recherche. Et pour les propriétés physiques des objets, comme la masse, qui n’est pas toujours évidente pour les observateurs humains, les étiquettes peuvent ne pas être disponibles du tout. Un simulateur comme TDW contourne ce problème en générant des scènes dont tous les paramètres et annotations sont connus. De nombreuses simulations concurrentes ont été motivées par cette préoccupation mais ont été conçues pour des applications spécifiques ; grâce à sa flexibilité, TDW est destiné à permettre de nombreuses applications qui ne sont pas adaptées à d’autres plateformes.
Un autre avantage de TDW, note M. McDermott, est qu’il offre un cadre contrôlé pour comprendre le processus d’apprentissage et faciliter l’amélioration des robots d’IA. Les systèmes robotiques, qui reposent sur les essais et les erreurs, peuvent être enseignés dans un environnement où ils ne peuvent pas causer de dommages physiques.
En outre, « beaucoup d’entre nous sont enthousiasmés par les portes que ces types de mondes virtuels ouvrent pour réaliser des expériences sur des humains afin de comprendre la perception et la cognition humaines. Il est possible de créer ces scénarios sensoriels très riches, tout en gardant un contrôle total et une connaissance complète de ce qui se passe dans l’environnement. »
McDermott, Chuang Gan et leurs collègues présenteront ces recherches lors de la conférence sur les systèmes de traitement de l’information neuronale (NeurIPS) en décembre.
Derrière le cadre de travail
Le travail a commencé par une collaboration entre un groupe de professeurs du MIT et des chercheurs de Stanford et d’IBM, liés par des intérêts de recherche individuels sur l’audition, la vision, la cognition et l’intelligence perceptive. TDW les a réunis en une seule plateforme. « Nous étions tous intéressés par l’idée de créer un monde virtuel dans le but de former des systèmes d’IA que nous pourrions utiliser comme modèles du cerveau », explique Josh McDermott, qui étudie l’audition humaine et artificielle.
« Nous avons donc pensé que ce type d’environnement, dans lequel vous pouvez avoir des objets qui interagissent les uns avec les autres et qui restituent ensuite des données sensorielles réalistes, serait un moyen précieux de commencer à étudier cela. »
Pour y parvenir, les chercheurs ont construit TDW sur une plateforme de jeu vidéo appelée Unity3D Engine et se sont engagés à intégrer un rendu des données à la fois visuel et auditif, sans aucune animation. La simulation se compose de deux éléments : le build, qui rend les images, synthétise le son et exécute des simulations physiques, et le contrôleur, qui est une interface basée sur Python où l’utilisateur envoie des commandes au build. Les chercheurs construisent et peuplent une scène en puisant dans une vaste bibliothèque de modèles 3D d’objets, tels que des meubles, des animaux et des véhicules.
Ces modèles répondent précisément aux changements d’éclairage, et leur composition matérielle et leur orientation dans la scène dictent leurs comportements physiques dans l’espace. Les modèles d’éclairage dynamique simulent avec précision l’illumination de la scène, provoquant des ombres et des gradations qui correspondent à l’heure de la journée et à l’angle du soleil. L’équipe a également créé des plans d’étage virtuels meublés que les chercheurs peuvent remplir avec des agents et des avatars.
Pour synthétiser un son plus vrai que nature, TDW utilise des modèles génératifs de sons d’impact déclenchés par des collisions ou d’autres interactions d’objets dans la simulation. TDW simule également l’atténuation du bruit et la réverbération en fonction de la géométrie de l’espace et des objets qui s’y trouvent.
Deux moteurs physiques dans TDW gèrent les déformations et les réactions entre les objets en interaction – un pour les corps rigides, et un autre pour les objets mous et les fluides. TDW effectue des calculs instantanés concernant la masse, le volume et la densité, ainsi que toute friction ou autre force agissant sur les matériaux. Cela permet aux modèles d’apprentissage automatique d’apprendre comment des objets ayant des propriétés physiques différentes se comporteraient ensemble.
Les utilisateurs, les agents et les avatars peuvent donner vie aux scènes de plusieurs façons. Un chercheur peut appliquer directement une force à un objet par le biais de commandes de contrôleur, ce qui peut littéralement mettre une balle virtuelle en mouvement. Les avatars peuvent être habilités à agir ou à se comporter d’une certaine manière dans l’espace – par exemple, avec des membres articulés capables d’effectuer des expériences.
Enfin, les têtes et les combinés VR peuvent permettre aux utilisateurs d’interagir avec l’environnement virtuel, afin de générer des données sur le comportement humain dont les modèles d’apprentissage automatique pourraient tirer des enseignements.
Des expériences d’IA plus riches
Pour tester et démontrer les caractéristiques, les capacités et les applications uniques de TDW, l’équipe a effectué une batterie de tests comparant les ensembles de données générés par TDW et d’autres simulations virtuelles. L’équipe a constaté que les réseaux neuronaux entraînés sur des instantanés d’images de scènes avec des angles de caméra placés au hasard dans TDW ont obtenu de meilleurs résultats que les instantanés d’autres simulations dans les tests de classification d’images et se sont rapprochés des systèmes entraînés sur des images du monde réel.
Les chercheurs ont également généré et entraîné un modèle de classification des matériaux sur des clips audio de petits objets tombant sur des surfaces dans TDW et lui ont demandé d’identifier les types de matériaux qui interagissaient. Ils ont constaté que TDW présentait des gains significatifs par rapport à son concurrent. D’autres tests de chute d’objets avec des réseaux neuronaux formés sur TDW ont révélé que la combinaison de l’audio et de la vision est le meilleur moyen d’identifier les propriétés physiques des objets, ce qui motive la poursuite des études sur l’intégration audiovisuelle.
TDW s’avère particulièrement utile pour concevoir et tester des systèmes qui comprennent comment les événements physiques d’une scène vont évoluer dans le temps. Il s’agit notamment de faciliter l’évaluation de la capacité d’un modèle ou d’un algorithme à faire des prédictions physiques concernant, par exemple, la stabilité d’une pile d’objets ou le mouvement des objets après une collision. TDW a également permis de comparer la curiosité et la prédiction humaines à celles d’agents machine conçus pour évaluer les interactions sociales dans différents scénarios.
Chuang Gan souligne que ces applications ne sont que la partie émergée de l’iceberg. En élargissant les capacités de simulation physique de TDW pour décrire le monde réel avec plus de précision, « nous essayons de créer de nouveaux repères pour faire progresser les technologies de l’IA, et d’utiliser ces repères pour ouvrir de nombreux nouveaux problèmes qui, jusqu’à présent, étaient difficiles à étudier. »
L’équipe de recherche sur cet article comprend également les ingénieurs du MIT Jeremy Schwartz et Seth Alter, qui jouent un rôle essentiel dans le fonctionnement de TDW, les professeurs de BCS James DiCarlo et Joshua Tenenbaum, les étudiants diplômés Aidan Curtis et Martin Schrimpf, ainsi que les anciens post-docs James Traer (aujourd’hui professeur adjoint à l’université de l’Iowa) et Jonas Kubilius PhD ’08.
Leurs collègues sont David Cox, directeur du MIT-IBM Watson AI Lab, Abhishek Bhandwaldar, ingénieur logiciel de recherche, et Dan Gutfreund, membre du personnel de recherche d’IBM. Les autres chercheurs co-auteurs sont Julian De Freitas, professeur adjoint à l’université de Harvard, et, à l’université de Stanford, les professeurs adjoints Daniel L.K. Yamins (un des fondateurs de TDW) et Nick Haber, le post-doctorant Daniel M. Bear, ainsi que les étudiants diplômés Megumi Sano, Kuno Kim, Elias Wang, Damian Mrowca, Kevin Feigelis et Michael Lingelbach.
https://news.mit.edu/2021/generating-realistic-3d-world-1206