Skip to main content

2 Sep, 2020

Vers un modèle d’apprentissage machine qui peut raisonner sur les actions quotidiennes

Vers un modèle d’apprentissage machine qui peut raisonner sur les actions quotidiennes

Les chercheurs forment un modèle pour atteindre une performance à l’échelle humaine en reconnaissant des concepts abstraits dans une vidéo.

Grille d’images quatre par trois montrant des personnes, des animaux et des objets effectuant des actions simples

Légende : Un modèle de vision par ordinateur développé par des chercheurs du MIT, d’IBM et de l’université de Columbia permet de comparer et de contraster des événements dynamiques capturés sur une vidéo pour dégager des concepts de haut niveau qui les relient. Dans le cadre d’une série d’expériences, le modèle a choisi dans chaque ensemble de colonnes verticales la vidéo qui n’avait pas sa place sur le plan conceptuel. Surlignées en rouge, les vidéos bizarres montrent une femme pliant une couverture, un chien aboyant, un homme coupant des légumes verts et un homme offrant de l’herbe à un lama.

La capacité de raisonner de manière abstraite sur les événements au fur et à mesure de leur déroulement est une caractéristique de l’intelligence humaine. Nous savons instinctivement que les pleurs et l’écriture sont des moyens de communication, et qu’un panda tombant d’un arbre et un avion atterrissant sont des variations de la descente.

Organiser le monde en catégories abstraites n’est pas chose facile pour les ordinateurs, mais ces dernières années, les chercheurs se sont rapprochés en formant des modèles d’apprentissage automatique sur des mots et des images infusés d’informations structurelles sur le monde, et sur la façon dont les objets, les animaux et les actions sont liés. Dans une nouvelle étude présentée ce mois-ci à la Conférence européenne sur la vision par ordinateur, les chercheurs ont dévoilé un modèle hybride de langage et de vision qui peut comparer et contraster un ensemble d’événements dynamiques capturés sur vidéo pour dégager les concepts de haut niveau qui les relient.

Leur modèle a fait aussi bien, voire mieux, que les humains pour deux types de tâches de raisonnement visuel : choisir la vidéo qui complète le mieux l’ensemble sur le plan conceptuel, et choisir la vidéo qui ne correspond pas. En montrant des vidéos d’un chien aboyant et d’un homme hurlant à côté de son chien, par exemple, le modèle a complété le décor en choisissant le bébé qui pleure dans un ensemble de cinq vidéos. Les chercheurs ont reproduit leurs résultats sur deux ensembles de données pour entraîner les systèmes d’IA à la reconnaissance d’action : Multi-Moments in Time du MIT et Kinetics de DeepMind.

« Nous montrons que l’on peut intégrer l’abstraction dans un système d’IA pour effectuer des tâches de raisonnement visuel ordinaires proches du niveau humain », explique Aude Oliva, auteur principal de l’étude, chercheur principal au MIT, co-directeur du MIT Quest for Intelligence et directeur du MIT-IBM Watson AI Lab. « Un modèle capable de reconnaître des événements abstraits donnera des prédictions plus précises et logiques et sera plus utile pour la prise de décision ».

Alors que les réseaux neuronaux profonds deviennent experts dans la reconnaissance d’objets et d’actions sur des photos et des vidéos, les chercheurs se sont fixés pour objectif de franchir une nouvelle étape : l’abstraction, et l’entraînement des modèles à raisonner sur ce qu’ils voient. Dans une approche, les chercheurs ont fusionné le pouvoir de correspondance des modèles des réseaux profonds avec la logique des programmes symboliques pour enseigner à un modèle à interpréter les relations complexes entre les objets dans une scène. Ici, dans une autre approche, les chercheurs capitalisent sur les relations intégrées dans la signification des mots pour donner à leur modèle un pouvoir de raisonnement visuel.

« Les représentations du langage nous permettent d’intégrer des informations contextuelles apprises dans des bases de données textuelles dans nos modèles visuels », explique le co-auteur de l’étude, Mathew Monfort, chercheur au laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL). Des mots comme « courir », « soulever » et « boxer » ont des caractéristiques communes qui les rapprochent davantage du concept d' »exercice », par exemple, que de celui de « conduite ». ”

À l’aide de WordNet, une base de données sur la signification des mots, les chercheurs ont cartographié la relation entre chaque étiquette de la classe d’action dans Moments et Kinetics et les autres étiquettes dans les deux ensembles de données. Des mots comme « sculpter », « sculpter » et « découper », par exemple, ont été reliés à des concepts de plus haut niveau comme « artisanat », « faire de l’art » et « cuisine ». Désormais, lorsque le modèle reconnaît une activité comme la sculpture, il peut repérer des activités conceptuellement similaires dans l’ensemble de données.

Ce graphique relationnel des classes abstraites est utilisé pour entraîner le modèle à effectuer deux tâches de base. À partir d’un ensemble de vidéos, le modèle crée une représentation numérique pour chaque vidéo qui s’aligne sur les représentations verbales des actions montrées dans la vidéo. Un module d’abstraction combine ensuite les représentations générées pour chaque vidéo de l’ensemble afin de créer une nouvelle représentation de l’ensemble qui est utilisée pour identifier l’abstraction partagée par toutes les vidéos de l’ensemble.

Pour voir comment le modèle se comporterait par rapport aux humains, les chercheurs ont demandé à des sujets humains d’effectuer le même ensemble de tâches de raisonnement visuel en ligne. À leur grande surprise, le modèle s’est montré aussi performant que les humains dans de nombreux scénarios, avec parfois des résultats inattendus. Dans une variante de la tâche d’achèvement, après avoir regardé une vidéo de quelqu’un emballant un cadeau et couvrant un objet avec un ruban adhésif, le modèle a suggéré une vidéo de quelqu’un à la plage enterrant quelqu’un d’autre dans le sable.

« Il s’agit en fait d’une couverture, mais très différente des caractéristiques visuelles des autres clips », explique Camilo Fosco, doctorant au MIT et co-premier auteur de l’étude avec Alex Andonian, doctorant. « Conceptuellement, cela correspond, mais j’ai dû y réfléchir ».

Les limites du modèle incluent une tendance à trop mettre l’accent sur certaines caractéristiques. Dans un cas, il a suggéré de compléter une série de vidéos sportives par une vidéo d’un bébé et d’un ballon, associant apparemment les ballons à l’exercice et à la compétition.

Selon les chercheurs, un modèle d’apprentissage profond qui peut être formé à « penser » de manière plus abstraite peut être capable d’apprendre avec moins de données. L’abstraction ouvre également la voie à un raisonnement de plus haut niveau, plus proche de l’humain.

« Une des caractéristiques de la cognition humaine est notre capacité à décrire quelque chose par rapport à quelque chose d’autre, à comparer et à contraster », explique Oliva. « C’est une façon riche et efficace d’apprendre qui pourrait éventuellement conduire à des modèles d’apprentissage machine capables de comprendre des analogies et qui sont d’autant plus proches de communiquer intelligemment avec nous ».

Les autres auteurs de l’étude sont Allen Lee du MIT, Rogerio Feris d’IBM et Carl Vondrick de l’Université de Columbia.

https://news.mit.edu/2020/toward-machine-learning-that-can-reason-about-everyday-actions-0831

http://moments.csail.mit.edu/

https://deepmind.com/research/open-source/kinetics