Skip to main content

1 Nov, 2018

Des machines qui apprennent le langage comme le font les enfants

Des machines qui apprennent le langage comme le font les enfants

Les enfants apprennent le langage en observant leur environnement, en écoutant les gens qui les entourent et en établissant des liens entre ce qu’ils voient et ce qu’ils entendent. Entre autres choses, cela aide les enfants à établir l’ordre des mots de leur langue, par exemple lorsque les sujets et les verbes se trouvent dans une phrase.

En informatique, l’apprentissage d’un langage est la tâche des analyseurs syntaxiques et sémantiques. Ces systèmes sont formés (entrainés) avec des phrases annotées par des humains décrivant la structure et la signification des mots. Les analyseurs syntaxiques deviennent de plus en plus importants pour les recherches sur le Web et les requêtes dans les bases de données en langage naturel et les systèmes de reconnaissance vocale tels que Alexa et Siri. Bientôt, ils pourront également être utilisés pour la robotique domestique.

Mais la collecte des données d’annotation peut prendre beaucoup de temps et s’avérer difficile pour des langages moins courants. De plus, les humains ne sont pas toujours d’accord sur les annotations, et les annotations elles-mêmes risquent de ne pas refléter avec exactitude la façon dont les gens parlent naturellement.

Dans un article présenté cette semaine à la conférence sur les méthodes empiriques dans le traitement du langage naturel, les chercheurs du MIT décrivent un analyseur qui apprend par l’observation à imiter plus fidèlement le processus d’acquisition du langage d’un enfant, ce qui pourrait considérablement élargir ses capacités. Pour apprendre la structure du langage, l’analyseur observe les vidéos sous-titrées, sans autre information, et associe les mots à des objets et actions enregistrés. Avec une nouvelle phrase, l’analyseur peut ensuite utiliser ce qu’il a appris sur la structure du langage pour prédire avec précision le sens d’une phrase, sans la vidéo. Le modèle informatique pourrait améliorer l’interaction homme-machine, et donner un aperçu de la façon dont les enfants apprennent le langage.

Cette approche «faiblement supervisée» – ce qui signifie qu’elle nécessite peu de données de formation (entrainement) – montre comment les enfants peuvent observer le monde qui les entoure et apprendre un langage sans que personne ne fournisse de contexte direct. Selon les chercheurs, cette approche pourrait élargir les types de données et réduire l’effort nécessaire pour la formation (entrainement) d’analyseurs. Quelques phrases directement annotées, par exemple, pourraient être combinées à de nombreuses vidéos sous-titrées, plus faciles à obtenir, pour améliorer les performances.

À l’avenir, l’analyseur pourrait être utilisé pour améliorer l’interaction naturelle entre humains et robots personnels. Un robot équipé de l’analyseur, par exemple, pourrait constamment observer son environnement pour renforcer sa compréhension des commandes vocales, y compris lorsque les phrases prononcées ne sont pas complètement grammaticales ou claires. «Les gens se parlent en phrases partielles, en pensées vives et en langage confus. Vous voulez chez vous un robot qui s’adapte à leur façon de parler… tout en comprenant ce qu’ils veulent dire », déclare le coauteur Andrei Barbu, chercheur au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et au Centre de Cerveaux, esprits et machines (CBMM) au sein du McGovern Institute du MIT.

L’analyseur pourrait également aider les chercheurs à mieux comprendre comment les jeunes enfants apprennent le langage. «Un enfant a accès à des informations redondantes et complémentaires provenant de différentes modalités, notamment des parents entendants et des frères et sœurs qui parlent du monde, ainsi que des informations tactiles et des informations visuelles [qui l’aident] à comprendre le monde», déclare le co-auteur. Boris Katz, chercheur principal et chef du groupe InfoLab de CSAIL. «C’est un casse-tête incroyable de traiter toute cette entrée sensorielle simultanée. Ce travail fait partie d’un élément plus important pour comprendre comment ce type d’apprentissage se produit dans le monde. « 

Les coauteurs de l’article sont: la première auteure, Candace Ross, une étudiante diplômée du département de génie électrique et informatique et de CSAIL, et une chercheuse au CBMM; Yevgeni Berzak PhD ’17, postdoc du groupe de psycholinguistique computationnelle du département des sciences du cerveau et de la cognition; et Battushig Myanganbayar, étudiant diplômé du CSAIL.

Personne à mémoire visuelle

Pour leurs travaux, les chercheurs ont associé un analyseur sémantique à un composant de vision par ordinateur formé (entrainé) à la reconnaissance d’objets, d’hommes et d’activités en vidéo. Les analyseurs syntaxiques sémantiques sont généralement formés à des phrases annotées avec un code attribuant un sens à chaque mot et aux relations entre les mots. Certaines ont été formées sur des images fixes ou des simulations sur ordinateur.

Le nouvel analyseur est le premier à être formé (entrainé) à l’utilisation de la vidéo, précise Candace Ross. Les vidéos sont en partie plus utiles pour réduire les ambiguïtés. Si l’analyseur n’est pas sûr, par exemple, d’une action ou d’un objet dans une phrase, il peut faire référence à la vidéo pour clarifier les choses. « Il existe des composants temporels – des objets qui interagissent les uns avec les autres et avec des personnes – et des propriétés de haut niveau que vous ne verriez pas dans une image fixe ou dans un langage », explique Candace Ross.

Les chercheurs ont compilé un ensemble de données d’environ 400 vidéos décrivant des personnes effectuant un certain nombre d’actions, notamment prendre un objet ou le poser, puis se diriger vers un objet. Les participants à la plate-forme de crowdsourcing, Mechanical Turk, ont ensuite fourni 1200 sous-titres pour ces vidéos. Ils ont mis de côté 840 exemples de sous-titres vidéo à des fins de formation (entrainement) et de réglage, et utilisé 360 pour les tests. L’un des avantages de l’analyse basée sur la vision est «vous n’avez pas besoin de presque autant de données – bien que si vous aviez [les données], vous pouviez évoluer vers d’énormes jeux de données», déclare Andrei Barbu.

Au cours de la formation (entrainement), les chercheurs ont donné à l’analyseur l’objectif de déterminer si une phrase décrit avec précision une vidéo donnée. Ils ont nourri l’analyseur d’une vidéo et des sous-titres correspondants. L’analyseur extrait les significations possibles du sous-titre sous forme d’expressions mathématiques logiques. La phrase «La femme cueille une pomme», par exemple, peut être exprimée comme suit: λxy. femme x, pick_up x y, pomme y.

Ces expressions et la vidéo sont entrées dans l’algorithme de vision par ordinateur appelé «Sentence Tracker», développé par Andrei Barbu et d’autres chercheurs. L’algorithme examine chaque image vidéo pour suivre la transformation des objets et des personnes dans le temps, afin de déterminer si les actions sont exécutées comme décrit. De cette manière, il détermine si le sens est éventuellement vrai de la vidéo.

Joindre les points

L’expression avec les représentations les plus proches qui correspondent aux objets, aux humains et aux actions devient le sens le plus probable du sous-titre. L’expression, dans un premier temps, peut faire référence à de nombreux objets et actions différents dans la vidéo, mais l’ensemble des significations possibles sert de signal d’apprentissage qui aide l’analyseur à explorer en permanence les possibilités. «En supposant que toutes les phrases doivent suivre les mêmes règles, qu’elles proviennent toutes du même langage, et en visionnant de nombreuses vidéos sous-titrées, vous pouvez affiner davantage la signification», explique Andrei Barbu.

En bref, l’analyseur apprend par l’observation passive: Pour déterminer si un sous-titre est vrai pour une vidéo, l’analyseur doit nécessairement identifier la signification la plus probable du sous-titre. « Le seul moyen de déterminer si la phrase est vraie dans une vidéo consiste à passer par cette étape intermédiaire de » Que signifie la phrase? « . Sinon, vous ne savez pas comment connecter les deux », explique Andrei Barbu. «Nous ne donnons pas au système le sens de la phrase. Nous disons: «Il y a une phrase et une vidéo. La phrase doit être vraie de la vidéo. Trouve une représentation intermédiaire qui rende la vidéo vraie. « 

La formation (entrainement) produit une grammaire syntaxique et sémantique pour les mots appris. Avec une nouvelle phrase, l’analyseur n’a plus besoin de vidéos, mais exploite sa grammaire et son lexique pour déterminer la structure et le sens de la phrase.

En fin de compte, ce processus apprend «comme si vous étiez un enfant», précise Andrei Barbu. «Vous voyez le monde autour de vous et vous entendez des gens parler pour apprendre du sens. Un jour, je peux vous donner une phrase et demander ce que cela signifie et, même sans visuel, vous en connaissez le sens. « 

«Cette recherche est exactement la bonne direction pour le traitement du langage naturel», déclare Stefanie Tellex, professeur d’informatique à l’Université Brown, qui aide les robots à utiliser le langage naturel pour communiquer avec les humains. «Pour interpréter un langage enraciné, nous avons besoin de représentations sémantiques, mais il n’est pas pratique de le rendre disponible au moment de la formation (entrainement). Au lieu de cela, ce travail capture des représentations de la structure compositionnelle en utilisant le contexte des vidéos sous-titrées. C’est le papier que j’attendais! »

Dans les travaux futurs, les chercheurs s’intéressent à la modélisation des interactions et pas seulement aux observations passives. «Les enfants interagissent avec l’environnement tout en apprenant. Notre idée est d’avoir un modèle qui utiliserait également la perception pour apprendre », déclare Candace Ross.

Ce travail a été financé en partie par le CBMM, la National Science Foundation, une bourse de recherche supérieure de la Fondation Ford, le Toyota Research Institute et le projet MIT-IBM Brain-Inspired Multimedia Compréhension.

http://news.mit.edu/2018/machines-learn-language-human-interaction-1031#.W9qRRrH–xM.linkedin