Skip to main content

4 Oct, 2018

Le modèle aide les robots à naviguer plus comme les humains

Le modèle aide les robots à naviguer plus comme les humains

Lorsqu’ils se déplacent dans une foule pour atteindre un objectif final, les humains peuvent généralement naviguer dans l’espace en toute sécurité sans trop réfléchir. Ils peuvent apprendre du comportement des autres et noter les obstacles à éviter. Les robots, quant à eux, se débattent avec de tels concepts de navigation.Dans les simulations, les robots se déplacent dans de nouveaux environnements en explorant, observant et tirant parti des expériences acquises.

Les chercheurs du MIT ont mis au point un moyen d’aider les robots à naviguer dans des environnements un peu plus à la manière des humains. Leur nouveau modèle de planification des mouvements permet aux robots de déterminer comment atteindre un objectif en explorant l’environnement, en observant d’autres agents et en exploitant ce qu’ils ont appris auparavant dans des situations similaires. Un document décrivant le modèle a été présenté à la Conférence internationale IEEE / RSJ de cette semaine sur les robots et systèmes intelligents (IROS).

Les algorithmes classiques de planification de mouvement créeront un arbre de décisions possibles qui se divisera jusqu’à ce qu’il trouve de bonnes voies de navigation. Un robot qui doit naviguer dans une pièce pour atteindre une porte, par exemple, créera un arbre de recherche étape par étape des mouvements possibles, puis exécutera le meilleur chemin vers la porte, en tenant compte de diverses contraintes. Un inconvénient toutefois est que cet algorithme apprend rarement: les robots ne peuvent pas exploiter les informations relatives à la manière dont ils ou d’autres agents ont agi auparavant dans des environnements similaires.

«Tout comme pour jouer aux échecs, ces décisions se ramifient jusqu’à ce que les robots trouvent un bon moyen de naviguer. Mais contrairement aux joueurs d’échecs, les robots explorent l’avenir sans apprendre beaucoup de choses sur leur environnement et d’autres agents », a déclaré le co-auteur Andrei Barbu, chercheur au Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) et au Center for Brains, Minds and Machines (CBMM) au sein du McGovern Institute du MIT. «La millième fois qu’ils traversent la même foule est aussi compliquée que la première fois. Ils explorent toujours, observent rarement et n’utilisent jamais ce qui s’est passé dans le passé. « 

Les chercheurs ont mis au point un modèle combinant un algorithme de planification et un réseau de neurones qui apprend à reconnaître les chemins susceptibles d’aboutir au meilleur résultat et utilise ces connaissances pour guider le mouvement du robot dans un environnement.

Dans leur article intitulé «Deep sequential models for sampling-based planning», les chercheurs démontrent les avantages de leur modèle dans deux contextes: naviguer dans des salles difficiles avec des pièges et des passages étroits et naviguer dans des zones tout en évitant les collisions avec d’autres agents. Une application prometteuse dans le monde réel serait d’aider les voitures autonomes à traverser les intersections, où elles doivent évaluer rapidement ce que les autres vont faire avant de prendre place dans le trafic. Les chercheurs poursuivent actuellement de telles applications via le Centre commun de recherche Toyota-CSAIL.

«Lorsque les humains interagissent avec le monde, nous voyons un objet avec lequel nous avons déjà interagi auparavant ou où nous sommes déjà allés. Nous savons donc comment nous allons agir», déclare Yen-Ling Kuo, Docteur en CSAIL et premier auteur sur le papier. «L’idée derrière ce travail est d’ajouter à l’espace de recherche un modèle d’apprentissage automatique qui, grâce à l’expérience passée, sait comment améliorer l’efficacité de la planification.»

Boris Katz, chercheur principal et chef du groupe InfoLab chez CSAIL, est également co-auteur du document.

Un mélange d’exploration et de l’exploitation

Les planificateurs de mouvement traditionnels explorent un environnement en développant rapidement un arbre de décisions qui finit par couvrir tout un espace. Le robot examine ensuite l’arbre pour trouver un moyen d’atteindre l’objectif, par exemple une porte. Le modèle des chercheurs, cependant, offre «un compromis entre explorer le monde et exploiter les connaissances du passé», explique Yen-Ling Kuo.

Le processus d’apprentissage commence par quelques exemples. Un robot utilisant le modèle est formé sur plusieurs façons de naviguer dans des environnements similaires. Le réseau de neurones apprend ce qui fait que ces exemples réussissent en interprétant l’environnement autour du robot, tel que la forme des murs, les actions d’autres agents et les caractéristiques des objectifs. En bref, le modèle «apprend que lorsque vous êtes coincé dans un environnement et que vous voyez une porte, c’est probablement une bonne idée de passer par la porte pour sortir», explique Andrei Barbu.

Le modèle combine le comportement d’exploration des méthodes précédentes avec ces informations acquises. Le planificateur sous-jacent, appelé RRT *, a été développé par les professeurs Sertac Karaman et Emilio Frazzoli du MIT. (Il s’agit d’une variante d’un algorithme de planification de mouvement largement utilisé, appelé arborescence aléatoire à exploration rapide ou RRT). Le planificateur crée un arbre de recherche tandis que le réseau de neurones reflète chaque étape et établit des prédictions probabilistes quant à l’orientation suivante du robot. Lorsque le réseau effectue une prédiction avec une grande confiance, sur la base des informations acquises, il guide le robot sur une nouvelle voie. Si le réseau n’a pas une grande confiance, il laisse le robot explorer l’environnement, à la manière d’un planificateur traditionnel.

Par exemple, les chercheurs ont présenté le modèle dans une simulation appelée «trappe à insectes», dans laquelle un robot 2D devait s’échapper d’une chambre intérieure par un canal central étroit et atteindre un emplacement situé dans une pièce plus grande environnante. Les alliés aveugles de chaque côté du canal peuvent se coincer des robots. Dans cette simulation, le robot a été formé à quelques exemples pour échapper à différents pièges à insectes. Lorsqu’il est confronté à un nouveau piège, il reconnaît les caractéristiques du piège, s’échappe et continue de rechercher son objectif dans la pièce la plus grande. Le réseau de neurones aide le robot à trouver la sortie du piège, à identifier les impasses et à donner au robot une idée de son environnement lui permettant de trouver rapidement le but recherché.

Les résultats présentés dans cet article sont basés sur les chances qu’un chemin soit trouvé après un certain temps, sur la longueur totale du chemin ayant atteint un objectif donné et sur la cohérence des chemins. Dans les deux simulations, le modèle des chercheurs traçait plus rapidement des chemins beaucoup plus courts et cohérents qu’un planificateur traditionnel.

Travailler avec plusieurs agents

Dans une autre expérience, les chercheurs ont formé et testé le modèle dans des environnements de navigation avec plusieurs agents de déplacement, ce qui est un test utile pour les voitures autonomes, notamment les intersections et les carrefours giratoires. Dans la simulation, plusieurs agents encerclent un obstacle. Un agent de robot doit naviguer avec succès autour des autres agents, éviter les collisions et atteindre un objectif, tel qu’une sortie sur un rond-point.

«Les situations comme les carrefours giratoires sont difficiles, car elles nécessitent un raisonnement sur la manière dont les autres réagiront à vos actions, sur la manière dont vous réagirez ensuite sur les leurs, sur ce qu’ils vont faire par la suite, etc.», explique Andrei Barbu. «Vous avez finalement découvert que votre première action était fausse, car plus tard, cela entraînerait un accident probable. Ce problème s’aggrave de manière exponentielle avec le nombre de voitures que vous devez affronter. « 

Les résultats indiquent que le modèle des chercheurs peut capturer suffisamment d’informations sur le comportement futur des autres agents (voitures) pour interrompre le processus plus tôt, tout en prenant de bonnes décisions en matière de navigation. Cela rend la planification plus efficace. De plus, ils n’avaient besoin de former le modèle que sur quelques exemples de carrefours giratoires avec seulement quelques voitures. «Les plans des robots tiennent compte de ce que les autres voitures vont faire, comme le ferait tout être humain», dit Andrei Barbu.

Traverser des intersections ou des carrefours giratoires est l’un des scénarios les plus difficiles pour les voitures autonomes. Ce travail pourrait un jour laisser les voitures apprendre comment se comportent les humains et comment s’adapter aux conducteurs de différents environnements, selon les chercheurs. C’est l’objet des travaux du Centre commun de recherche Toyota-CSAIL.

«Tout le monde ne se comporte pas de la même manière, mais les gens sont très stéréotypés. Il y a des gens qui sont timides, des gens qui sont agressifs. Le modèle le reconnaît rapidement et c’est pourquoi il peut planifier efficacement », déclare Andrei Barbu.

Plus récemment, les chercheurs ont appliqué ce travail à des robots dotés de manipulateurs confrontés à des défis tout aussi décourageants pour atteindre des objets dans des environnements en constante évolution.

http://news.mit.edu/2018/model-helps-robots-navigate-like-humans-1004