Skip to main content

25 Juin, 2019

Enseigner aux robots ce que veulent les humains

Enseigner aux robots ce que veulent les humains

Un exemple de la façon dont le bras robotique utilise les questions du sondage pour déterminer les préférences de la personne qui l’utilise. Dans ce cas, la personne préfère la trajectoire #1 (T1) à la trajectoire #2. Crédit : Andy Palan et Gleb Shevchuk

Conçu pour optimiser la vitesse lors d’une course sur piste dans un jeu vidéo, une voiture pousse la pédale à fond… et tourne dans un petit cercle serré. Rien dans les instructions ne disait à la voiture de rouler tout droit, alors elle a improvisé. Cet exemple – amusant dans un jeu vidéo, mais pas tant que ça dans la vie – fait partie de ceux qui ont motivé les chercheurs de l’Université de Stanford à trouver une meilleure façon d’établir des objectifs pour les systèmes autonomes.

Dorsa Sadigh, professeure adjointe d’informatique et de génie électrique, et son laboratoire ont combiné deux façons différentes d’établir des objectifs pour les robots en un seul processus, ce qui a donné de meilleurs résultats que l’une ou l’autre de ses façons dans les simulations et les expériences réelles. Les chercheurs ont présenté les travaux le 24 juin à la Robotics: Science and Systems conference.

« À l’avenir, je m’attends à ce qu’il y ait plus de systèmes autonomes dans le monde et ils auront besoin de savoir ce qui est bon et ce qui est mauvais « , a déclaré Andy Palan, étudiant diplômé en informatique et co-auteur principal du document. « Il est crucial, si nous voulons déployer ces systèmes autonomes à l’avenir, que nous y arrivions. »

Le nouveau système de formation des robots de l’équipe, connu sous le nom de fonctions de récompense, combine des démonstrations, dans lesquelles les humains montrent au robot ce qu’il doit faire, et des sondages sur les préférences des utilisateurs, dans lesquels les gens répondent à des questions sur le comportement qu’ils veulent que le robot ait.

« Les démonstrations sont instructives, mais elles peuvent être bruyantes. D’un autre côté, les préférences fournissent tout au plus un peu d’information, mais elles sont beaucoup plus précises « , a déclaré Dorsa Sadigh. « Notre but est d’obtenir le meilleur des deux mondes et de combiner plus intelligemment les données provenant de ces deux sources pour mieux connaître la fonction de récompense préférée des humains. »

Démonstrations et enquêtes

Dans ses travaux précédents, Dorsa Sadigh s’était concentrée uniquement sur les enquêtes de préférences. Elles demandent aux gens de comparer des scénarios, par exemple deux trajectoires pour une voiture autonome. Cette méthode est efficace, mais pourrait prendre jusqu’à trois minutes pour générer la question suivante, ce qui est encore lent pour créer des instructions pour des systèmes complexes comme une voiture.

Pour accélérer le processus, le groupe a par la suite mis au point un moyen de produire plusieurs questions à la fois, auxquelles une personne pouvait répondre en succession rapide ou qui pouvaient être réparties entre plusieurs personnes. Cette mise à jour a accéléré le processus de 15 à 50 fois par rapport à la production de questions une par une.

Le nouveau système de combinaison commence par une personne démontrant un comportement au robot. Cela peut donner aux robots autonomes beaucoup d’informations, mais le robot a souvent du mal à déterminer quelles parties de la démonstration sont importantes. Les gens ne veulent pas toujours qu’un robot se comporte comme l’humain qui l’a entraîné.

« Nous ne pouvons pas toujours faire des démonstrations, et même lorsque nous le pouvons, nous ne pouvons souvent pas nous fier à l’information fournie par les gens « , explique Erdem Biyik, un étudiant diplômé en génie électrique qui a dirigé les travaux d’élaboration des sondages à questions multiples. « Par exemple, des études antérieures ont montré que les gens veulent que les voitures autonomes conduisent moins agressivement qu’ils ne le font eux-mêmes. »

C’est là qu’interviennent les enquêtes, ce qui permet au robot de demander, par exemple, si l’utilisateur préfère déplacer son bras vers le sol ou vers le plafond. Pour cette étude, le groupe a utilisé la méthode plus lente de la question unique, mais il prévoit intégrer des enquêtes à questions multiples dans ses travaux ultérieurs.

Lors des tests, l’équipe a constaté que la combinaison des démonstrations et des enquêtes était plus rapide que la simple spécification des préférences et, par rapport aux seules démonstrations, environ 80 % des personnes préféraient le comportement du robot lorsqu’il était entraîné avec le système combiné.

« Il s’agit d’une étape pour mieux comprendre ce que les gens veulent ou attendent d’un robot « , a déclaré Dorsa Sadigh. « Notre travail rend plus facile et plus efficace l’interaction et l’enseignement des robots par les humains, et je suis enthousiaste à l’idée d’aller plus loin dans ce travail, en particulier en étudiant comment les robots et les humains pourraient apprendre les uns des autres ».

Mieux, plus vite, plus intelligemment

Les personnes qui ont utilisé la méthode combinée ont indiqué qu’elles avaient de la difficulté à comprendre où le système voulait en venir avec certaines de ses questions, qui leur demandaient parfois de choisir entre deux scénarios qui semblaient identiques ou non pertinents pour la tâche – un problème commun dans l’apprentissage fondé sur les préférences. Les chercheurs espèrent combler cette lacune grâce à des enquêtes plus faciles et plus rapides.

« Pour ce qui est de l’avenir, ce n’est pas tout à fait évident pour moi de savoir quelle est la bonne façon de créer des fonctions de récompense, mais il est réaliste de penser qu’il y aura une combinaison qui permettra de résoudre des situations complexes avec la participation de l’être humain « , a déclaré Andy Palan. « Être capable de concevoir des fonctions de récompense pour des systèmes autonomes est un problème important qui n’a pas reçu toute l’attention qu’il mérite dans le monde universitaire. »

L’équipe s’intéresse également à une variante de leur système, qui permettrait aux gens de créer simultanément des fonctions de récompense pour différents scénarios. Par exemple, une personne peut vouloir que sa voiture conduise de façon plus prudente dans la circulation lente et plus agressive lorsque la circulation est légère.

Quand les démos échouent

Parfois, les manifestations à elles seules ne parviennent pas à transmettre l’objectif d’une tâche. Par exemple, dans le cadre d’une démonstration de cette étude, on a demandé à des gens d’apprendre au bras du robot à bouger jusqu’à ce qu’il pointe vers un point précis du sol, et de le faire en évitant un obstacle et sans se déplacer au-dessus d’une certaine hauteur.

Après qu’un humain ait fait fonctionner le robot pendant 30 minutes, le robot a essayé d’effectuer la tâche de façon autonome. Il a simplement pointé droit vers le haut. Il était tellement concentré sur l’apprentissage de ne pas heurter l’obstacle qu’il a complètement raté l’objectif réel de la tâche – montrer du doigt l’endroit – et la préférence de rester en bas.

Codage manuel et piratage de récompenses

Une autre façon d’enseigner à un robot est d’écrire un code qui agit comme des instructions. Le défi consiste à expliquer exactement ce que vous voulez qu’un robot fasse, surtout si la tâche est complexe. Un problème commun est connu sous le nom de « piratage de récompense », où le robot trouve un moyen plus facile d’atteindre les objectifs spécifiés – comme la voiture tournant en rond afin d’atteindre l’objectif d’aller vite.

Erdem Biyik a été victime d’un piratage de récompense lorsqu’il programmait un bras de robot pour saisir un cylindre et le tenir en l’air.

« Je lui ai dit que la main doit être fermée, que l’objet doit avoir une hauteur supérieure à X et que la main doit être à la même hauteur « , explique Erdem Biyik. « Le robot a roulé l’objet cylindrique sur le bord de la table, l’a frappé vers le haut et a fait un poing à côté de lui dans les airs. »

https://news.stanford.edu/2019/06/24/teaching-robots-humans-want/