Skip to main content

5 Déc, 2023

Les bras « roue-main-jambe » d’ANYmal ouvrent les portes en s’amusant

Les bras « roue-main-jambe » d’ANYmal ouvrent les portes en s’amusant

A large red quadrupedal robot with wheels at the end of its limbs balances on two legs as it opens a door and throws a package into a box.

Un grand robot quadrupède rouge doté de roues à l’extrémité de ses membres se tient en équilibre sur ses deux jambes tout en ouvrant une porte et en jetant un paquet dans une boîte.

La version modifiée du quadrupède ANYmal, telle que personnalisée par la société Swiss-Mile, basée à Zurich, ne cesse de s’améliorer. En partant d’un quadrupède commercial, l’ajout de roues motorisées a rendu le robot rapide et efficace, tout en lui permettant d’emprunter les trottoirs et les escaliers.

Il y a quelques années, le robot a appris à se tenir debout, ce qui est une façon efficace de se déplacer et rend le robot beaucoup plus agréable à étreindre, mais plus important encore, cela a débloqué le potentiel du robot pour commencer à faire des manipulations avec ses bras-roues-mains-jambes.

Toute manipulation pratique avec ANYmal est compliquée, car ses membres ont été conçus pour être des jambes et non des bras. Mais au Robotic Systems Lab de l’ETH Zurich, on a réussi à apprendre à ce robot à utiliser ses membres pour ouvrir des portes, et même pour saisir un paquet sur une table et le jeter dans une boîte.

Lorsqu’il commet une erreur dans le monde réel, le robot a déjà acquis les compétences nécessaires pour s’en remettre.

Les chercheurs de l’ETHZ ont obtenu du robot qu’il exécute de manière fiable ces comportements complexes en utilisant un type d’apprentissage par renforcement appelé « curiosity driven » (apprentissage par la curiosité). Dans la simulation, le robot se voit assigner un objectif qu’il doit atteindre – dans ce cas, le robot est récompensé s’il parvient à franchir une porte ou à mettre un paquet dans une boîte.

Il s’agit d’objectifs de très haut niveau (également appelés « récompenses éparses »), et le robot ne reçoit aucun encouragement en cours de route. Au lieu de cela, il doit trouver comment accomplir l’ensemble de la tâche en partant de zéro.

L’étape suivante consiste à doter le robot d’un sens de la surprise basé sur le contact.

S’il disposait d’un temps de simulation trop court, le robot découvrirait probablement comment accomplir ces tâches par lui-même. Mais pour lui donner un point de départ utile, les chercheurs ont introduit le concept de curiosité, qui encourage le robot à jouer avec des objets liés à un objectif.

« Dans le contexte de ce travail, la curiosité fait référence à un désir naturel ou à une motivation pour notre robot d’explorer et d’apprendre à connaître son environnement », explique l’auteur Marko Bjelonic, « ce qui lui permet de découvrir des solutions pour des tâches sans que les ingénieurs aient besoin de spécifier explicitement ce qu’il faut faire ».

Pour la tâche d’ouverture de porte, on demande au robot d’être curieux de la position de la poignée de la porte, tandis que pour la tâche de saisie du paquet, on lui demande d’être curieux du mouvement et de l’emplacement du paquet. En tirant parti de cette curiosité pour trouver des moyens de jouer et de modifier ces paramètres, le robot atteint ses objectifs, sans que les chercheurs n’aient à lui fournir d’autres informations.

Les comportements que le robot obtient grâce à ce processus sont fiables et diversifiés, ce qui est l’un des avantages de l’utilisation de récompenses éparses. « Le processus d’apprentissage est sensible aux petites modifications de l’environnement d’apprentissage », explique Marko Bjelonic. « Cette sensibilité permet à l’agent d’explorer diverses solutions et trajectoires, ce qui peut conduire à l’accomplissement de tâches plus innovantes dans des scénarios complexes et dynamiques. »

Par exemple, pour la tâche d’ouverture de porte, le robot a découvert comment l’ouvrir avec l’un ou l’autre de ses effecteurs, ou les deux en même temps, ce qui le rend plus apte à accomplir la tâche dans le monde réel. La manipulation de colis est encore plus intéressante, car le robot a parfois fait tomber le colis lors de l’entraînement, mais il a appris de manière autonome à le ramasser. Ainsi, lorsqu’il commet une erreur dans le monde réel, le robot a déjà acquis les compétences nécessaires pour se relever.

Il y a encore un peu de tricherie au niveau de la recherche, puisque le robot s’appuie sur le système AprilTags basé sur un code visuel pour lui indiquer où se trouvent les choses importantes (comme les poignées de porte) dans le monde réel. Mais il s’agit d’un raccourci mineur, car la détection directe d’éléments tels que les portes et les paquets est un problème assez bien compris. Selon Marko Bjelonic, la prochaine étape consistera à doter le robot d’un sens de la surprise basé sur le contact, afin d’encourager l’exploration, ce qui est un peu plus doux que ce que nous voyons ici.

N’oublions pas non plus que s’il s’agit bien d’un article de recherche, Swiss-Mile est une entreprise qui souhaite que ce robot soit utilisé dans le monde entier pour faire des choses utiles. Ainsi, contrairement à la plupart des travaux de recherche pure que nous couvrons, il y a un peu plus de chances que cet ANYmal se fraye un chemin jusqu’à une application pratique.

https://spectrum.ieee.org/quadruped-robot-wheels

https://robotsguide.com/robots/anymal

https://rsl.ethz.ch/

https://towardsdatascience.com/curiosity-driven-learning-made-easy-part-i-d3e5a2263359

https://www.markobjelonic.com/

https://april.eecs.umich.edu/software/apriltag