Skip to main content

7 Mai, 2024

Un chien robot sur un ballon suisse fait travailler sa force d’entraînement mieux que la plupart des pratiquants de la gym.

Un chien robot sur un ballon suisse fait travailler sa force d’entraînement mieux que la plupart des pratiquants de la gym.

DrEureka et ChatGPT 4 ont créé ensemble ce Robodog de cirque.

Ce quadrupède se balançant en équilibre sur un ballon d’exercice est une expérience amusante à regarder, mais elle démontre que les IA comme GPT-4 peuvent entraîner des robots à effectuer des tâches complexes dans le monde réel de manière beaucoup plus efficace que nous, les humains.

DrEureka, un nouveau logiciel libre accessible à tous, est utilisé pour former des robots à l’exécution de tâches réelles à l’aide de grands modèles de langage (LLM) tels que ChatGPT 4. Il s’agit d’un système « sim-to-reality », c’est-à-dire qu’il forme les robots dans un environnement virtuel à l’aide d’une physique simulée, avant de les mettre en œuvre dans l’espace réel.

Le Dr Jim Fan, l’un des concepteurs de DrEureka, a déployé un robot quadrupède Unitree Go1 pour faire les gros titres. Il s’agit d’un robot open-source « peu coûteux » et bien soutenu – ce qui est pratique, car même avec l’IA, les robots-animaux sont toujours susceptibles d’être endommagés par les chutes. Quant au « faible coût », eh bien… Il est proposé sur Amazon au prix de 5 899 dollars (5500 €) et a reçu une note de 1 étoile.

Nous avons entraîné un chien robot à tenir en équilibre et à marcher sur un ballon de yoga, uniquement en simulation, puis nous avons transféré le zéro pointé dans le monde réel. Pas de mise au point. Ça marche, c’est tout.

Le « Dr » de DrEureka signifie « Domain randomization », c’est-à-dire la randomisation de variables telles que la friction, la masse, l’amortissement, le centre de gravité, etc. dans un environnement simulé.

Avec quelques invites dans un LLM comme ChatGPT, l’IA peut écrire un code qui crée un système de récompense/pénalité pour entraîner le robot dans l’espace virtuel, où 0 = échec, et tout ce qui est supérieur à 0 est une victoire. Plus le score est élevé, mieux c’est.

Elle peut créer des paramètres en minimisant et en maximisant les points d’échec/de rupture dans des domaines tels que le rebond de la balle, la force motrice, le degré de liberté des membres et l’amortissement, pour n’en citer que quelques-uns. En tant que LLM, il n’a aucun problème à créer ces paramètres en grandes quantités, pour que le système d’entraînement puisse fonctionner simultanément.

Après chaque simulation, GPT peut également évaluer les performances du robot virtuel et déterminer comment il peut s’améliorer. Le dépassement ou la violation de paramètres, par exemple la surchauffe d’un moteur ou la tentative d’articulation d’un membre au-delà de ses capacités, se traduira par un 0… Et personne n’aime marquer zéro point, pas même une IA.

Il s’accroche à cette balle mieux qu’un cow-boy chevauchant un taureau dans un rodéo.

Demander à un LLM d’écrire le code nécessite des instructions de sécurité – sinon, l’équipe de GPT s’efforcera d’obtenir la meilleure performance possible – et en fait « trichera » dans la simulation sans conseils. C’est très bien dans une simulation, mais dans la vie réelle, cela pourrait faire surchauffer les moteurs ou étendre excessivement les membres, ce qui endommagerait le robot – les chercheurs appellent ce phénomène le « comportement dégénéré ».

Dans un exemple de comportement contre nature qu’il a appris par lui-même, le robot virtuel a découvert qu’il se déplaçait plus rapidement en enfonçant sa hanche dans le sol et en utilisant trois pieds pour se déplacer sur le sol tout en traînant sa hanche. Pour être honnête, cela me donne une image quelque peu troublante – mais bien sûr, bien que ce soit un avantage dans la simulation, cela s’est traduit par un faceplant improductif lorsque le robot a tenté de le faire dans le monde réel. Un faceplant est le fait d’atterrir la tête la première à la suite d’un accident ou d’une erreur.

Les chercheurs ont donc demandé à GPT d’être très prudent, en gardant à l’esprit que le robot serait testé dans le monde réel. En réponse, GPT a créé des fonctions de sécurité pour des éléments tels que l’action en douceur, l’orientation du torse, la hauteur du torse et l’assurance que les moteurs du robot n’étaient pas trop serrés. Si le robot triche et enfreint ces paramètres, sa fonction de récompense lui attribue un score inférieur. Les fonctions de sécurité atténuent les comportements dégénérés et non naturels, comme les poussées pelviennes inutiles.

Quelles ont été les performances du robot ? Mieux que nous. DrEureka a réussi à battre les humains dans l’entraînement du robot-poulet, avec un avantage de 34 % en termes de vitesse d’avancement et de 20 % en termes de distance parcourue sur des terrains mixtes du monde réel.

Le système de formation de DrEureka, basé sur la technologie GPT, a largement battu les robots formés par l’homme dans le monde réel.

Comment cela se fait-il ? Selon les chercheurs, c’est une question de style d’enseignement. Les humains ont tendance à utiliser un environnement d’enseignement de type curriculaire, c’est-à-dire qu’ils décomposent les tâches en petites étapes et tentent de les expliquer de manière isolée, alors que le système GPT a la capacité d’enseigner efficacement tout, d’un seul coup. C’est quelque chose que nous ne sommes tout simplement pas capables de faire.

DrEureka est le premier du genre. Il est capable de passer « sans transition » de la simulation au monde réel. Imaginez que vous n’ayez pratiquement aucune connaissance pratique du monde qui vous entoure, que vous soyez poussé hors du nid et que vous deviez vous débrouiller tout seul. C’est ce qu’on appelle le « zero-shot ».

Les créateurs de DrEureka pensent qu’ils pourraient encore améliorer l’entraînement de la simulation à la réalité s’ils pouvaient fournir un retour d’information du monde réel à GPT. À l’heure actuelle, tous les entraînements sur simulateur sont effectués à l’aide de données provenant des systèmes de proprioception du robot, mais si GPT pouvait voir ce qui n’a pas fonctionné grâce à un flux vidéo réel plutôt que de simplement lire l’échec de l’exécution dans les journaux du robot, il pourrait affiner ses instructions de manière beaucoup plus efficace.

Il faut en moyenne un an et demi à un être humain pour apprendre à marcher, et je parierais que seule une infime fraction de 1 % d’entre eux peut le faire au sommet d’un ballon de yoga. Pourquoi un ballon de yoga ? Ils ont été inspirés par le cirque, bien sûr. N’est-ce pas le cas de tout le monde ?

Vous pouvez regarder la vidéo non coupée de 4 minutes et 33 secondes d’un robot-chien se promenant sur un ballon de yoga sans s’arrêter une seule fois pour faire pipi sur une bouche d’incendie ici :

https://eureka-research.github.io/dr-eureka