Le chien robot apprend à marcher, à rouler et à franchir les obstacles après seulement une heure d’entraînement
Le chien robot apprend à marcher, à rouler et à franchir les obstacles après seulement une heure d’entraînement

Un chien robotique a été formé pour marcher, rouler et franchir certains obstacles en environ une heure, révèlent des chercheurs car ils espèrent éventuellement lui apprendre à jouer à chercher et à obéir aux commandes verbales.
L’équipe de l’Université de Californie à Berkeley a utilisé un algorithme baptisé Dreamer qui exploite les expériences passées pour construire un modèle du monde réel
« L’apprentissage par renforcement sera un outil fondamental dans l’avenir du contrôle des robots »
Les futurs travaux sur le robot pourraient impliquer de lui apprendre à obéir aux ordres et à trouver des objets dans une pièce
Dans une vidéo publiée par des chercheurs, on voit d’abord le robot à 4 pattes agiter ses jambes en l’air et se débattre – mais après seulement 10 minutes, il peut faire des pas – et au bout d’une heure, il marche assez facilement, roulant de son en arrière et même en navigation se faire renverser avec un bâton par l’un des chercheurs.
Contrairement à de nombreux robots, celui-ci n’a pas été montré quoi faire au préalable dans une simulation informatique.
Danijar Hafner, chercheur en intelligence artificielle à l’Université de Californie à Berkeley, a travaillé avec ses collègues pour entraîner le robot à l’aide de l’apprentissage par renforcement.
Un chien robotique a été formé pour marcher, rouler et franchir des obstacles en une heure environ, révèlent des chercheurs de l’Université de Californie à Berkeley. Sur la photo ci-dessus, le robot à la marque des cinq minutes

Un chien robotique a été formé pour marcher, rouler et franchir des obstacles en une heure environ, révèlent des chercheurs de l’Université de Californie à Berkeley. Sur la photo ci-dessus, le robot à la marque des cinq minutes
« En règle générale, les robots apprennent grâce à une grande quantité d’essais et d’erreurs dans des simulations informatiques qui sont beaucoup plus rapides qu’en temps réel », explique Hafner.
«Après avoir résolu une tâche comme se lever et marcher en simulation, le comportement appris est ensuite exécuté sur un robot physique. Mais les simulations ne parviennent pas à saisir la complexité du monde réel, de sorte qu’un comportement qui fonctionne bien dans la simulation peut ne pas résoudre la tâche dans le monde réel. »
Ce type d’apprentissage automatique concerne la formation des algorithmes en les récompensant pour certaines actions dans leur environnement.
Hafner et ses collaborateurs – Philipp Wu et Alejandro Escontrela – ont utilisé un algorithme appelé Dreamer qui fonctionne à partir d’expériences passées pour construire un modèle du monde réel et permet également au robot d’effectuer des calculs par essais et erreurs.

Les chercheurs ont utilisé un algorithme appelé Dreamer qui exploite les expériences passées pour construire un modèle du monde réel à partir duquel le robot peut apprendre. Sur la photo ci-dessus, le robot à 30 minutes
«L’algorithme Dreamer s’est récemment révélé très prometteur pour apprendre à partir de petites quantités d’interaction en planifiant dans un modèle de monde appris», déclarent les chercheurs dans leur article , qui n’a pas encore été examiné par des pairs.
« Apprendre un modèle mondial pour prédire les résultats d’actions potentielles permet de planifier dans l’imagination, réduisant ainsi le nombre d’essais et d’erreurs nécessaires dans l’environnement réel. »

« L’apprentissage par renforcement sera un outil fondamental dans l’avenir du contrôle des robots », a déclaré un scientifique non affilié à l’étude. Sur la photo ci-dessus, le robot à 40 minutes

Au bout d’une heure, le chien robotique, illustré ci-dessus, peut très bien naviguer dans son environnement, se retourner et plus encore
Une fois que le robot a appris à marcher, il pourrait également apprendre à s’adapter à d’autres résultats moins prévisibles, comme se faire piquer avec un bâton par des chercheurs.
Même avec l’apprentissage par renforcement, qui a été excellent pour surpasser les humains dans des choses comme les jeux de société ou les jeux vidéo, le monde de l’enseignement des robots à agir correctement dans le monde réel est extrêmement difficile – car les ingénieurs doivent programmer si chaque action est récompensée ou non en fonction de si c’est voulu par les scientifiques.
« Appliquer l’apprentissage par renforcement aux robots physiques est un grand défi, car nous ne pouvons pas accélérer le temps dans le monde réel et les simulateurs de robots ne capturent souvent pas le monde réel avec suffisamment de précision », ont expliqué Hafner et ses collègues.

«Bien que Dreamer montre des résultats prometteurs, l’apprentissage sur du matériel pendant de nombreuses heures crée une usure des robots qui peut nécessiter une intervention ou une réparation humaine», déclarent les chercheurs dans l’étude. Sur la photo ci-dessus, le robot franchit un obstacle
«Notre projet a démontré que l’apprentissage de modèles mondiaux peut considérablement accélérer l’apprentissage des robots dans le monde physique.
« Cela rapproche l’apprentissage par renforcement de la résolution de tâches d’automatisation complexes, telles que les tâches de fabrication et d’assemblage et même les voitures autonomes. »
« Un roboticien devra le faire pour chaque tâche [ou] problème qu’il souhaite que le robot résolve », explique Lerrel Pinto, professeur adjoint d’informatique à l’Université de New York, spécialisé dans la robotique et l’apprentissage automatique. MIT Examen de la technologie .
Cela équivaudrait à une quantité volumineuse de code et à une gamme de situations qui ne peuvent tout simplement pas être prédites.
L’équipe de recherche cite d’autres freins à ce type de technologie :
«Alors que Dreamer montre des résultats prometteurs, l’apprentissage sur du matériel pendant de nombreuses heures crée une usure des robots qui peut nécessiter une intervention ou une réparation humaine», déclarent-ils dans le résumé de l’étude.
‘De plus, il faut encore travailler pour explorer les limites de Dreamer et nos lignes de base en s’entraînant plus longtemps.
«Enfin, nous considérons que s’attaquer à des tâches plus difficiles, potentiellement en combinant les avantages d’un apprentissage rapide dans le monde réel avec ceux des simulateurs, est une future direction de recherche percutante.»
Hafner espère apprendre au robot comment obéir aux commandes vocales et peut-être connecter des caméras au chien pour lui donner une vision – ce qui lui permettrait de faire des activités canines plus typiques comme jouer à chercher.
Dans une étude distincte, des chercheurs de l’Institut Max Planck pour les systèmes intelligents (MPI-IS) en Allemagne ont révélé dans de nouvelles recherches que leur chien robotisé, surnommé Morti, peut apprendre à marcher facilement en utilisant un algorithme complexe qui comprend des capteurs dans ses pieds.
« En tant qu’ingénieurs et roboticiens, nous avons cherché la réponse en construisant un robot doté de réflexes comme un animal et apprenant de ses erreurs », explique Felix Ruppert, ancien doctorant du groupe de recherche Dynamic Locomotion au MPI- IS .
« Si un animal trébuche, est-ce une erreur ? Pas si ça arrive une fois. Mais s’il trébuche fréquemment, cela nous donne une mesure de la façon dont le robot marche.
Le chien robot fonctionne en utilisant un algorithme complexe qui guide son apprentissage.
Les informations des capteurs de pied sont comparées aux données du modèle de moelle épinière de la machine qui s’exécute comme un programme à l’intérieur de l’ordinateur du robot.
Le chien robotique apprend à marcher en comparant constamment les informations de capteur définies et attendues, en exécutant des boucles réflexes et en adaptant la façon dont il régule ses mouvements.
Des scientifiques de l’Institut Max Planck pour les systèmes intelligents en Allemagne ont formé un chien robotique connu sous le nom de Morti à marcher à l’aide d’algorithmes