Toyota bouleverse l’apprentissage des robots : la nouvelle IA maîtrise des tâches complexes en quelques heures
Toyota bouleverse l’apprentissage des robots : la nouvelle IA maîtrise des tâches complexes en quelques heures

Une nouvelle approche de l’IA dans le monde physique accélère considérablement la capacité des robots à acquérir et à perfectionner de nouvelles compétences.
« Nous avons réalisé une petite avancée. » Toyota, le MIT et Columbia Engineering ont montré les résultats étonnants d’une nouvelle approche d’apprentissage de l’IA qui accélère considérablement la rapidité avec laquelle les robots peuvent acquérir de nouvelles compétences. Cela ressemble à un moment ChatGPT pour la robotique.
Nous vivons à l’aube de l’ère de la robotique généraliste. Des dizaines d’entreprises ont désormais décidé qu’il était temps d’investir massivement dans des robots humanoïdes capables de se déplacer de manière autonome dans les espaces de travail existants et de commencer à prendre en charge les tâches des travailleurs humains.
Cependant, la plupart des premiers cas d’utilisation appartiennent à ce qu’on appellerait la catégorie Planet Fitness : les robots soulèvent des objets et les déposent. Ce sera idéal pour la logistique de type entrepôt, le chargement et le déchargement de camions, de palettes, etc., et le déplacement d’objets dans les usines. Mais ce n’est pas si glamour et cela ne se rapproche certainement pas de l’utilité d’un travailleur humain.
Pour que ces capacités s’étendent au point où les robots peuvent se promener sur n’importe quel chantier et commencer à assumer une grande variété de tâches, ils ont besoin d’un moyen de se perfectionner rapidement, sur la base d’instructions ou de démonstrations humaines. Et c’est là que Toyota prétend avoir fait une percée majeure, avec une nouvelle approche d’apprentissage basée sur la politique de diffusion qui, selon elle, ouvre la porte au concept de grands modèles de comportement.

Le nouveau système d’apprentissage maîtrise une gamme de tâches complexes à deux mains impliquant des outils, comme ce batteur à œufs
La politique de diffusion est un concept que Toyota a développé en partenariat avec Columbia Engineering et le MIT, et même si les détails deviennent rapidement très obscurs à mesure que l’on approfondit ce sujet, le groupe décrit l’idée générale comme « une nouvelle façon de générer le comportement d’un robot en représentant la police visuomotrice d’un robot comme processus de diffusion de débruitage conditionnel. Vous pouvez en apprendre davantage et voir quelques exemples dans le document de recherche du groupe.
Essentiellement, là où les grands modèles linguistiques (LLM) comme ChatGPT peuvent ingérer des milliards de mots d’écriture humaine et apprendre eux-mêmes à écrire et à coder – et même à raisonner – à un niveau étonnamment proche de celui des humains, la politique de diffusion permet aux IA robotiques d’observer comment un humain effectue une tâche physique donnée dans le monde réel, puis de se programmer essentiellement lui-même pour effectuer cette tâche de manière flexible.
Alors que certaines startups enseignent leurs robots via la téléprésence VR – donnant à un opérateur humain exactement ce que les yeux du robot peuvent voir et lui permettant de contrôler les mains et les bras du robot pour accomplir la tâche – l’approche de Toyota est davantage axée sur l’haptique. Les opérateurs ne portent pas de casque VR, mais ils reçoivent un retour haptique des pinces souples et flexibles du robot via leurs commandes manuelles, leur permettant dans un certain sens de ressentir ce que ressent le robot lorsque ses manipulateurs entrent en contact avec des objets.

Les pinces souples avec retour haptique confèrent à l’IA une sensation de toucher physique d’une importance cruciale

Une fois qu’un opérateur humain a montré aux robots comment effectuer une tâche à plusieurs reprises, dans des conditions légèrement différentes, l’IA du robot construit son propre modèle interne de ce à quoi ressemblent le succès et l’échec, puis exécute des milliers et des milliers d’analyses physiques. -des simulations basées sur ses modèles internes de la tâche, pour se concentrer sur un ensemble de techniques pour accomplir le travail.
« Le processus commence avec un enseignant démontrant un petit ensemble de compétences par téléopération », explique Ben Burchfiel, qui porte le titre amusant de « Manager of Dextrous Manipulation ». « Notre politique de diffusion basée sur l’IA apprend ensuite en arrière-plan en quelques heures. Il est courant que nous apprenions à un robot l’après-midi, le laissions apprendre pendant la nuit, puis adoptions un nouveau comportement fonctionnel le lendemain matin. »
Jusqu’à présent, l’équipe a utilisé cette approche pour former rapidement les robots à plus de 60 petites tâches, principalement basées sur la cuisine – chacune relativement simple pour l’humain adulte moyen, mais chacune exigeant que les robots découvrent par eux-mêmes comment saisir, tenir et manipuler différents types d’objets, en utilisant une gamme d’outils et d’ustensiles.

Pour être honnête, c’est mieux que ce qu’un enfant de cinq ans peut gérer
Nous parlons d’utiliser un couteau pour répartir uniformément une tartinade sur une tranche de pain, ou d’utiliser une spatule pour retourner une crêpe, ou d’utiliser un éplucheur de pommes de terre pour éplucher les pommes de terre. On apprend à étaler la pâte sur un fond de pizza, puis à verser de la sauce sur le fond et à l’étaler avec une cuillère. C’est étrangement comme regarder de jeunes enfants comprendre les choses. Vérifiez-le:
Enseigner de nouveaux comportements aux robots
Toyota affirme avoir sous contrôle des centaines de tâches d’ici la fin de l’année et vise plus de 1 000 tâches d’ici la fin de 2024. En tant que tel, il développe ce qu’il pense être le premier modèle de comportement à grande échelle, ou LBM (Large Behavior Model) – une architecture qui finira par s’étendre pour devenir quelque chose comme l’équivalent robot incarné de ChatGPT. C’est-à-dire un modèle entièrement généré par l’IA sur la façon dont un robot peut interagir avec le monde physique pour atteindre certains résultats, qui se manifeste par une pile géante de données complètement impénétrable à l’œil humain.
L’équipe met effectivement en place la procédure par laquelle les futurs propriétaires et opérateurs de robots dans toutes sortes de situations pourront rapidement enseigner de nouvelles tâches à leurs robots si nécessaire – en améliorant des flottes entières de robots avec de nouvelles compétences au fur et à mesure.
« Les tâches que je regarde ces robots accomplir sont tout simplement incroyables. Il y a à peine un an, je n’aurais pas prédit que nous étions proches de ce niveau de dextérité diversifiée », déclare Russ Tedrake, vice-président de la recherche en robotique au Toyota Research Institute. « Ce qui est si passionnant dans cette nouvelle approche, c’est la rapidité et la fiabilité avec lesquelles nous pouvons ajouter de nouvelles compétences. Parce que ces compétences fonctionnent directement à partir d’images de caméra et de détection tactile, en utilisant uniquement des représentations apprises, ils sont capables de bien fonctionner même sur des tâches impliquant des objets, des tissus et des liquides déformables – ce qui est traditionnellement extrêmement difficile pour les robots. »

Un échantillon des plus de 60 tâches que l’équipe a désormais enseignées aux robots à l’aide de ce nouveau système d’apprentissage rapide
Vraisemblablement, le LBM Toyota est actuellement en train de construire nécessitera des robots du même type qu’il utilise actuellement – des unités construites sur mesure conçues pour « des tâches de manipulation adroites à deux bras avec un accent particulier sur l’activation du retour haptique et de la détection tactile ». Mais il ne faut pas beaucoup d’imagination pour extrapoler l’idée dans un cadre que les robots humanoïdes dotés de doigts et de pouces opposables peuvent utiliser pour prendre le contrôle d’une gamme encore plus large d’outils conçus pour un usage humain.
Et vraisemblablement, à mesure que le LBM développe une « compréhension » de plus en plus complète du monde physique à travers des milliers de tâches, d’objets, d’outils, de lieux et de situations différents, et qu’il acquiert de l’expérience avec une gamme d’interruptions dynamiques du monde réel et d’imprévus résultats, il deviendra de mieux en mieux à généraliser à travers les tâches.
Chaque jour, la marche inexorable de l’humanité vers la singularité technologique semble s’accélérer. Chaque étape, comme celle-ci, représente une réussite étonnante, et pourtant chacune nous catapulte plus loin vers un avenir qui semble si différent d’aujourd’hui – sans parler d’il y a 30 ans – qu’il semble presque impossible à prédire. À quoi ressemblera la vie en 2050 ? Dans quelle mesure pouvez-vous réellement mettre en dehors de la gamme des résultats possibles ?
Attachez votre ceinture, ce trajet ne ralentit pas.