Skip to main content

17 Août, 2022

Les compétences linguistiques de l’IA de Google font entrer les robots dans le monde réel

Les compétences linguistiques de l’IA de Google font entrer les robots dans le monde réel

Apprendre aux robots à traiter le langage les aide à s’orienter dans les complexités d’une cuisine, et pas seulement dans un laboratoire soigneusement contrôlé. Les robots PaLM-SayCan de Google utilisent des modèles linguistiques d’IA pour comprendre que ramasser une éponge est utile à quelqu’un qui a besoin d’aide pour une boisson renversée.

Google a trouvé un nouveau moyen surprenant d’aider les robots à faire face à la complexité du monde réel : leur apprendre à comprendre le langage.

Le géant de la technologie a greffé sa dernière technologie d’intelligence artificielle pour le traitement du langage, baptisée PaLM, sur des robots de Everyday Robots, l’une des divisions expérimentales de la société mère Alphabet. Il a révélé la technologie résultante, appelée PaLM-SayCan.

Grâce à cette technologie, le modèle linguistique d’IA de Google apporte une connaissance suffisante du monde réel pour aider un robot à interpréter une vague commande humaine et à enchaîner une séquence d’actions pour y répondre. Le contraste est frappant avec les actions scriptées avec précision que la plupart des robots suivent dans des circonstances étroitement contrôlées, comme l’installation de pare-brise sur une chaîne de montage de voitures.

Cette technologie est un projet de recherche qui n’est pas encore prêt pour le grand public. Mais Google l’a testée dans une véritable cuisine de bureau, et non dans un environnement de laboratoire plus contrôlé, dans le but de construire des robots qui puissent être utiles dans le chaos imprévisible de nos vies réelles. Avec des projets tels que le robot bipède Optimus de Tesla, les créations de Boston Dynamics et l’Astro d’Amazon, il montre comment les robots pourraient un jour sortir de la science-fiction.

Lorsqu’un chercheur en IA de Google demande au robot PaLM-SayCan : « J’ai renversé mon verre, pouvez-vous m’aider ?« , celui-ci glisse sur ses roues dans la cuisine d’un immeuble de bureaux de Google, repère une éponge sur le comptoir grâce à la vision de sa caméra numérique, la saisit avec un bras motorisé et la rapporte au chercheur. Le robot peut également reconnaître des canettes de Pepsi et de Coke, ouvrir des tiroirs et localiser des sacs de chips. Grâce aux capacités d’abstraction du PaLM, il peut même comprendre que des bols jaunes, verts et bleus peuvent représenter métaphoriquement un désert, une jungle et un océan, respectivement.

« À mesure que nous améliorons les modèles de langage, les performances du robot s’améliorent également », a déclaré Karol Hausman, chercheur principal chez Google, qui a participé à la démonstration de cette technologie.

Le robot intelligent de Google à l’œuvre dans une cuisine

Une collection d’objectifs d’appareils photo numériques apparaît sur le devant de la face mécanique d’un robot de la division Everyday Robot d’Alphabet

L’IA a profondément transformé le fonctionnement et les possibilités de l’informatique. Grâce à la technologie moderne des réseaux neuronaux, vaguement calquée sur le cerveau humain et également appelée apprentissage profond, les systèmes d’IA sont entraînés sur de grandes quantités de données désordonnées du monde réel. Après avoir vu des milliers de photos de chats, par exemple, les systèmes d’IA peuvent en reconnaître un sans qu’il soit nécessaire de lui dire qu’il a généralement quatre pattes, des oreilles pointues et des moustaches.

Google a utilisé une énorme machine à 6 144 processeurs pour entraîner le PaLM, abréviation de Pathways Language Model, sur une vaste collection multilingue de documents Web, de livres, d’articles de Wikipédia, de conversations et de codes de programmation trouvés sur le site GitHub de Microsoft. Le résultat est un système d’IA qui peut expliquer des blagues, compléter des phrases, répondre à des questions et suivre sa propre chaîne de pensée pour raisonner.

Le travail de PaLM-SayCan marie cette compréhension du langage avec les capacités propres du robot. Lorsque le robot reçoit une commande, il associe les suggestions du modèle linguistique à un ensemble d’une centaine de compétences qu’il a apprises. Le robot choisit l’action qui obtient le meilleur score à la fois pour le langage et pour les compétences du robot.

Le système est limité par sa formation et les circonstances, mais il est beaucoup plus flexible qu’un robot industriel. Lorsque ma collègue Claire Reilly demande à un robot PaLM-SayCan de « construire un hamburger », il empile des blocs de bois représentant des petits pains, une galette, de la laitue et une bouteille de ketchup dans le bon ordre.

Selon Google, les compétences et l’environnement du robot offrent une base réelle pour les possibilités plus larges du modèle de langage. Les compétences agiront comme les « mains et les yeux » du modèle de langage », ont-ils déclaré dans un document de recherche PaLM-SayCan.

https://www.cnet.com/tech/computing/ai-language-skills-coax-google-robots-into-the-real-world/

https://everydayrobots.com/

https://say-can.github.io/

https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

https://arxiv.org/abs/2204.01691