Skip to main content

18 Sep, 2023

Cette entreprise de voitures sans conducteur utilise des chatbots pour rendre ses véhicules plus intelligents

Cette entreprise de voitures sans conducteur utilise des chatbots pour rendre ses véhicules plus intelligents

Les grands modèles de langage sont la prochaine grande nouveauté dans le domaine de la robotique. Ils permettent de former/entrainer plus rapidement les voitures et les autres robots et de les contrôler plus facilement (à condition de leur faire confiance).

La startup Wayve, spécialisée dans les voitures autonomes, peut désormais interroger ses véhicules en leur posant des questions sur leurs décisions de conduite et en obtenant des réponses en retour. L’idée est d’utiliser la même technologie que celle qui sous-tend le ChatGPT pour aider à former les voitures sans conducteur.

L’entreprise a combiné son logiciel de conduite autonome existant avec un grand modèle linguistique, créant ainsi un modèle hybride baptisé LINGO-1. LINGO-1 synchronise les données vidéo et les données de conduite (les actions que les voitures effectuent seconde par seconde) avec des descriptions en langage naturel qui décrivent ce que la voiture voit et ce qu’elle fait.

L’entreprise britannique a réalisé une série de percées au cours des dernières années. En 2021, elle a montré qu’elle pouvait utiliser une IA formée dans les rues de Londres pour conduire des voitures dans quatre autres villes du Royaume-Uni, un défi qui nécessite généralement une réorganisation importante. L’année dernière, elle a utilisé cette même IA pour conduire plus d’un type de véhicule, une autre première dans l’industrie. Et maintenant, elle peut dialoguer avec ses voitures.

Lors d’une démonstration que l’entreprise a présentée cette semaine, le PDG Alex Kendall a diffusé des images prises par la caméra de l’un de ses véhicules Jaguar I-PACE, a sauté à un endroit aléatoire de la vidéo et a commencé à taper des questions : « Quel temps fait-il ? » Le temps est nuageux. « Quels dangers voyez-vous ? » Il y a une école sur la gauche. « Pourquoi vous êtes-vous arrêté ? Parce que le feu est rouge.

« Nous avons vu des choses remarquables se produire au cours des deux dernières semaines », a déclaré Alex Kendall. « Je n’aurais jamais pensé à poser une telle question, mais regardez… » Il tape : « Quel est le nombre d’étages de l’immeuble de droite ? » Trois étages.

« Regardez ça ! », dit-il, avec l’air d’un père fier. « Nous ne l’avions jamais entraîné à faire cela. Il nous a vraiment étonnés. Nous considérons qu’il s’agit d’une percée dans le domaine de la sécurité de l’IA. »

« Je suis impressionné par les capacités de LINGO-1 », déclare Pieter Abbeel, chercheur en robotique à l’université de Californie à Berkeley et cofondateur de la société de robotique Covariant, qui a joué avec une démonstration de la technologie. Pieter Abbeel a posé à LINGO-1 des questions du type « Que feriez-vous si le feu était vert ? ». « Presque à chaque fois, il a donné une réponse très précise », dit-il.

En interrogeant le logiciel de conduite autonome à chaque étape du processus, Wayve espère comprendre exactement pourquoi et comment ses voitures prennent certaines décisions. La plupart du temps, les voitures roulent bien. Quand ce n’est pas le cas, c’est un problème, comme l’ont constaté des pionniers de l’industrie tels que Cruise et Waymo.

Ces deux entreprises ont déployé de petites flottes de robotaxis dans les rues de quelques villes américaines. Mais la technologie est loin d’être parfaite. Les voitures de Cruise et de Waymo ont été impliquées dans de multiples collisions mineures (Waymo aurait tué un chien) et bloquent la circulation lorsqu’elles sont bloquées. Les autorités de San Francisco ont affirmé qu’en août, deux véhicules Cruise se sont mis en travers du chemin d’une ambulance transportant une personne blessée, qui est ensuite décédée à l’hôpital. Cruise nie la version des autorités.  

Wayve espère que le fait de demander à ses propres voitures de s’expliquer lorsqu’elles font quelque chose de mal permettra de découvrir les failles plus rapidement qu’en regardant des vidéos ou en faisant défiler des rapports d’erreur.

« Le défi le plus important en matière de conduite autonome est la sécurité », précise Pieter Abbeel. « Avec un système comme LINGO-1, je pense que l’on a une bien meilleure idée de la façon dont il comprend la conduite dans le monde. Il est donc plus facile d’identifier les points faibles.

L’étape suivante consiste à utiliser le langage pour enseigner aux voitures, explique M. Kendall. Pour former LINGO-1, Wayve a demandé à son équipe de conducteurs experts – dont certains sont d’anciens moniteurs d’auto-école – de parler à haute voix pendant qu’ils conduisaient, en expliquant ce qu’ils faisaient et pourquoi : pourquoi ils accéléraient, pourquoi ils ralentissaient, quels étaient les dangers dont ils étaient conscients.

L’entreprise utilise ces données pour affiner le modèle, en lui donnant des conseils de conduite, comme un instructeur pourrait le faire avec un apprenant humain. Dire à une voiture comment faire quelque chose plutôt que de se contenter de lui montrer accélère considérablement la formation, explique M. Kendall.

Wayve n’est pas la première à utiliser de grands modèles de langage en robotique. D’autres entreprises, dont Google et Covariant, la société d’Abbeel, utilisent le langage naturel pour interroger ou instruire des robots domestiques ou industriels. Cette technologie hybride porte même un nom : les modèles visuels-langage-action (VLAM). Mais Wayve est le premier à utiliser les VLAM pour la conduite autonome.

« On dit souvent qu’une image vaut mille mots, mais dans le domaine de l’apprentissage automatique, c’est l’inverse », souligne Alex Kendall. « Quelques mots peuvent valoir mille images. Une image contient beaucoup de données redondantes. « Lorsque vous conduisez, vous ne vous intéressez pas au ciel, à la couleur de la voiture qui vous précède ou à d’autres choses de ce genre », explique-t-il. « Les mots peuvent se concentrer sur les informations importantes.

« L’approche de Wayve est vraiment intéressante et unique », déclare Lerrel Pinto, chercheur en robotique à l’université de New York. Il apprécie notamment la manière dont LINGO-1 explique ses actions.

Mais il est curieux de savoir ce qui se passe lorsque le modèle invente des choses. « Je ne fais pas confiance aux grands modèles de langage pour être factuels », dit-il. « Je ne suis pas sûr de pouvoir leur faire confiance pour faire rouler ma voiture.

Upol Ehsan, chercheur à l’Institut de technologie de Géorgie qui travaille sur les moyens d’amener l’IA à expliquer ses décisions aux humains, émet les mêmes réserves. « Les grands modèles de langage sont, pour utiliser l’expression technique, de grands baratineurs », déclare Ehsan. « Nous devons appliquer un ruban jaune vif de mise en garde et nous assurer que le langage généré n’est pas halluciné.

Wayve est bien conscient de ces limites et s’efforce de rendre LINGO-1 aussi précis que possible. « Nous rencontrons les mêmes difficultés que pour tout grand modèle de langage », lance Alex Kendall. « Il n’est certainement pas parfait.

L’un des avantages de LINGO-1 par rapport aux modèles non hybrides est que ses réponses sont fondées sur les données vidéo qui l’accompagnent. En théorie, cela devrait rendre LINGO-1 plus véridique. 

Selon M. Kendall, il ne s’agit pas seulement de voitures. « Il y a une raison pour laquelle vous et moi avons évolué vers le langage : c’est le moyen le plus efficace que nous connaissions pour communiquer sur des sujets complexes. Je pense qu’il en sera de même avec les machines intelligentes. À l’avenir, nous interagirons avec les robots par le biais du langage. »

https://www.technologyreview.com/2023/09/14/1079458/this-driverless-car-company-is-using-chatbots-to-make-its-vehicles-smarter/