Skip to main content

6 Juin, 2024

Vidéo : Eve, un humanoïde guidé par la voix effectue des tâches multiples à la suite les unes des autres

Vidéo : Eve, un humanoïde guidé par la voix effectue des tâches multiples à la suite les unes des autres

« Nous avons créé une interface en langage naturel contrôlée par la voix pour enchaîner les capacités à court terme de plusieurs petits modèles et atteindre des capacités à plus long terme », explique Eric Jang, vice-président de l’IA chez 1X. « Avec des humains qui dirigent l’enchaînement des compétences, cela nous permet d’accomplir les comportements à long terme montrés dans cette vidéo ».

La société de robotique 1X, soutenue par l’OpenAI, a publié une vidéo montrant un groupe de robots de service sur roues qui passent d’une tâche simple à une autre pour ranger un espace de bureau, poussés à l’action par une interface de langage naturel contrôlée par la voix.

Halodi Robotics a été fondée en 2014 pour développer des robots à usage général destinés à travailler aux côtés des humains sur le lieu de travail. Basée à l’origine en Norvège, l’entreprise a établi une deuxième base d’opérations en Californie en 2019, date à laquelle nous avons découvert un prototype de préproduction d’un humanoïde à roues appelé Eve.

Halodi est devenue 1X et s’est associée à OpenAI en 2022 « pour combiner la robotique et l’IA et jeter les bases de l’apprentissage incarné ». Bien que l’entreprise ait en projet un bipède, ainsi que des mains semblables à celles d’un être humain, l’essentiel du développement semble pour l’instant se concentrer sur la formation d’Eve pour qu’elle soit utile sur le lieu de travail, où les robots « comprendront à la fois le langage naturel et l’espace physique, afin qu’ils puissent effectuer des tâches réelles sur votre lieu de travail et dans votre monde ».

1X rapporte aujourd’hui qu’une interface en langage naturel a été créée pour permettre à un opérateur de contrôler plusieurs humanoïdes à l’aide de commandes vocales, le robot aidant alors à enchaîner un ensemble d’actions apprises pour accomplir des tâches complexes.

Commandes vocales et enchaînement de tâches – Mise à jour de 1X AI

En mars dernier, la société a annoncé qu’elle avait réussi à développer un modèle autonome qui regroupait un grand nombre de tâches dans un seul modèle d’IA comportementale – notamment sortir des articles d’un sac de courses et décider ensuite où les mettre, essuyer les liquides renversés et plier des chemises.

1X a noté que l’amélioration du comportement d’une seule tâche dans un modèle multi-tâches relativement petit pouvait avoir un impact négatif sur le comportement d’autres tâches dans ce modèle. Ce problème pourrait être résolu en augmentant le nombre de paramètres, mais au prix d’une augmentation du temps de formation et d’un ralentissement du développement.

Au lieu de cela, l’intégration d’une interface en langage naturel à commande vocale permet aux opérateurs « d’enchaîner les capacités à court terme de plusieurs petits modèles dans des modèles plus longs ». Ces modèles à tâche unique peuvent ensuite être fusionnés en modèles à objectifs conditionnés au fur et à mesure que le développement évolue vers un modèle unifié, l’objectif ultime étant d’automatiser des actions de haut niveau à l’aide de l’IA.

« Diriger des robots avec cette interface de langage de haut niveau offre une nouvelle expérience utilisateur pour la collecte de données », a déclaré Eric Jang, de l’entreprise, dans un article de blog. « Au lieu d’utiliser la RV pour contrôler un seul robot, un opérateur peut diriger plusieurs robots avec un langage de haut niveau et laisser les politiques de bas niveau exécuter des actions de bas niveau pour atteindre ces objectifs de haut niveau. Comme les actions de haut niveau sont envoyées peu fréquemment, les opérateurs peuvent même contrôler les robots à distance ».

1X précise que les humanoïdes Eve présentés dans la vidéo ci-dessus ne sont pas téléopérés, toutes les actions étant contrôlées par un réseau neuronal. Il n’y a pas non plus de graphiques générés par ordinateur, ni de « coupures, d’accélérations vidéo ou de lecture de trajectoire scénarisée ». La prochaine étape consistera à intégrer dans le système des modèles de langage de vision tels que GPT-4o, VILA et Gemini Vision.

https://www.1x.tech/discover/ai-update-voice-commands-chaining-tasks