Des chercheurs de Facebook collectent des milliers d’heures de vidéos à la première personne pour entraîner l’IA
Des chercheurs de Facebook collectent des milliers d’heures de vidéos à la première personne pour entraîner l’IA

Image d’un globe terrestre sur lequel sont dispersées des images vidéo à la première personne.
Si les IA du futur, comme de nombreuses entreprises technologiques semblent l’espérer, vont regarder à travers nos yeux sous la forme de lunettes AR et autres wearables, elles devront apprendre à comprendre la perspective humaine. Nous y sommes habitués, bien sûr, mais il y a remarquablement peu de séquences vidéo à la première personne de tâches quotidiennes. C’est pourquoi Facebook a recueilli quelques milliers d’heures pour un nouvel ensemble de données accessibles au public.
Le défi que Facebook tente de relever est simplement que même les modèles de reconnaissance d’objets et de scènes les plus impressionnants à l’heure actuelle ont été entraînés presque exclusivement sur des perspectives à la troisième personne. Il peut donc reconnaître une personne en train de cuisiner, mais uniquement si elle se trouve dans une cuisine, et non si elle est vue des yeux de la personne. Ou bien il reconnaîtra un vélo, mais pas du point de vue du cycliste. Il s’agit d’un changement de perspective que nous considérons comme acquis, parce qu’il fait naturellement partie de notre expérience, mais que les ordinateurs trouvent assez difficile.
La solution aux problèmes d’apprentissage automatique consiste généralement à disposer de plus de données ou de données de meilleure qualité, et dans ce cas, les deux ne peuvent pas faire de mal. Facebook a donc contacté des partenaires de recherche dans le monde entier pour recueillir des vidéos à la première personne d’activités courantes telles que cuisiner, faire les courses, faire des lacets de chaussures ou simplement passer du temps ensemble.
Les 13 universités partenaires ont recueilli des milliers d’heures de vidéo auprès de plus de 700 participants dans neuf pays, et il convient de préciser d’emblée qu’il s’agissait de volontaires et qu’ils contrôlaient le niveau de leur propre implication et de leur identité. Ces milliers d’heures ont été réduites à 3 000 par une équipe de recherche qui a visionné, édité et annoté à la main les vidéos, tout en ajoutant ses propres séquences provenant d’environnements mis en scène qu’elle n’a pas pu capturer dans la nature. Tout cela est décrit dans ce document de recherche.
Les séquences ont été capturées par diverses méthodes, des caméras de lunettes aux GoPros et autres appareils, et certains chercheurs ont choisi de scanner également l’environnement dans lequel la personne évoluait, tandis que d’autres ont suivi la direction du regard et d’autres paramètres. Le tout est intégré dans un ensemble de données que Facebook appelle Ego4D et qui sera mis gratuitement à la disposition de l’ensemble de la communauté des chercheurs.

Deux images, l’une montrant la vision par ordinateur identifiant avec succès des objets et l’autre montrant son échec à la première personne.
« Pour que les systèmes d’IA puissent interagir avec le monde comme nous le faisons, le domaine de l’IA doit évoluer vers un paradigme entièrement nouveau de perception à la première personne. Cela signifie qu’il faut apprendre à l’IA à comprendre les activités de la vie quotidienne à travers les yeux de l’homme dans le contexte du mouvement en temps réel, de l’interaction et des observations multisensorielles », a déclaré la chercheuse principale Kristen Grauman dans un billet de blog Facebook.
Aussi difficile à croire que cela puisse être, cette recherche et les lunettes intelligentes Ray-Ban Stories n’ont aucun rapport, sauf que Facebook pense clairement que la compréhension à la première personne est de plus en plus importante pour de multiples disciplines. (Les scans 3D pourraient toutefois être utilisés dans le simulateur de formation à l’IA Habitat de la société).
« Nos recherches sont fortement motivées par les applications en réalité augmentée et en robotique », a déclaré Kristen Grauman à TechCrunch. « La perception à la première personne est essentielle pour permettre aux assistants d’IA du futur, d’autant plus que les objets à porter, comme les lunettes AR, font partie intégrante de la façon dont les gens vivent et se déplacent au quotidien. Pensez à quel point il serait bénéfique que les assistants de vos appareils puissent supprimer la surcharge cognitive de votre vie, en comprenant votre monde à travers vos yeux. »
La nature globale de la vidéo collectée est une démarche très délibérée. Il serait fondamentalement myope de n’inclure que des images d’un seul pays ou d’une seule culture. Les cuisines américaines sont différentes des cuisines françaises, rwandaises et japonaises. Préparer le même plat avec les mêmes ingrédients ou effectuer la même tâche générale (nettoyer, faire de l’exercice) peut sembler très différent, même entre individus, sans parler de cultures entières. Ainsi, comme le dit le post de Facebook, « par rapport aux ensembles de données existants, l’ensemble de données Ego4D offre une plus grande diversité de scènes, de personnes et d’activités, ce qui accroît l’applicabilité des modèles formés pour des personnes de toutes origines, ethnies, professions et âges. »

Exemples tirés de Facebook de vidéos à la première personne et des environnements où elles ont été prises.
La base de données n’est pas la seule chose que Facebook publie. Avec ce genre d’avancée dans la collecte de données, il est courant de publier également un ensemble de critères permettant de tester l’efficacité d’un modèle donné à utiliser les informations. Par exemple, avec un ensemble d’images de chiens et de chats, on peut vouloir un point de référence standard qui teste l’efficacité du modèle à distinguer les deux.
Dans ce cas, les choses sont un peu plus compliquées. Identifier des objets du point de vue de la première personne n’est pas si difficile – il s’agit simplement d’un angle différent – et ce ne serait pas non plus si nouveau ou utile. Avez-vous vraiment besoin d’une paire de lunettes AR pour vous dire « c’est une tomate » ? Non : comme tout autre outil, un dispositif de réalité augmentée doit vous dire quelque chose que vous ne savez pas, et pour ce faire, il a besoin d’une compréhension plus approfondie de choses telles que les intentions, les contextes et les actions liées.
À cette fin, les chercheurs ont défini cinq tâches qui peuvent, en théorie du moins, être accomplies en analysant cette imagerie à la première personne :
La mémoire épisodique : suivre des objets et des concepts dans le temps et l’espace afin de répondre à des questions arbitraires comme « où sont mes clés ».
- Prévision : comprendre les séquences d’événements afin de pouvoir répondre à des questions telles que « quelle est la prochaine recette ? » ou de prendre note de manière préventive de certaines choses, comme « vous avez laissé vos clés de voiture à la maison ».
- Interaction main-objet : identifier comment les gens saisissent et manipulent les objets, et ce qui se passe lorsqu’ils le font, ce qui peut alimenter la mémoire épisodique ou peut-être informer les actions d’un robot qui doit imiter ces actions.
- La consignation audiovisuelle : associer le son à des événements et à des objets afin de pouvoir suivre intelligemment la parole ou la musique dans des situations telles que demander quelle chanson était jouée au café ou ce que le patron a dit à la fin de la réunion. (« Diarisation » est leur « mot »).
- Interaction sociale : comprendre qui parle à qui et ce qui est dit, à la fois pour informer les autres processus et pour une utilisation sur le moment, comme le sous-titrage dans une pièce bruyante avec plusieurs personnes.
Il ne s’agit évidemment pas des seules applications ou références possibles, mais simplement d’un ensemble d’idées initiales permettant de vérifier si un modèle d’IA donné comprend réellement ce qui se passe dans une vidéo à la première personne. Les chercheurs de Facebook ont effectué une exécution de base pour chaque tâche, décrite dans leur article, qui sert de point de départ. Cette vidéo résumant les recherches présente également une sorte d’exemple de chacune de ces tâches si elles étaient réussies.
Bien que ces 3 000 heures – minutieusement annotées à la main sur 250 000 heures de travail des chercheurs, a pris soin de préciser Kristen Grauman – représentent un ordre de grandeur supérieur à ce qui existe actuellement, il y a encore beaucoup de place pour la croissance, a-t-elle noté. L’équipe prévoit d’élargir l’ensemble des données et ajoute activement des partenaires.
Si vous souhaitez utiliser ces données, gardez un œil sur le blog Facebook AI Research et contactez peut-être l’une des nombreuses personnes mentionnées dans le document. Il sera publié dans les prochains mois, une fois que le consortium aura déterminé comment procéder.
https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes