Vous êtes bon à StarCraft ? La DARPA veut former des robots militaires avec vos ondes cérébrales
Vous êtes bon à StarCraft ? La DARPA veut former des robots militaires avec vos ondes cérébrales

Le film de 1984, The Last Starfighter, raconte l’histoire d’un adolescent dont la vocation dans la vie semble n’être rien d’autre que de jouer aux jeux d’arcade. Heureusement, il est spectaculairement doué pour cela. Le jeu pour lequel il est le plus doué est un jeu vidéo baptisé, comme le titre du film l’indique, Starfighter. Dans ce jeu, le joueur doit défendre sa propriété, The Frontier, contre les dangers de Xur et de l’Armada Ko-Dan, au moyen d’une série de batailles au laser filaire.
Mais il y a un rebondissement. Il s’avère que Starfighter n’est pas un simple jeu, c’est en fait une sorte de test. La guerre avec Xur et l’Armada Ko-Dan est réelle, et le jeu d’arcade – avec ses exigences de temps de réaction rapide de la part des joueurs – est un outil de recrutement furtif, destiné à rechercher les meilleurs d’entre les meilleurs pour devenir de véritables Starfighters.
Plus de 35 ans après la sortie du jeu The Last Starfighter, des ingénieurs de l’Institut d’IA de l’université de Buffalo, dans l’État de New York, ont reçu des fonds de la DARPA, l’Agence américaine pour les projets de recherche avancée de la défense, pour mener des recherches qui sont… eh bien, disons qu’elles sont extrêmement similaires. Ils ont construit un jeu de stratégie en temps réel, actuellement sans nom, qui rappelle les jeux existants comme StarCraft ou Stellaris par son style. Dans ce jeu, les joueurs doivent utiliser des ressources pour construire des unités et vaincre des ennemis ; en manipulant un grand nombre d’agents à l’écran pour atteindre les objectifs de leur mission.
Mais ce n’est pas une expérience de jeu ordinaire. Lorsque les gens jouent au nouveau jeu de stratégie de l’Université de Buffalo, ils doivent d’abord accepter d’être connectés à la technologie de l’électroencéphalogramme (EEG) afin que les concepteurs du jeu puissent enregistrer leur activité cérébrale. Pendant qu’ils jouent, les mouvements de leurs yeux sont également suivis par des caméras spéciales à ultra-rapide pour voir exactement comment ils réagissent à ce qu’ils font. Ces informations, qui peuvent être extraites à l’aide d’algorithmes d’apprentissage automatique, seront ensuite utilisées pour développer de nouveaux algorithmes qui pourront aider à former un grand nombre de futurs robots. On espère en particulier que ces connaissances sur la prise de décision complexe pourront améliorer la coordination entre de grandes équipes de robots autonomes aériens et terrestres. Si le jeu devait prendre vie.

Pour quiconque a grandi avec des films comme The Last StartFighter, cela semblera étrangement familier. Bien qu’il y ait un rebondissement ici aussi. Dans The Last Starfighter (et d’autres histoires de science-fiction qui se déroulent sur un terrain similaire, comme Ender’s Game d’Orson Scott Card et Armada d’Ernest Cline), le but est d’entraîner les humains à avoir le genre de réflexes rapides comme l’éclair que l’on trouve normalement dans une machine. Dans ce cas, c’est différent. Le but du nouveau projet de jeu de l’Université de Buffalo n’est pas de rendre les joueurs plus proches de la machine.
Bien au contraire, en fait. Il s’agit d’essayer de faire des machines qui pensent plus comme des humains.
Former aujourd’hui les essaims de demain
« Nous essayons de recruter des participants qui ont une solide expérience du jeu », a déclaré Souma Chowdhury, professeur adjoint d’ingénierie mécanique et aérospatiale à l’École d’ingénierie et de sciences appliquées.
Souma Chowdhury est l’une des principaux chercheurs du projet. Il s’arrête et fait un rire nerveux ; le moindre soupçon d’excuse se glisse dans sa voix. « Je n’ai pas d’expérience de jeu », dit-il. « Je ne suis pas du tout un joueur sur ordinateur. Mais beaucoup de nos étudiants sont fous de jeux ».
« Nous essayons de recruter des participants qui ont une solide expérience du jeu.
Le domaine d’intérêt de Souma Chowdhury est l’intelligence des essaims, une branche de l’informatique qui remonte à la fin des années 1980. L’intelligence d’essaim concerne le comportement collectif de systèmes décentralisés et autoorganisés, à la fois virtuels et robotiques. « C’est un sujet brûlant », dit-il. « Il est de plus en plus connu qu’il existe de nombreuses applications différentes qui pourraient être réalisées en n’utilisant pas un seul robot d’un million de dollars, mais plutôt un grand essaim de robots plus simples et moins chers. Ceux-ci pourraient être basés au sol, dans les airs ou une combinaison de ces deux approches ».
Certains chercheurs en robotique des essaims tentent de créer des essaims capables d’exécuter des procédures complexes en façonnant à la main les actions de chaque agent impliqué ; comme vous pourriez entraîner chaque membre d’une troupe de danse pour qu’il puisse maîtriser une routine complexe. Mettez-les tous ensemble et vous obtiendrez quelque chose qui ressemble à une collaboration émergente, bien qu’il s’agisse en fait d’un ensemble d’individus faisant leur propre chose. L’idée d’utiliser l’intelligence artificielle moderne d’apprentissage machine est de donner aux essaims de robots la capacité de fonctionner de manière plus autonome en tant que collectif significatif.

Mais c’est plus facile à dire qu’à faire. Entraîner un robot à faire quelque chose nécessite une formation importante. Entraîner un essaim, aux capacités potentiellement variables, à accomplir des tâches dans des environnements complexes et incertains est beaucoup plus délicat. Cela signifie qu’il faut effectuer des dizaines de milliers de simulations, ce qui rend le processus extrêmement long et coûteux. L’idée qui sous-tend ce nouveau projet est que le fait de regarder les humains jouer au jeu facilitera l’apprentissage des machines.
Imaginez que vous entriez dans une salle de classe sans professeur et que vous disiez « apprenons l’algèbre » », a déclaré Souma Chowdhury. « Vous pouvez apprendre en utilisant simplement des exercices et des manuels. Mais cela va prendre beaucoup plus de temps. Si vous avez un professeur que vous pouvez suivre, cela ira plus vite. Dans ce cas, nous voulons voir comment les humains jouent à ce jeu et l’utiliser ensuite pour accélérer considérablement l’I.A. dans l’apprentissage du comportement. Avant, il serait nécessaire de faire 10 000 simulations pour apprendre. Maintenant, il nous suffit de faire 1 000 simulations et de les compléter avec des données humaines. »
Les chercheurs pensent qu’en observant le type de décisions tactiques ou stratégiques que prennent les humains lorsqu’ils jouent à un jeu de stratégie, il sera possible de déterminer les caractéristiques et les événements qui motivent ces actions.
Enseigner aux machines
« Le projet est en cours, à un rythme assez agressif », a déclaré Souma Chowdhury. « Nous sommes à mi-chemin. »
À l’heure actuelle, ils n’ont pas encore commencé la phase de collecte de données du projet, bien que Souma Chowdhury ait une bonne idée du format qu’il prendra. Il est prévu de mener des expériences avec environ 25 participants. Chaque participant jouera entre six et sept jeux avec des paramètres aléatoires et des niveaux de complexité différents. Contrairement aux jeux tels que StarCraft, qui peuvent durer des heures, dans ce cas, chaque jeu ne durera qu’entre cinq et dix minutes. Cela sera suffisant pour mesurer les stratégies de prise de décision et pour que ces caractéristiques intéressantes soient extraites à l’aide d’algorithmes et de scripts développés par l’équipe.
« Les humains peuvent élaborer des stratégies très particulières qu’une I.A. n’apprendra peut-être jamais. »
« À ce stade, il est difficile de commenter la quantité ou la taille des données qui seront finalement collectées », a déclaré Souma Chowdhury. Toutefois, l’objectif serait d’arriver à terme à 250 robots aériens et terrestres, travaillant dans des situations très complexes. Un exemple pourrait être la gestion de la perte soudaine de visibilité due à la fumée. L’équipe prévoit de développer des algorithmes, modelés sur le comportement humain, qui leur permettront de s’adapter à des défis tels que celui-ci.
« Les humains peuvent élaborer des stratégies très particulières qu’une I.A. n’apprendra peut-être jamais », a-t-il poursuivi. « Une grande partie du battage que nous voyons dans l’I.A. se fait dans des applications qui sont des environnements relativement déterministes. Mais en termes de raisonnement contextuel dans un environnement réel pour faire avancer les choses ? C’est encore à un stade naissant ».
Les humains font les stratégies
Dans son livre Thinking, Fast and Slow, publié en 2011, Daniel Kahneman, économiste et psychologue, lauréat du prix Nobel, décrit deux modes de pensée différents. Le premier système est rapide et instinctif, le genre de chose que l’on pourrait appeler intuition. Il peut s’agir de localiser la source d’un son spécifique, de compléter l’expression « guerre et… » ou, oui, de faire exploser des vaisseaux Ko-Dan dans les airs (ou leur absence) dans Starfighter. Le second système est plus lent, plus délibéré, plus logique. Il est centré sur la pensée consciente – qui dans ce cas pourrait très bien se référer à la formation de stratégies.
Souma Chowdhury ne cite pas le travail de Daniel Kahneman lorsqu’il parle du projet. Mais il est difficile de ne pas s’en souvenir. Comme il le souligne, les machines sont déjà capables d’un nombre impressionnant de fonctions autonomes. Un drone de 10 000 dollars possède des capacités de navigation impressionnantes. Il en va de même pour les agents dans un jeu de stratégie. Les unités sont souvent régies par des règles de bas niveau qui leur permettent de réagir à leur environnement. Cela peut signifier attaquer ou se défendre si elles sont confrontées à un ennemi. Cela peut aussi signifier être capable de maintenir des formations lorsqu’elles se déplacent sur la carte. Mais dans les deux cas, ce qui manque, c’est la stratégie globale nécessaire à l’exécution des tâches.
« Vous n’avez pas besoin d’un humain pour effectuer un contrôle de bas niveau, en contrôlant chaque agent », précise Souma Chowdhury. « Ce n’est pas ce qui nous intéresse. Ils ne contrôlent pas tous les robots et ne savent pas où ils vont. Le rôle de l’homme est plus celui d’un superviseur ou d’un tacticien. Une bonne analogie serait que, dans un environnement d’intervention en cas de catastrophe, vous avez un superviseur. Ils peuvent avoir une équipe de 100 sauveteurs sous leurs ordres. Il y a une hiérarchie, mais le superviseur ne dit pas à chacun des membres de l’équipe ce qu’il doit faire exactement. Les sauveteurs prennent beaucoup de décisions indépendantes, mais c’est le superviseur qui crée la tactique générale. C’est ce que nous voulons construire ».
Si Souma Chowdhury et son équipe parviennent à leurs fins, les essaims de robots de demain seront beaucoup plus intelligents. Et ils pourront remercier les joueurs pour cela.
https://www.digitaltrends.com/cool-tech/brain-training-future-swarm-robot-armies/
https://engineering.buffalo.edu/mechanical-aerospace/people/faculty/s-chowdhury.html