Skip to main content

24 Sep, 2019

Des joueurs dans une IA surprennent les chercheurs avec des stratégies de cache-cache inattendues

Des joueurs dans une IA surprennent les chercheurs avec des stratégies de cache-cache inattendues

Le projet OpenAI a démontré le « comportement émergent  » des joueurs dans l’IA, y compris le surf.

Après 25 millions de parties, les joueurs dans l’IA jouant à cache-cache les uns avec les autres avaient maîtrisé quatre stratégies de jeu de base. Les chercheurs s’attendaient à cette partie.

Après un total de 380 millions de parties, les joueurs d’IA ont développé des stratégies dont les chercheurs ne savaient pas qu’elles étaient possibles dans l’environnement du jeu, que les chercheurs avaient eux-mêmes créé. C’est ce qui a surpris l’équipe d’OpenAI, une société de recherche basée à San Francisco.

Les joueurs en IA ont tout appris grâce à une technique d’apprentissage machine connue sous le nom de renforcement de l’apprentissage (reinforcement learning). Dans cette méthode d’apprentissage, les agents d’IA commencent par prendre des mesures aléatoires. Parfois, ces actions aléatoires produisent les résultats souhaités, ce qui leur rapporte des récompenses. Par des essais et des erreurs à grande échelle, ils peuvent apprendre des stratégies sophistiquées.

Dans le contexte des jeux, ce processus peut être favorisé par le fait que l’IA joue contre une autre version d’elle-même, ce qui garantit que les adversaires seront à égalité. Elle enferme également l’IA dans un processus de surenchère, où toute nouvelle stratégie qui émerge oblige l’adversaire à chercher une contre-mesure. Au fil du temps, ce « self-play » s’est transformé en ce que les chercheurs appellent un « auto-curriculum ».

Selon Igor Mordatch, chercheur chez OpenAI, cette expérience montre que le self-play « suffit aux agents pour apprendre par eux-mêmes des comportements surprenants, c’est comme si les enfants jouaient entre eux « .

Le renforcement est un domaine de recherche très en vogue dans le domaine de l’IA à l’heure actuelle. Les chercheurs d’OpenAI ont utilisé cette technique lorsqu’ils ont formé une équipe de robots pour jouer au jeu vidéo Dota 2, qui a écrasé une équipe humaine championne du monde en avril dernier. La filiale Alphabet DeepMind l’a utilisé pour triompher dans l’ancien jeu de société Go et le jeu vidéo StarCraft.

Aniruddha Kembhavi, chercheur à l’Allen Institute for Artificial Intelligence (AI2) de Seattle, affirme que des jeux comme le cache-cache sont une bonne façon pour les agents d’IA d’acquérir des  » compétences fondamentales « . Il a travaillé au sein d’une équipe qui a appris à leur AllenAI à jouer au Pictionary avec des humains, considérant le terrain de jeu comme un moyen pour l’IA de travailler sur le bon sens et la communication. « Nous sommes cependant très loin d’être en mesure de traduire ces résultats préliminaires dans des environnements très simplifiés dans le monde réel « , estime Aniruddha Kembhavi.

Des agents AI construisent un fort lors d’un jeu de cache-cache développé par OpenAI.

Dans le jeu de cache-cache d’OpenAI, les cacheurs (hiders) et les chercheurs (seekers) ne recevaient une récompense que s’ils gagnaient le jeu, laissant les joueurs IA développer leurs propres stratégies. Dans un environnement 3D simple contenant des murs, des blocs et des rampes, les joueurs ont d’abord appris à courir et à se pourchasser les uns les autres (stratégie 1). Les cacheurs ont ensuite appris à déplacer les blocs pour construire des forts (2), puis les chercheurs ont appris à déplacer les rampes (3), ce qui leur a permis de sauter dans les forts. Puis les cacheurs ont appris à déplacer toutes les rampes dans leurs forts avant que les chercheurs ne puissent les utiliser (4).

Les deux stratégies qui ont surpris les chercheurs (researchers) sont apparues ensuite. Les chercheurs ont d’abord appris qu’ils pouvaient sauter sur une boîte et la « surfer » jusqu’à un fort (5), ce qui leur permettait de sauter par une manœuvre dont les chercheurs n’avaient pas réalisé la faisabilité physique dans l’environnement de jeu. Ainsi, comme contre-mesure finale, les cacheurs ont appris à verrouiller toutes les boîtes en place (6) de sorte qu’elles n’étaient pas disponibles pour être utilisées comme planches de surf.

Un agent d’IA utilise une boîte à proximité pour surfer dans le fort d’un concurrent.

Dans ces circonstances, le fait que les agents d’IA se comportent de façon inattendue n’était pas un problème : ils ont trouvé des chemins différents vers leurs récompenses, mais ils n’ont pas causé de problèmes. Cependant, vous pouvez imaginer des situations dans lesquelles le résultat serait plutôt grave. Les robots agissant dans le monde réel pourraient faire de réels dégâts. Et puis il y a le célèbre exemple de Nick Bostrom d’une usine de trombones gérée par une IA, dont le but est de fabriquer autant de trombones que possible. Comme Nick Bostrom l’a dit en 2014, l’IA pourrait se rendre compte que « les corps humains se composent d’atomes, et ces atomes pourraient être utilisés pour fabriquer de très beaux trombones ».

Bowen Baker, un autre membre de l’équipe de recherche d’OpenAI, note qu’il est difficile de prédire toutes les façons dont un agent d’IA agira dans un environnement, même simple. « Construire ces environnements est difficile, dit-il. « Les agents trouveront ces comportements inattendus, ce qui sera un problème de sécurité quand vous les mettrez dans des environnements plus complexes. »

Katja Hofmann, chercheuse en intelligence artificielle chez Microsoft Research Cambridge, en Angleterre, a vu beaucoup d’agents d’intelligence artificielle jouer au jeu : Elle a lancé une compétition qui utilise Minecraft comme terrain de jeu. Selon elle, le comportement émergent observé dans ce jeu et dans des expériences antérieures menées par d’autres chercheurs montre que les jeux peuvent être utiles pour l’étude de l’IA sûre et responsable.

« Je trouve que des démonstrations comme celle-ci, dans des jeux et des environnements semblables à des jeux, constituent une excellente façon d’explorer les capacités et les limites des approches existantes dans un environnement sécuritaire « , explique M. Hofmann. « De tels résultats nous aideront à mieux comprendre comment valider et déboguer les systèmes d’apprentissage du renforcement – une étape cruciale sur la voie des applications du monde réel.

Bowen Baker dit que les surprises de l’expérience de cache-cache suscitent également de l’espoir. « Si vous placez ces agents dans un environnement suffisamment riche, ils trouveront des stratégies dont nous ne savions jamais qu’elles étaient possibles « , dit-il. « Peut-être qu’ils peuvent résoudre des problèmes qu’on ne peut pas imaginer. »

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-agents-startle-researchers-with-unexpected-strategies-in-hideandseek

https://openai.com/

https://www.kdnuggets.com/2018/03/5-things-reinforcement-learning.html