L’IA semble mieux réussir ses tâches lorsqu’on lui demande de réfléchir à ses erreurs
L’IA semble mieux réussir ses tâches lorsqu’on lui demande de réfléchir à ses erreurs

Si vous ne réussissez pas du premier coup…
Dans un article qui n’a pas encore fait l’objet d’une évaluation par les pairs, une équipe de chercheurs de la Northeastern University et du Massachusetts Institute of Technology suggère que les grands modèles de langage (LLM) pourraient être capables d’apprendre de leurs propres erreurs, tout comme les humains.
En leur apprenant à le faire, ils affirment que les technologies de l’IA pourraient entrer dans une nouvelle phase de résolution autonome des problèmes.
« L’autoréflexion permet aux humains de résoudre efficacement de nouveaux problèmes par le biais d’un processus d’essais et d’erreurs », écrivent les chercheurs dans l’article. « S’appuyant sur des recherches récentes, nous proposons Reflexion, une approche qui dote un agent d’une mémoire dynamique et de capacités d’autoréflexion afin d’améliorer sa trace de raisonnement existante et ses capacités de choix d’actions spécifiques à une tâche.
En d’autres termes, leur méthodologie, baptisée « Reflexion », est un cadre permettant d’enseigner aux modèles d’IA, par le biais d’invites, à appliquer une technique d’essai et d’erreur à leurs résultats.
Ainsi, tout comme nous, s’ils ne réussissent pas du premier coup, ils peuvent essayer et réessayer.
Le test de leur nouveau cadre a été un processus relativement simple. La machine, ou « agent », s’est vu présenter des tâches de résolution de problèmes et a été invitée à les accomplir ; lorsqu’elle s’est trompée, la technique de réflexion lui a permis de trouver elle-même ces erreurs – un processus qui, selon eux, permet au programme d’évoluer, tout comme les êtres humains.
« Pour parvenir à une automatisation complète, nous introduisons une heuristique simple mais efficace qui permet à l’agent de repérer les cas d’hallucination, d’éviter les répétitions dans les séquences d’action et, dans certains environnements, de construire une carte de mémoire interne de l’environnement donné », écrivent les chercheurs dans leur article.
À l’aide d’une série de « tâches décisionnelles » normalisées, les chercheurs ont constaté que leur méthode permettait d’améliorer considérablement les taux de réussite d’un modèle donné.
Les scientifiques précisent que leurs recherches ont été menées avec des IA dotées de GPT-3 et GPT-3.5 – une considération importante, étant donné qu’OpenAI vient de lancer GPT-4, un modèle beaucoup plus puissant. Toutefois, dans un billet de blog accompagnant l’article, les scientifiques indiquent que lorsqu’il est appliqué à GPT-4, un « agent GPT-4 basé sur Reflexion légèrement amélioré » a eu raison 88 % du temps, surpassant son taux de réussite de 67 % avant Reflexion.
Encore une fois, cet article n’a pas fait l’objet d’un examen par les pairs, et il convient donc de prendre les résultats des chercheurs avec le grain de sel habituel.
Cela dit, les programmes d’IA ont de nombreux ratés et, à mesure qu’ils continuent d’être intégrés dans les flux de travail à travers les industries et les plates-formes, des cadres permettant d’éviter les pièges sont certainement nécessaires. Bien que cette recherche soit plus ou moins un exercice d’ingénierie rapide – plutôt que d’aborder le problème des hallucinations de l’intérieur – elle pourrait contribuer au développement d’outils capables de vérifier les résultats infâmes et peu fiables des modèles de langage de l’IA.
En outre, un peu d’introspection n’a jamais fait de mal à personne, qu’il s’agisse d’un humain ou d’une machine.