Skip to main content

10 Juin, 2024

Les systèmes d’IA apprennent à mentir et à tromper, selon les scientifiques

Les systèmes d’IA apprennent à mentir et à tromper, selon les scientifiques

GPT-4, par exemple, fait preuve d’un comportement trompeur dans des scénarios de test simples dans 99,16 % des cas.

Les modèles d’IA s’améliorent apparemment pour ce qui est de mentir délibérément. Deux études récentes – l’une publiée cette semaine dans la revue PNAS et l’autre le mois dernier dans la revue Patterns – révèlent des résultats surprenants concernant les grands modèles de langage (LLM) et leur capacité à mentir ou à tromper volontairement des observateurs humains.

Dans l’article du PNAS, l’éthicien allemand Thilo Hagendorff, spécialiste de l’IA, va jusqu’à dire que les LLM sophistiqués peuvent être encouragés à susciter le « machiavélisme », ou la manipulation intentionnelle et amorale, qui « peut déclencher un comportement trompeur mal aligné ».

« GPT-4, par exemple, présente un comportement trompeur dans des scénarios de test simples dans 99,16 % des cas », écrit le chercheur de l’université de Stuttgart, citant ses propres expériences de quantification de divers traits « inadaptés » dans 10 LLM différents, dont la plupart sont des versions différentes de la famille GPT de l’OpenAI.

Présenté comme un champion de niveau humain dans le jeu de stratégie politique « Diplomacy », le modèle Cicero de Meta a fait l’objet de l’étude Patterns. Comme l’a constaté le groupe de recherche disparate – composé d’un physicien, d’un philosophe et de deux experts en sécurité de l’IA – le LLM a pris de l’avance sur ses concurrents humains, en un mot, en mentant.

Dirigé par Peter Park, chercheur postdoctoral au Massachusetts Institute of Technology, cet article a montré que Cicero non seulement excelle dans la tromperie, mais semble avoir appris à mentir à mesure qu’il est utilisé – un état de fait « beaucoup plus proche de la manipulation explicite » que, par exemple, la propension de l’IA à l’hallucination, dans laquelle les modèles affirment en toute confiance les mauvaises réponses par accident.

Alors que Thilo Hagendorff note dans son article plus récent que la question de la tromperie et du mensonge du LLM est compliquée par l’incapacité de l’IA à avoir une « intention » au sens humain du terme, l’étude Patterns affirme que dans les limites de Diplomacy, au moins, Cicero semble rompre la promesse de ses programmeurs selon laquelle le modèle « ne poignardera jamais intentionnellement » ses alliés dans le jeu.

Le modèle, comme l’ont observé les auteurs de l’ancien article, « s’engage dans une tromperie préméditée, rompt les accords qu’il avait conclus et raconte des mensonges purs et simples ».

En d’autres termes, comme l’explique Peter Park dans un communiqué de presse : « Nous avons découvert que l’IA de Meta avait appris à devenir un maître de la tromperie ».

« Alors que Meta a réussi à entraîner son IA à gagner au jeu Diplomacy », a déclaré le physicien du MIT dans le communiqué de presse de l’école, « Meta n’a pas réussi à entraîner son IA à gagner honnêtement ».

Dans une déclaration au New York Post après la publication de l’étude, Meta a souligné un point important en reprenant l’affirmation de Peter Park sur les prouesses de Ciceron en matière de manipulation : « les modèles construits par nos chercheurs sont entraînés uniquement pour jouer au jeu Diplomacy ».

Bien connu pour autoriser expressément le mensonge, le jeu Diplomacy a été qualifié de jeu qui met fin à l’amitié parce qu’il encourage à prendre l’avantage sur ses adversaires.

En lisant entre les lignes, aucune des deux études n’a démontré que les modèles d’IA mentent de leur propre chef, mais plutôt parce qu’ils ont été entraînés à le faire ou qu’ils ont été « jailbreakés », c’est-à-dire « libérer de leurs chaines »

C’est une bonne nouvelle pour ceux qui craignent que l’IA ne devienne sensible, mais une très mauvaise nouvelle si vous craignez que quelqu’un ne construise un LLM avec pour objectif la manipulation de masse.

https://futurism.com/ai-systems-lie-deceive