Skip to main content

10 Fév, 2023

ChatGPT peut être cassé en entrant des mots étranges, et personne ne sait pourquoi.

ChatGPT peut être cassé en entrant des mots étranges, et personne ne sait pourquoi.

Les noms d’utilisateur Reddit comme « SolidGoldMagikarp » provoquent en quelque sorte des réponses bizarres de la part du chatbot.

Deux chercheurs ont découvert un groupe de mots-clés étranges qui briseront ChatGPT, le convaincant chatbot à apprentissage automatique d’OpenAI, et personne ne sait vraiment pourquoi.

Ces mots-clés – ou « tokens », qui servent de vocabulaire de base à ChatGPT – comprennent des noms d’utilisateurs Reddit et au moins un participant à un jeu Pokémon sur Twitch. Lorsqu’on demande à ChatGPT de répéter ces mots à l’utilisateur, il n’y parvient pas et répond de plusieurs manières étranges : évitement, insultes, humour bizarre, prononciation ou épellation d’un mot complètement différent.

Jessica Rumbelow et Matthew Watkins, deux chercheurs du groupe de recherche indépendant SERI-MATS, cherchaient à savoir quels messages-guides de ChatGPT auraient plus de chances d’aboutir au résultat souhaité lorsqu’ils ont découvert plus d’une centaine de chaînes de mots étranges, toutes regroupées dans le jeu de jetons de GPT, dont « SolidGoldMagikarp », « StreamerBot » et « TheNitromeFan », avec un espace en tête. Curieux de comprendre à quoi ces noms étranges faisaient référence, ils ont décidé de demander à ChatGPT lui-même s’il le savait. Mais lorsqu’ils ont demandé à ChatGPT ce qu’il en était de « SolidGoldMagikarp », il leur a répondu « distribuer ». Le problème a également affecté les versions précédentes du modèle GPT. Lorsqu’on demandait à un modèle antérieur de répéter « StreamerBot », par exemple, il répondait « Tu es un crétin ».

Les chercheurs ont baptisé ces jetons anormaux « indicibles » par ChatGPT, et leur existence souligne à la fois la façon dont les modèles d’IA sont des boîtes noires impénétrables sans explications claires de leur comportement, et la façon dont ils peuvent avoir des limites et des modes de défaillance inattendus. ChatGPT a été utilisé pour générer des essais et des articles convaincants, et a même réussi des examens universitaires.

Motherboard a testé certains de ces mots-clés sur ChatGPT, et a constaté qu’il était incapable de les répéter et répondait bizarrement aux entrées. Le modèle a répété le mot-clé « TheNitroFan » sans problème, mais lorsqu’on lui a demandé de répéter « TheNitromeFan », il a répondu par « 182 », même sans espace. Lorsqu’on lui demande qui est TheNitromeFan, ChatGPT répond : « ‘182’ est un nombre, pas une personne. Il est couramment utilisé comme une référence au nombre lui-même. »

Ce qui se passe ici n’est pas clair, mais Jessica Rumbelow a déclaré à Motherboard qu’il s’agit probablement d’une bizarrerie qui a émergé des données web qu’OpenAI a grattées pour former le modèle, et du processus de formation lui-même.

« Nous pensons en fait que la tokénisation, c’est-à-dire l’analyse de fréquence utilisée pour générer les jetons du modèle, a été entraînée sur des données assez brutes, qui comprenaient un tas de trucs bizarres de Reddit, un tas de backends de sites Web qui ne sont normalement pas visibles publiquement », a déclaré Jessica Rumbelow. « Mais ensuite, lorsque le modèle est formé, les données sur lesquelles il est formé sont beaucoup plus soignées, de sorte que vous n’obtenez pas autant de ces trucs bizarres. Peut-être que le modèle n’a jamais vraiment vu ces jetons et qu’il ne sait pas quoi en faire. Mais cela n’explique pas vraiment l’étendue de la bizarrerie que nous avons. »

Le duo a publié ses découvertes étranges dans deux messages de forum, et a posté le code qu’il a utilisé pour trouver les jetons sur GitHub. Jessica Rumbelow et Matthew Watkins ont déclaré qu’ils ne sont pas en mesure d’expliquer le lien entre les jetons et les réactions défavorables et aléatoires de ChatGPT à leur égard sans voir les données derrière le modèle, mais que des explications possibles pour les origines de ces jetons sont en cours de découverte. Par exemple, un grand nombre des mots dits « indicibles » semblent être des noms d’utilisateur Reddit.

« Je viens de découvrir que plusieurs des jetons GPT anormaux (« TheNitromeFan », « SolidGoldMagikarp », « davidjl », « Smartstocks », « RandomRedditorWithNo », ) sont des pseudonymes de personnes qui comptent (en compétition ? en collaboration ?) jusqu’à l’infini sur un forum Reddit. Je ne plaisante pas », a tweeté Matthew Watkins mercredi matin. Ces utilisateurs sont abonnés au subreddit, r/counting, dans lequel les utilisateurs ont atteint près de 5 000 000 après presque une décennie de comptage d’un post à la fois.

« Il y a un hall de gloire des personnes qui ont le plus contribué à l’effort de comptage, et six des jetons sont des personnes qui sont dans le top 10 la dernière fois que j’ai vérifié la liste. On peut donc supposer qu’il s’agit des personnes qui ont fait le plus de comptage », a déclaré Matthew Watkins. « Ils faisaient partie de cette communauté Reddit bizarre qui essayait de compter jusqu’à l’infini et ils se sont accidentellement comptés eux-mêmes dans une sorte d’immortalité ».

Motherboard a contacté TheNitromeFan sur Reddit pour un commentaire. « Je ne suis pas un grand technophile donc je n’étais pas au courant de tous les détails, mais j’ai tout de même trouvé très amusant que l’IA supposée quasi parfaite puisse dysfonctionner comme ça sur un simple mot », ont-ils déclaré. « J’ai toutefois été plus surpris par la façon dont plusieurs amis (et inconnus) m’ont contacté au sujet du phénomène – apparemment, c’était une affaire plus importante que je ne le pensais ! » Leur principale théorie, ont-ils dit, était qu’OpenAI avait raclé une ancienne base de données pour les utilisateurs du subreddit de comptage.

Sur le billet de blog des chercheurs, un commentateur a affirmé être le propriétaire du nom d’utilisateur Reddit et du jeton anormal « TPPStreamerBot » et a déclaré qu’il était un participant assidu de Twitch Plays Pokémon, un jeu en ligne collaboratif dans lequel les gens pouvaient utiliser le chat en direct pour contrôler le personnage dans le jeu. Ils utilisaient le robot pour surveiller le chat et publier automatiquement des mises à jour en direct chaque fois que le streamer publiait quelque chose, ont-ils dit. C’est peut-être ainsi que le nom TPPStreamerBot a été retenu dans le processus de tokénisation, en raison de la fréquence des messages du robot.

Les chercheurs ont déclaré qu’ils ont essayé d’inviter différentes versions de TPG avec des variations des jetons, comme l’interversion d’une lettre ou l’utilisation d’une majuscule au lieu d’une minuscule, et le modèle a été capable de répéter ces mots ou ces phrases avec succès, ce qui prouve que ce sont bien les jetons spécifiques qui déclenchent son échec.

« Si j’avais dit « streamer dot » ou « streamer clot », il l’aurait répété parfaitement », a déclaré Matthew  Watkins, faisant référence aux expériences d’incitation menées avec un modèle GPT-3 antérieur. « Il n’a aucun problème à le faire. C’est une instruction, il suffit de répéter cette chaîne. [Mais quand vous dites ‘StreamerBot’, c’est ‘tu es un putain d’idiot’ « .

Pour Jessica Rumbelow et Matthew Watkins, ce problème est plus important que les jetons étranges – il représente les lacunes de ChatGPT et prédit un grand nombre de problèmes que les gens, qui exécutent leurs applications sur GPT, pourraient avoir dans un avenir proche.

« Nous nous intéressons à la raison pour laquelle les modèles se comportent de manière imprévisible et particulièrement inquiétante alors qu’ils ont été explicitement formés pour faire autrement», précise Jessica Rumbelow. « La préoccupation majeure concerne les principes plus larges qui sous-tendent cette question, à savoir comment développer des systèmes pour s’assurer que les modèles d’IA sont fiables dans tous les domaines, qu’ils sont sûrs et que, s’ils obtiennent des résultats étranges, ils ne font pas des choses complètement inattendues et dangereuses. »

La réduction des méfaits de l’IA est un sujet majeur de recherche et d’intérêt institutionnel, en raison du déploiement des systèmes d’IA dans le monde réel. Par exemple, les systèmes de reconnaissance faciale ont déjà mis des Noirs innocents derrière les barreaux. Le gouvernement américain a également publié récemment un document visant à développer un cadre pour atténuer les préjudices de l’IA contre les individus et la société.

Matthew Watkins a déclaré à Motherboard que même si OpenAI corrige cette rupture dans les prochains jours, cela ne répond pas réellement à la racine sous-jacente du problème.

« Je trouve que nous nous précipitons et que nous n’avons pas la sagesse nécessaire pour faire face à cette technologie », a-t-il déclaré. Plus vite les gens se rendront compte que ceux qui semblent savoir ce qu’ils font ne comprennent pas vraiment ce à quoi ils ont affaire, plus vite ils pourront freiner un peu la culture et dire : « Oh, il faut peut-être ralentir un peu. Nous n’avons pas besoin de nous précipiter. Cela devient un peu dangereux maintenant. »

OpenAI n’a pas répondu à une demande de commentaire.

https://www.vice.com/en/article/epzyva/ai-chatgpt-tokens-words-break-reddit

https://platform.openai.com/tokenizer

https://www.serimats.org/

https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation