Des outils de détection par IA accusent à tort les étudiants étrangers de tricherie
Des outils de détection par IA accusent à tort les étudiants étrangers de tricherie

Une étude de Stanford révèle que les détecteurs IA sont biaisés par rapport aux personnes dont l’anglais n’est pas la langue maternelle.
Taylor Hahn, qui enseigne à l’université Johns Hopkins, a reçu une alerte alors qu’il corrigeait le travail d’un étudiant au printemps dernier dans le cadre d’un cours de communication. Il avait téléchargé le devoir sur Turnitin, un logiciel utilisé par plus de 16 000 établissements universitaires dans le monde pour repérer les textes plagiés et, depuis avril, pour signaler les écrits générés par l’IA.
Turnitin a identifié plus de 90 % du travail de l’étudiant comme étant généré par l’IA. Taylor Hahn a organisé une réunion sur Zoom avec l’étudiant et lui a expliqué ce qu’il avait découvert, demandant à voir les notes et autres documents utilisés pour rédiger l’article.
« Cet étudiant m’a immédiatement montré des brouillons, des PDF sur lesquels il avait mis des surligneurs, sans me dire au préalable qu’il s’agissait d’un problème d’IA », a déclaré Taylor Hahn. Il était convaincu que l’outil de Turnitin avait commis une erreur.
Dans un autre cas, Taylor Hahn a travaillé directement avec un étudiant sur les grandes lignes et les ébauches d’un travail, avant que Turnitin ne signale la majorité du travail soumis comme étant généré par l’IA.
Au cours du semestre de printemps, Taylor Hahn a remarqué que ces faux positifs se répétaient. L’outil de Turnitin était beaucoup plus susceptible de signaler les écrits des étudiants internationaux comme étant générés par l’IA.
Lorsque Taylor Hahn a commencé à observer cette tendance, un groupe d’informaticiens de Stanford a conçu une expérience visant à mieux comprendre la fiabilité des détecteurs d’IA sur les textes rédigés par des personnes dont l’anglais n’est pas la langue maternelle. Ils ont publié un article le mois dernier, dans lequel ils ont constaté un biais évident.
Bien qu’ils n’aient pas mené leur expérience avec Turnitin, ils ont constaté que sept autres détecteurs d’IA signalaient les textes rédigés par des personnes dont ce n’est pas la langue maternelle comme étant générés par l’IA dans 61 % des cas.

Pour environ 20 % des articles, cette évaluation erronée était unanime. En revanche, les détecteurs n’ont pratiquement jamais commis de telles erreurs lorsqu’ils évaluaient des textes rédigés par des anglophones natifs.
Les détecteurs d’IA ont tendance à être programmés pour repérer les écrits générés par l’IA lorsque le choix des mots est prévisible et que les phrases sont plus simples. Il s’avère que les textes rédigés par des personnes dont l’anglais n’est pas la langue maternelle correspondent souvent à ce schéma, et c’est là que réside le problème.
Dans leur langue maternelle, les gens ont généralement un vocabulaire plus étendu et une meilleure maîtrise de la grammaire complexe. Cela signifie que les personnes dont l’anglais n’est pas la langue maternelle ont tendance à écrire plus simplement en anglais.
Il en va de même pour ChatGPT. En fait, il imite l’écriture humaine en analysant tout ce qu’il a déjà traité et en rédigeant des phrases à l’aide des mots et expressions les plus courants. Même si les détecteurs d’IA ne sont pas spécifiquement formés pour repérer les écrits moins complexes, les outils apprennent à le faire en constatant à maintes reprises que les écrits générés par l’IA sont moins complexes.
Weixin Liang, l’un des auteurs de l’étude de Stanford, a appris le cantonais et le mandarin avant l’anglais. Il était sceptique quant aux affirmations de précision quasi parfaite des détecteurs d’IA et voulait examiner de plus près comment ils fonctionnaient pour des étudiants ayant des antécédents linguistiques comme les siens.
« La conception de nombreux détecteurs GPT est intrinsèquement discriminatoire à l’égard des auteurs non natifs, en particulier ceux qui présentent une diversité linguistique et un choix de mots restreints », souligne Weixin Liang par courrier électronique.
Après le lancement de ChatGPT en novembre de l’année dernière, un grand nombre des quelque 950 000 étudiants étrangers que compte le pays, comme leurs pairs, ont réfléchi aux implications de ce système. Les enseignants paniquaient à l’idée que les étudiants puissent utiliser l’IA générative pour réaliser leurs travaux.
Et les étudiants étrangers, autorisés à étudier ici grâce à des visas spécifiques à l’éducation, ont rapidement pris conscience de leur vulnérabilité dans la course aux armements qui s’est engagée entre les générateurs et les détecteurs d’IA.
Hai Long Do, étudiant en dernière année à l’université de Miami à Oxford, dans l’Ohio, a déclaré qu’il était effrayant de penser que les heures qu’il consacrait à la recherche, à la rédaction et à la révision de ses articles pourraient être remises en question à cause de détecteurs d’IA peu fiables. Pour lui, qui est originaire du Viêt Nam, les détecteurs biaisés représentent une menace pour ses notes, et donc pour sa bourse d’études.
« Ce qui est encore plus grave, c’est qu’un signalement d’une IA peut nuire à ma réputation en général. »
Certains étudiants étrangers courent des risques supplémentaires. Les établissements d’enseignement supérieur et les universités informent régulièrement leurs étudiants étrangers que des accusations de mauvaise conduite académique peuvent entraîner une suspension ou une expulsion qui compromettrait le statut de leur visa. La menace d’expulsion peut être perçue comme une crainte légitime.
Shyam Sharma, professeur associé à l’université de Stony Brook, écrit un livre sur l’approche des États-Unis en matière d’éducation des étudiants étrangers. Selon lui, les universités échouent régulièrement à soutenir ce sous-groupe sur leurs campus, et les professeurs ne comprennent souvent pas leur situation particulière. Pour Sharma, l’utilisation continue de détecteurs d’intelligence artificielle défectueux est un exemple de la façon dont les institutions négligent les étudiants étrangers du pays.
« Parce que la victime, ici même, est moins importante », a déclaré Mme Sharma. « La victime ici est moins digne d’une seconde réflexion ou d’une remise en question de l’outil.«
Certains éducateurs ont toutefois remis en question l’outil, découvrant, comme Taylor Hahn, la faillibilité des détecteurs d’intelligence artificielle et soulignant les graves conséquences d’accusations non fondées. À l’heure où les campus rouvrent leurs portes pour le semestre d’automne, les enseignants doivent se demander si les recherches les plus récentes plaident en faveur d’une suppression pure et simple des détecteurs d’intelligence artificielle.
Dans l’article de Weixin Liang, son équipe souligne que les fausses accusations de tricherie peuvent nuire à la carrière universitaire et au bien-être psychologique d’un étudiant. Les accusations obligent les étudiants à prouver leur propre innocence.
« Étant donné le potentiel de méfiance et d’anxiété provoqué par le déploiement de détecteurs GPT, on peut se demander si l’impact négatif sur l’environnement d’apprentissage l’emporte sur les avantages perçus », écrivent-ils.
Si c’est l’IA qui détecte nos modèles de langage et décide automatiquement, je ne sais pas comment je peux l’empêcher.
Heewon Yang, étudiante sud-coréenne à l’université de New York.
Diane Larryeu, originaire de France, étudie cette année à la Cardozo School of Law de New York. L’année dernière, dans le cadre d’un programme de maîtrise en common law près de Paris, l’essai d’anglais de son amie a été signalé comme étant généré par l’IA, dit-elle. Lorsqu’on lui a demandé si elle craignait que la même chose lui arrive parce que, comme son amie, l’anglais est sa deuxième langue, sa réponse a été directe : « Bien sûr ». Tout ce qu’elle peut faire, c’est espérer que le problème sera résolu rapidement. « Je me contenterais d’expliquer la situation à mon professeur et j’espère qu’il comprendra », a déclaré Mme Larryeu.
OpenAI a fermé son détecteur d’IA à la fin du mois de juillet en raison de sa faible précision, et Quill.org et CommonLit ont fait de même avec leur AI Writing Check, estimant que les outils d’IA générative sont trop sophistiqués pour être détectés. Turnitin, quant à lui, n’a fait que redoubler ses affirmations de haute précision.
Annie Chechitelli, chef de produit chez Turnitin, a déclaré que l’outil de l’entreprise avait été formé sur des textes rédigés par des anglophones aux États-Unis et à l’étranger, ainsi que par des étudiants multilingues, et qu’il ne devrait donc pas présenter les biais identifiés dans l’article de M. Liang.
L’entreprise mène ses propres recherches pour déterminer si l’outil est moins précis lorsqu’il évalue les écrits de personnes dont l’anglais n’est pas la langue maternelle. Bien que ces recherches n’aient pas encore été publiées, M. Chechitelli a déclaré que jusqu’à présent, il semble que la réponse soit négative.

David Adamson, chercheur en intelligence artificielle chez Turnitin, montre les capacités de détection d’écriture de l’IA de Turnitin dans une démonstration vidéo. Vingt-quatre des 24 phrases de cet exemple d’essai sont identifiées comme provenant de ChatGPT.
Cependant, elle admet que l’outil finit par apprendre que les écrits plus complexes sont plus susceptibles d’être d’origine humaine, étant donné les modèles des essais d’entraînement.
Heewon Yang, étudiante en dernière année à l’université de New York et originaire de Corée du Sud, est frustrée par les détecteurs d’IA et par sa vulnérabilité face à eux. « Si c’est l’IA qui détecte nos modèles de langage et qui décide automatiquement, je ne sais pas comment je peux l’empêcher », a-t-elle déclaré.
C’est pourquoi M. Liang se dit sceptique quant à la capacité du détecteur de Turnitin à éviter les biais que son équipe a identifiés dans son article.
« Bien que l’approche de Turnitin semble bien intentionnée », a-t-il déclaré par courriel, « il est essentiel de voir les résultats de leurs tests en cours et de toute évaluation par des tiers pour se faire une idée complète de la performance de leur outil dans des scénarios réels ».
En juin, Turnitin a mis à jour son logiciel pour permettre aux institutions de désactiver l’indicateur d’écriture AI, de sorte que même si le logiciel continue d’évaluer l’écriture pour l’IA, sa conclusion ne sera pas affichée pour les instructeurs. À la fin du mois de juillet, seuls deux pour cent des établissements clients de Turnitin avaient profité de cette option, selon l’entreprise.
L’université de Pittsburgh en fait partie. Dans une note adressée au corps enseignant à la fin du mois de juin, le centre d’enseignement de l’université a déclaré qu’il ne soutenait pas l’utilisation de détecteurs d’IA, citant le fait que les faux positifs « comportent un risque de perte de confiance et de motivation des étudiants, de mauvaise publicité et de sanctions juridiques potentielles ».
Bien que l’expérience des étudiants étrangers n’ait pas été au centre de leur décision, John Radziłowicz, directeur intérimaire du soutien à l’enseignement à l’université de Pittsburgh, a déclaré que son équipe a testé une poignée de détecteurs d’IA disponibles et a décidé que les faux positifs étaient trop fréquents pour justifier leur utilisation. Il sait que les enseignants sont accablés par l’idée que les étudiants utilisent l’IA pour tricher, mais il les a encouragés à se concentrer plutôt sur les avantages potentiels de l’IA.
« Nous pensons que l’accent mis sur la tricherie et le plagiat est un peu exagéré et hyperbolique », a déclaré M. Radziłowicz. Selon lui, l’utilisation de détecteurs d’IA comme contre-mesure crée un potentiel de nuisance trop important.
https://www.sociobits.org/2023/03/gpt-zero-a-tool-to-recognise-texts-written-by-ai/12260
https://opendoorsdata.org/wp-content/uploads/2022/11/Open-Doors-2022_Fast-Facts.pdf
https://www.washingtonpost.com/technology/2023/06/02/turnitin-ai-cheating-detector-accuracy/
https://help.turnitin.com/integrity/administrator/settings/ai-writing-settings.htm