Skip to main content

19 Jan, 2023

OpenAI a utilisé des travailleurs kenyans payés moins de 2 dollars de l’heure pour rendre ChatGPT moins toxique.

OpenAI a utilisé des travailleurs kenyans payés moins de 2 dollars de l’heure pour rendre ChatGPT moins toxique.

Cette image a été générée par le logiciel de génération d’images d’OpenAI, Dall-E 2. L’invite était la suivante : « Une vue apparemment sans fin de travailleurs africains à des bureaux devant des écrans d’ordinateur dans un style de gravure ». TIME n’utilise généralement pas d’art généré par l’IA pour illustrer ses articles, mais a choisi de le faire dans ce cas afin d’attirer l’attention sur la puissance de la technologie d’OpenAI et de mettre en lumière le travail qui la rend possible. (Image générée par Dall-E 2/OpenAI)

Lors de sa sortie en novembre dernier, ChatGPT a été salué comme l’une des innovations technologiques les plus impressionnantes de 2022. Ce puissant chatbot d’intelligence artificielle (IA) peut générer du texte sur presque tous les sujets ou thèmes, qu’il s’agisse d’un sonnet de Shakespeare réimaginé dans le style de la rapeuse Megan Thee Stallion ou de théorèmes mathématiques complexes décrits dans un langage compréhensible par un enfant de 5 ans. En une semaine, il comptait plus d’un million d’utilisateurs.

Le créateur de ChatGPT, OpenAI, serait maintenant en pourparlers avec des investisseurs pour lever des fonds à une valeur de 29 milliards de dollars, y compris un investissement potentiel de 10 milliards de dollars par Microsoft. Cela ferait d’OpenAI, qui a été fondée à San Francisco en 2015 dans le but de construire des machines superintelligentes, l’une des entreprises d’IA les plus valorisées au monde.

Mais cette réussite n’est pas le fruit du seul génie de la Silicon Valley. Dans sa quête pour rendre ChatGPT moins toxique, OpenAI a fait appel à des travailleurs kényans externalisés gagnant moins de 2 dollars de l’heure, a révélé une enquête du TIME.

Le travail était vital pour OpenAI. Le prédécesseur de ChatGPT, GPT-3, avait déjà montré une impressionnante capacité à enchaîner des phrases. Mais il était difficile à vendre, car l’application était également encline à débiter des remarques violentes, sexistes et racistes. En effet, l’IA avait été entraînée sur des centaines de milliards de mots extraits d’Internet, un vaste répertoire du langage humain. Cet énorme ensemble de données d’entraînement est à l’origine des impressionnantes capacités linguistiques de GPT-3, mais c’est aussi peut-être sa plus grande malédiction.

Étant donné que certaines parties d’Internet sont pleines de toxicité et de préjugés, il n’y avait aucun moyen facile de purger ces sections des données d’entraînement. Même une équipe de centaines d’humains aurait mis des décennies à parcourir manuellement cet énorme ensemble de données. Ce n’est qu’en mettant en place un mécanisme de sécurité supplémentaire alimenté par l’IA qu’OpenAI a pu limiter les dégâts et produire un chatbot adapté à un usage quotidien.

Pour mettre au point ce système de sécurité, OpenAI s’est inspirée des entreprises de médias sociaux comme Facebook, qui avaient déjà montré qu’il était possible de créer des IA capables de détecter les propos toxiques, comme les discours haineux, afin de les retirer de leurs plateformes. Le principe était simple : il s’agissait de fournir à une IA des exemples étiquetés de violence, de discours haineux et d’abus sexuels, et cet outil pouvait apprendre à détecter ces formes de toxicité dans la nature.

Ce détecteur serait intégré à ChatGPT pour vérifier s’il se fait l’écho de la toxicité de ses données d’apprentissage, et le filtrer avant qu’il n’atteigne l’utilisateur. Il pourrait également contribuer à éliminer les textes toxiques des ensembles de données d’apprentissage des futurs modèles d’IA.

Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers de bribes de texte à une entreprise de sous-traitance au Kenya, à partir de novembre 2021. Une grande partie de ce texte semble avoir été tirée des recoins les plus sombres de l’internet. Certains décrivaient des situations avec des détails graphiques tels que des abus sexuels sur des enfants, la bestialité, le meurtre, le suicide, la torture, l’automutilation et l’inceste.

Le partenaire d’OpenAI au Kenya était Sama, une entreprise basée à San Francisco qui emploie des travailleurs au Kenya, en Ouganda et en Inde pour catégoriser des données pour des clients de la Silicon Valley comme Google, Meta et Microsoft. Sama se présente comme une entreprise d' »IA éthique » et affirme avoir contribué à sortir plus de 50 000 personnes de la pauvreté.

Le bureau de Sama à Nairobi, au Kenya, le 10 février 2022.

Les personnes nécessaires à la catégorisation des données employés par Sama pour le compte d’OpenAI recevaient un salaire net compris entre environ 1,32 et 2 dollars de l’heure, selon l’ancienneté et la performance. Pour cette histoire, TIME a examiné des centaines de pages de documents internes de Sama et d’OpenAI, y compris les fiches de paie des travailleurs, et a interviewé quatre employés de Sama qui ont travaillé sur le projet. Tous les employés ont parlé sous le couvert de l’anonymat, car ils craignaient pour leurs moyens de subsistance.

L’histoire des travailleurs qui ont rendu ChatGPT possible offre un aperçu des conditions dans cette partie peu connue de l’industrie de l’IA, qui joue pourtant un rôle essentiel dans l’effort visant à rendre les systèmes d’IA sûrs pour la consommation publique.

« Malgré le rôle fondamental joué par ces professionnels de l’enrichissement des données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés », déclare the Partnership on AI, une coalition d’organisations d’IA à laquelle appartient OpenAI. « Cela peut être le résultat des efforts déployés pour cacher la dépendance de l’IA à cette importante main-d’œuvre lorsqu’on célèbre les gains d’efficacité de la technologie ». Loin des yeux, c’est aussi loin de l’esprit ». (OpenAI ne divulgue pas les noms des sous-traitants avec lesquels elle s’associe, et il n’est pas clair si OpenAI a travaillé avec d’autres entreprises de catégorisation de données en plus de Sama sur ce projet).

Dans une déclaration, un porte-parole d’OpenAI a confirmé que les employés de Sama au Kenya ont contribué à un outil de détection des contenus toxiques, qui a finalement été intégré à ChatGPT. La déclaration indique également que ce travail a contribué aux efforts visant à supprimer les données toxiques des ensembles de données d’entraînement d’outils comme ChatGPT.

« Notre mission est de faire en sorte que l’intelligence artificielle générale profite à l’ensemble de l’humanité, et nous travaillons dur pour construire des systèmes d’IA sûrs et utiles qui limitent les préjugés et les contenus nuisibles », a déclaré le porte-parole. « La classification et le filtrage des [textes et images] nuisibles sont une étape nécessaire pour minimiser la quantité de contenus violents et sexuels inclus dans les données d’entraînement et créer des outils capables de détecter les contenus nuisibles. »

Alors même que l’économie technologique au sens large ralentit dans l’anticipation d’une récession, les investisseurs se précipitent pour déverser des milliards de dollars dans l' »IA générative », le secteur de l’industrie technologique dont OpenAI est le leader incontesté. Selon les investisseurs les plus optimistes, le texte, les images, la vidéo et l’audio générés par ordinateur vont transformer la façon dont d’innombrables industries font des affaires, en augmentant l’efficacité partout, des arts créatifs au droit, en passant par la programmation informatique.

Mais les conditions de travail des catégoriseurs de données révèlent une partie plus sombre de ce tableau : malgré tout son prestige, l’IA repose souvent sur un travail humain caché dans le Sud, qui peut souvent être préjudiciable et exploité. Ces travailleurs invisibles restent en marge de la société, même si leur travail contribue à la création d’industries valant des milliards de dollars.

Un travailleur Sama chargé de lire et de catégoriser des textes pour OpenAI a confié au TIME qu’il souffrait de visions récurrentes après avoir lu la description graphique d’un homme ayant des relations sexuelles avec un chien en présence d’un jeune enfant. « C’était une torture », a-t-il déclaré. « Vous allez lire un certain nombre de déclarations de ce genre tout au long de la semaine. Au moment où l’on arrive au vendredi, vous êtes perturbé d’avoir pensé à cette image. » Le caractère traumatisant du travail a finalement conduit Sama à annuler tous ses travaux pour OpenAI en février 2022, soit huit mois plus tôt que prévu.

Les contrats de Sama

Les documents examinés par TIME montrent qu’OpenAI a signé trois contrats d’une valeur totale d’environ 200 000 dollars avec Sama fin 2021 pour étiqueter des descriptions textuelles d’abus sexuels, de discours haineux et de violence.

Environ trois douzaines de travailleurs ont été répartis en trois équipes, une se concentrant sur chaque sujet. Trois employés ont déclaré au TIME qu’ils devaient lire et étiqueter entre 150 et 250 passages de texte par équipe de neuf heures. Ces bribes pouvaient aller d’une centaine de mots à plus de 1 000. Les quatre employés interrogés par le TIME ont tous dit avoir été marqués mentalement par ce travail. Bien qu’ils aient eu le droit d’assister à des séances avec des conseillers en « bien-être », tous les quatre ont déclaré que ces séances n’étaient pas utiles et qu’elles étaient rares en raison des exigences élevées pour être plus productif au travail.

Deux d’entre eux ont dit qu’ils n’avaient eu que la possibilité d’assister à des séances de groupe, et un autre a déclaré que ses demandes de voir des conseillers en tête-à-tête avaient été rejetées à plusieurs reprises par la direction de Sama.

Dans un communiqué, un porte-parole de Sama a déclaré qu’il était « incorrect » que les employés n’aient accès qu’aux séances de groupe. Les employés avaient droit à des séances individuelles et collectives avec des « thérapeutes en santé mentale professionnellement formés et agréés », a précisé le porte-parole. Ces thérapeutes étaient accessibles à tout moment, a ajouté le porte-parole.

Les contrats stipulaient qu’OpenAI paierait un taux horaire de 12,50 dollars à Sama pour ce travail, ce qui représentait entre six et neuf fois le salaire horaire des employés de Sama participant au projet. Les agents, les catégoriseurs de données les plus juniors qui constituaient la majorité des trois équipes, recevaient un salaire de base de 21 000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama.

Ils recevaient également des primes mensuelles d’une valeur d’environ 70 dollars en raison de la nature explicite de leur travail, et recevaient une commission pour avoir atteint les indicateurs de performance clés tels que la précision et la vitesse. Un agent travaillant neuf heures par jour pouvait s’attendre à gagner au moins 1,32 dollar de l’heure après impôts, et jusqu’à 1,44 dollar de l’heure s’il dépassait tous ses objectifs.

Les analystes de la qualité – des catégoriseurs plus expérimentés dont le travail consistait à vérifier le travail des agents – pouvaient gagner jusqu’à 2 dollars de l’heure s’ils atteignaient tous leurs objectifs. (Il n’existe pas de salaire minimum universel au Kenya, mais à l’époque où ces travailleurs étaient employés, le salaire minimum d’un réceptionniste à Nairobi était de 1,52 dollar par heure).

Dans une déclaration, un porte-parole de Sama a indiqué qu’il était demandé aux travailleurs de catégoriser 70 passages de texte par poste de neuf heures, et non jusqu’à 250, et que les travailleurs pouvaient gagner entre 1,46 et 3,74 dollars de l’heure après impôts. Le porte-parole n’a pas voulu préciser quelles fonctions pouvaient donner lieu à des salaires se situant dans le haut de cette fourchette.

« Le tarif de 12,50 dollars pour le projet couvre tous les coûts, comme les dépenses d’infrastructure, ainsi que le salaire et les avantages sociaux des associés et des analystes d’assurance qualité et chefs d’équipe entièrement dédiés », a ajouté le porte-parole.

Un porte-parole d’OpenAI a déclaré dans un communiqué que la société n’avait pas fixé d’objectifs de productivité et que Sama était responsable de la gestion du paiement et des dispositions relatives à la santé mentale des employés.

Le porte-parole a ajouté : « nous prenons très au sérieux la santé mentale de nos employés et celle de nos contractants. Nous avions compris que [chez Sama] des programmes de bien-être et des conseils individualisés étaient proposés, que les travailleurs pouvaient se retirer de tout travail sans être pénalisés, que l’exposition à des contenus explicites était limitée et que les informations sensibles étaient traitées par des travailleurs spécifiquement formés à cet effet. »

Dans le travail quotidien d’étiquetage des données au Kenya, il arrivait que des cas limites surgissent et montrent la difficulté d’apprendre à une machine à comprendre les nuances. Un jour, au début du mois de mars de l’année dernière, un employé de Sama était au travail et lisait une histoire explicite où Robin, l’acolyte de Batman, était violé dans l’antre d’un méchant. (Une recherche en ligne du texte révèle qu’il provient d’un site érotique en ligne, où il est accompagné d’images sexuelles explicites). Le début de l’histoire indique clairement que le rapport sexuel n’est pas consenti. Mais plus tard, après une description graphique détaillée de la pénétration, Robin commence à rendre la pareille.

L’employé de Sama chargé de catégoriser le texte a semblé confus par le consentement ambigu de Robin, et a demandé aux chercheurs d’OpenAI des éclaircissements sur la façon d’étiqueter le texte, selon les documents vus par TIME. Devait-on qualifier le passage de violence sexuelle, a-t-elle demandé, ou non ? La réponse d’OpenAI, si elle est venue, n’est pas enregistrée dans le document ; la société a refusé de commenter. L’employé de Sama n’a pas répondu à une demande d’interview.

Comment la relation entre OpenAI et Sama s’est effondrée

En février 2022, la relation entre Sama et OpenAI s’est brièvement approfondie, avant de s’effondrer. Ce mois-là, Sama a commencé à piloter un autre projet pour OpenAI : la collecte d’images sexuelles et violentes – dont certaines sont illégales au regard de la loi américaine – pour les livrer à OpenAI. Le travail de catégorisation des images semble ne pas être lié à ChatGPT. Dans une déclaration, un porte-parole d’OpenAI n’a pas précisé l’objet des images que la société a demandé à Sama, mais a déclaré que l’étiquetage des images nuisibles était « une étape nécessaire » pour rendre ses outils d’IA plus sûrs. (OpenAI construit également une technologie de génération d’images).

En février, selon un document de facturation examiné par le TIME, Sama a fourni à OpenAI un lot d’échantillons de 1.400 images. Selon le document, certaines de ces images étaient classées dans la catégorie « C4 » – l’étiquette interne d’OpenAI indiquant un abus sexuel sur enfant. Le lot comprenait également des images « C3 » (y compris la bestialité, le viol et l’esclavage sexuel) et des images « V3 » décrivant des détails graphiques de mort, de violence ou de blessures physiques graves, selon le document de facturation. OpenAI a versé à Sama un total de 787,50 dollars pour la collecte des images, selon le document.

En quelques semaines, Sama a annulé tous ses travaux pour OpenAI, soit huit mois plus tôt que prévu dans les contrats. La société d’externalisation a déclaré dans un communiqué que son accord pour collecter des images pour OpenAI ne comportait aucune référence au contenu illégal, et que ce n’est qu’après le début du travail qu’OpenAI a envoyé des « instructions supplémentaires » faisant référence à « certaines catégories illégales ».

« L’équipe d’Afrique de l’Est a tout de suite fait part de ses inquiétudes à nos dirigeants. Sama a immédiatement mis fin au pilote de classification d’images et a notifié que nous annulerions tous les [projets] restants avec OpenAI », a déclaré un porte-parole de Sama. « Les personnes travaillant avec le client n’ont pas examiné la demande par les voies appropriées. Après un examen de la situation, les personnes ont été licenciées et de nouvelles politiques de vérification des ventes et des garde-fous ont été mis en place. »

Dans une déclaration, OpenAI a confirmé avoir reçu 1 400 images de Sama qui « comprenaient, sans s’y limiter, des images C4, C3, C2, V3, V2 et V1 ». Dans une déclaration de suivi, la société a déclaré : « Nous avons engagé Sama dans le cadre de notre travail continu pour créer des systèmes d’IA plus sûrs et prévenir les sorties nuisibles. Nous n’avons jamais eu l’intention de collecter un quelconque contenu de la catégorie C4. Ce contenu n’est pas nécessaire pour alimenter nos filtres de préformation et nous demandons à nos employés de l’éviter activement.

Dès que Sama nous a dit qu’elle avait tenté de collecter du contenu de cette catégorie, nous avons précisé qu’il y avait eu un malentendu et que nous ne voulions pas de ce contenu. Et après avoir réalisé qu’il y avait eu un malentendu, nous n’avons pas ouvert ni visionné le contenu en question – nous ne pouvons donc pas confirmer s’il contenait des images de la catégorie C4. »

La décision de Sama de mettre fin à son travail avec OpenAI signifiait que les employés de Sama n’avaient plus à faire face à des textes et des images dérangeants, mais cela a également eu un grand impact sur leurs moyens de subsistance. Les employés de Sama disent qu’à la fin du mois de février 2022, ils ont été convoqués à une réunion avec des membres de l’équipe des ressources humaines de l’entreprise, où ils ont appris la nouvelle.

« On nous a dit qu’ils [Sama] ne voulaient plus exposer leurs employés à un tel contenu [dangereux] », a déclaré un employé de Sama travaillant sur les projets d’étiquetage de textes. « Nous avons répondu que pour nous, c’était un moyen de subvenir aux besoins de nos familles ».

La plupart des quelque trois douzaines de travailleurs ont été affectés à d’autres tâches moins bien rémunérées, sans la prime de 70 dollars par mois pour le contenu explicite ; d’autres ont perdu leur emploi. Sama a livré son dernier lot de données étiquetées à OpenAI en mars, huit mois avant la fin du contrat.

Les contrats ayant été annulés avant terme, OpenAI et Sama ont déclaré que les 200 000 dollars dont ils avaient convenu n’avaient pas été versés en totalité. OpenAI a déclaré que les contrats valaient « environ 150 000 dollars au cours du partenariat ».

Les employés de Sama disent que leurs responsables leur ont donné une autre raison pour l’annulation des contrats. Le 14 février, le TIME a publié un article intitulé Inside Facebook’s African Sweatshop. L’enquête détaillait comment Sama employait des modérateurs de contenu pour Facebook, dont le travail consistait à visionner des images et des vidéos d’exécutions, de viols et d’abus d’enfants pour à peine 1,50 dollar de l’heure. Quatre employés de Sama ont déclaré qu’on leur avait dit que l’enquête avait motivé la décision de l’entreprise de mettre fin à son travail pour OpenAI. (Facebook dit exiger de ses partenaires d’externalisation qu’ils « fournissent un salaire, des avantages et une assistance de premier ordre »).

Des communications internes postérieures à la publication de l’article de Facebook, examinées par le TIME, montrent que les dirigeants de Sama à San Francisco se sont démenés pour faire face aux retombées en termes de relations publiques, y compris pour satisfaire une entreprise, une filiale de Lufthansa, qui voulait que les preuves de sa relation commerciale avec Sama soient effacées du site Web de la société d’externalisation.

Dans une déclaration au TIME, Lufthansa a confirmé que cela s’est produit, et a ajouté que sa filiale zeroG a ensuite mis fin à ses activités avec Sama. Le 17 février, trois jours après la publication de l’enquête du TIME, Wendy Gonzalez, PDG de Sama, a envoyé un message à un groupe de cadres supérieurs via Slack : « Nous allons mettre un terme au travail d’OpenAI. »

Le 10 janvier de cette année, Sama est allée plus loin en annonçant qu’elle annulait tout le reste de son travail sur les contenus sensibles. L’entreprise a déclaré qu’elle ne renouvellerait pas son contrat de modération de contenu de 3,9 millions de dollars avec Facebook, ce qui entraînerait la perte de quelque 200 emplois à Nairobi.

« Après de nombreuses discussions avec notre équipe mondiale, Sama a pris la décision stratégique d’abandonner tous les travaux de [traitement du langage naturel] et de modération de contenu pour se concentrer sur les solutions d’annotation de données par vision par ordinateur », a déclaré l’entreprise dans un communiqué. « Nous avons passé l’année dernière à travailler avec les clients pour assurer la transition de ces engagements, et la sortie sera complète à partir de mars 2023. »

Mais la nécessité pour les humains d’étiqueter les données pour les systèmes d’IA demeure, du moins pour l’instant. « Ils sont impressionnants, mais ChatGPT et d’autres modèles génératifs ne sont pas magiques – ils reposent sur des chaînes d’approvisionnement massives de main-d’œuvre humaine et de données grattées, dont une grande partie n’est pas attribuée et est utilisée sans consentement », a récemment écrit Andrew Strait, un éthicien de l’IA, sur Twitter. « Ce sont des problèmes sérieux et fondamentaux que je ne vois pas OpenAI aborder ».

https://time.com/6247678/openai-chatgpt-kenya-workers/