Skip to main content

13 Août, 2019

Les « nouvelles » chaînes de montage : Pourquoi l’IA a aussi besoin de travailleurs peu qualifiés pour les données

Les « nouvelles » chaînes de montage : Pourquoi l’IA a aussi besoin de travailleurs peu qualifiés pour les données

La question centrale d’un débat sans fin est de savoir si l’intelligence artificielle et l’automatisation vont créer, éliminer ou modifier des emplois, et dans quelle mesure. En 2013, le duo académique d’Oxford Carl Benedikt Frey et Michael Osborne a publié une étude intitulée « The Future of Employment : How Susceptible Are Jobs Are Jobs to Computerization « , qui estime que 47 % des emplois américains sont à haut risque à la mi-2030.

L’an dernier, le Forum économique mondial (WEF) a publié un rapport intitulé The Future of Jobs 2018 (L’avenir de l’emploi 2018), selon lequel les algorithmes et les machines intelligentes devraient créer 133 millions de nouveaux rôles dans le monde et en éliminer environ 75 millions d’ici 2022 – un gain net total de 58 millions.

Quels que soient les chiffres ou les pourcentages spécifiques, le message sous-jacent omniprésent dans tous les rapports susmentionnés, dans les nouvelles et sur les médias sociaux, est que l’automatisation et l’intelligence artificielle feront disparaître les emplois peu qualifiés au profit de travailleurs spécialisés et hautement qualifiés. Apparemment, nous sommes confrontés à la disparition de la main-d’œuvre non qualifiée et à l’augmentation du nombre d’ingénieurs en logiciels, de spécialistes des données, de communicateurs numériques et de spécialistes en ligne.

Mais est-ce vraiment le cas ? Il est certainement vrai que l’automatisation et l’IA ont exactement la portée (et l’avantage) de remplacer les tâches cognitives et physiques répétitives et prévisibles. Cependant, il y a une face cachée de l’intelligence artificielle et de l’apprentissage machine qui est rarement discutée, et dont la majorité du public n’est même pas au courant : les nouvelles chaînes de montage de données.

Le bâtiment silencieux de l’armée AI

« Data is the new oil » (La donnée est le nouveau pétrole) est devenu une devise familière de nos jours. Et c’est tout à fait vrai, les données sont le nouveau produit de plus en plus précieux, en particulier pour l’IA. La plupart des algorithmes d’apprentissage machine doivent être formés sur un ensemble de données généralement volumineux.

Ceci est dû au fait que la plupart des techniques de Machine Learning (Apprentissage Machine) relèvent aujourd’hui de ce que l’on appelle « l’apprentissage supervisé » : l’ordinateur est finalement capable de faire des « inférences » ou des « décisions », mais seulement après avoir montré suffisamment d’exemples avec leurs « solutions » respectives. Nous pouvons enseigner à un réseau neuronal à reconnaître les images d’une voiture en alimentant le réseau avec des milliers d’images de voitures tout en spécifiant à chaque fois l’algorithme : « Hé, c’est une voiture ! » Plus nous lui donnons de photos de voitures, mieux il les reconnaîtra.

Maintenant, ces données de formation doivent être annotées par quelqu’un, c’est-à-dire un humain. Un article a été récemment écrit, portant spécifiquement sur la vision par ordinateur LiDAR et l’annotation d’images qui explique le concept, le processus et les différentes techniques d’étiquetage. Bref, il y a quelqu’un qui précise que dans cette image, il y a en fait une voiture, qui indique parfois où elle se trouve, ce qu’elle fait, si les phares sont allumés ou éteints, et ainsi de suite.

Les humains sont dans la boucle et vérifient chaque – ou presque – image, chaque ligne de texte et chaque élément de données transmis aux réseaux neuronaux. Pour vous donner une idée de l’ordre de grandeur, si l’on considère les voitures autonomes, les véhicules génèrent 40 téraoctets de données toutes les huit heures de conduite, d’après Intel. Waymo, qui n’est qu’une des nombreuses entreprises automobiles autonomes, a récemment déclaré avoir parcouru 16 millions de kilomètres sur les routes publiques aux États-Unis. Vous faites le calcul, c’est une énorme quantité de données.

Workers on the assembly line replace the back covers of 32-inch television sets at Element Electronics in Winnsboro, South Carolina, U.S. on May 29, 2014. REUTERS/Chris Keane/File Photo – RTX2QCX9

Tout cela se traduit par des milliers et des milliers d’heures de travail humain. Et les tâches d’étiquetage ne sont pas seulement une prérogative des voitures autonomes ou des robots autonomes. L’apprentissage machine est partout et c’est donc une annotation, même dans le domaine de la santé. Les logiciels de reconnaissance de formes sont utilisés en radiologie, pathologie, cardiologie, oncologie et même en psychiatrie.

Des ensembles de données massifs comprenant des fichiers d’imagerie, des tomodensitogrammes, des RM, des ECG, etc. doivent également permettre aux humains de repérer les cellules tumorales, de dessiner des polygones autour des valeurs aberrantes et de mettre en évidence les signaux pathologiques. Et la liste continue, y compris d’autres exemples de reconnaissance d’images, de texte ou de parole dans de multiples industries et applications.

Ligne de montage 2.0

Mais quand cela se produit-il, comment et où ? Il y a plusieurs entreprises qui développent les outils logiciels qui sont utilisés par les humains pour passer par le processus d’annotation. Certains d’entre elles ont également des employés internes ou d’autres qui externalisent le travail manuel d’étiquetage. Dans tous les cas, ces équipes d’annotateurs sont presque toujours situées dans des pays où le coût de la main d’œuvre est faible : Inde, Chine ou différentes régions africaines. Il s’agit de très grosses équipes, de l’ordre de plusieurs milliers. Certaines entreprises traitent avec plus de 50000 personnes, s’appuyant sur un pool de plus d’un million d’annotateurs dans le monde entier travaillant de jour comme de nuit.

Fondamentalement, alors que les usines et les installations de fabrication deviennent plus intelligentes, pleines de robots qui s’occupent des tâches manuelles qui étaient auparavant effectuées par des travailleurs humains, les fermes d’annotation de données sont les nouvelles chaînes de montage 2.0 à l’ère de l’intelligence artificielle. Ces nouveaux emplois n’existeraient pas sans les algorithmes d’apprentissage machine qui sont à l’origine de cette révolution.

Les données d’étiquetage peuvent être considérées comme l’équivalent cognitif de la chaîne de montage, dans laquelle les travailleurs ne souffrent pas de tâches physiquement épuisantes, mais sont plutôt engagés dans des efforts cognitifs. Certes, il s’agit toujours d’une tâche assez répétitive, mais elle est effectuée sur une chaise, loin des machines potentiellement dangereuses.

Être annotateur de données n’est pas une tâche facile. Elle exige de la formation et une attention méticuleuse aux détails. Vous devez dessiner des polygones très précis autour d’objets dans une image, ou détecter des repères à l’aide d’une souris et d’un clavier. Et vous devez le faire avec une extrême précision : la qualité des données annotées est vitale pour le succès d’un algorithme d’apprentissage machine.

De plus, dans de nombreuses industries comme les véhicules autonomes, de mauvaises données de formation peuvent faire la différence entre la vie et la mort. L’annotation de ces données prend beaucoup de temps, mais il est nécessaire d’enseigner à nos machines comment se comporter, prendre des décisions et prévoir les résultats.

Compte tenu du volume et des caractéristiques des tâches, l’annotation des données représente une grande opportunité pour les travailleurs peu qualifiés, les personnes vivant dans les pays en développement ou les groupes qui ont plus de difficultés à accéder aux emplois.

Deepen AI, par exemple, une organisation opérant dans le domaine des annotations de données, a lancé lifelong.ai, une organisation à but non lucratif qui permet aux réfugiés d’accéder à des emplois et d’acquérir de nouvelles compétences qui améliorent leur situation socio-économique. Des réfugiés syriens sont formés tout au long de la vie des réfugiés en Jordanie pour qu’ils deviennent des annotateurs de données et pour les mettre en contact avec des opportunités à distance sur le marché de l’IA, en offrant également des cours gratuits d’anglais, de développement web et mobile.

De plus, Deepen AI s’engage à payer à ses employés un salaire supérieur au salaire minimum, en plus d’avoir une échelle bien définie pour que les gens passent de l’étiquetage à la direction d’équipe, à l’Assurance qualité des logiciels, au gestionnaire de programme et aux RH. Grâce à cet effort, de nombreux employés de Deepen IA en Inde ont eu la chance de se marier, de fonder une famille, de grandir et d’enrichir leur communauté.

Il devrait maintenant être clair que l’intelligence artificielle ne crée pas seulement des opportunités pour les diplômés en science et les doctorats. Cette technologie en plein essor donne en fait naissance à de nouvelles catégories d’emplois pour les personnes peu qualifiées d’une manière difficile à prévoir.

Le côté obscur de l’annotation des données

Il incombe aux entreprises qui exploitent de telles entreprises d’habiliter les collectivités et de veiller à ce que les employés ne soient pas coincés dans des emplois peu spécialisés, mais qu’ils soient plutôt en mesure d’acquérir des connaissances et des compétences. Mais dans ce paysage d’opportunités peu qualifiées, il y a aussi un côté obscur.

Afin de s’attaquer au marché avec des prix hyper-compétitifs et de gagner des marges plus élevées, certaines entreprises d’étiquetage maintiennent le salaire des annotateurs à un niveau extrêmement bas. Les chiffres peuvent descendre jusqu’à 1 dollar de l’heure ou même moins, ce qui est même inférieur au salaire minimum. Les organisations qui adoptent ce secteur d’activité parrainent essentiellement un nouveau type d’esclavage à l’ère du numérique.

La soif de données annotées est si grande qu’à court terme, cette approche peut être très gratifiante financièrement pour les entreprises qui l’adoptent. À long terme, une telle ligne de conduite déterminera plutôt le taux de roulement élevé des employés, la mauvaise qualité de la production et l’impact négatif sur les collectivités. Non seulement ces entreprises bouleversent les normes sociales en exploitant les travailleurs et en menant leurs affaires de manière contraire à l’éthique, mais ce comportement injuste est également préjudiciable à l’ensemble de l’industrie.

L’IA est une technologie controversée qui suscite de nombreuses préoccupations sociales, éthiques et morales. Le sale jeu consistant à payer des salaires ridicules aux annotateurs de données peut certainement jeter une ombre noire sur le secteur, nuisant à la confiance dans la technologie et, en fin de compte, empêchant ou ralentissant la société d’en retirer les nombreux avantages qui peuvent en découler.

En résumé, l’avènement de l’automatisation et de l’IA élimine des millions d’emplois et en crée des millions d’autres. Il n’est pas nécessairement vrai que tous les emplois créés par l’IA sont destinés à des travailleurs hautement qualifiés et bien informés ; il existe aussi de nombreuses nouvelles possibilités pour les travailleurs peu qualifiés.

Le rythme de création de ces postes pourrait ne pas correspondre à celui de la disparition d’autres postes peu qualifiés, mais l’IA en est encore à ses balbutiements. Il est fort probable que la disponibilité des données et la nécessité d’accéder à des ensembles de données annotées augmenteront de façon exponentielle au cours des prochaines années, ce qui se traduira par une forte demande mondiale d’annotateurs de données.

Il est très difficile de faire des prévisions fiables. Le mieux que nous puissions faire est probablement d’agir de la même façon que nos algorithmes : examiner les faits d’aujourd’hui et faire des inférences à partir de ceux-ci. Si nous ne faisons référence qu’aux véhicules autopropulsés, nous savons aujourd’hui que des millions, voire des milliards de kilomètres parcourus nous séparent d’un véhicule sûr et entièrement autonome… c’est suffisant pour occuper un grand nombre d’annotateurs de données pendant un certain temps.

https://www.deepen.ai/

https://lifelong.ai/

https://www.deepen.ai/blog/what-is-annotation-and-why-4d-lidar-semantic-segmentation-will-drastically-improve-autonomous-driving-development/

http://reports.weforum.org/future-of-jobs-2018/?doing_wp_cron=1563324637.5954530239105224609375

https://www.weforum.org/agenda/2019/08/ai-low-skilled-workers/

https://www.oxfordmartin.ox.ac.uk/downloads/academic/The_Future_of_Employment.pdf