La formation d’un seul modèle d’IA peut émettre autant de carbone que cinq voitures au cours de leur durée de vie.
La formation d’un seul modèle d’IA peut émettre autant de carbone que cinq voitures au cours de leur durée de vie.

L’industrie de l’intelligence artificielle est souvent comparée à l’industrie pétrolière : une fois extraites et raffinées, les données, comme le pétrole, peuvent être une marchandise très lucrative. Mais il semble que la métaphore aille encore plus loin. Comme son homologue des combustibles fossiles, le processus d’apprentissage profond a un impact environnemental considérable.
Dans un nouvel article, des chercheurs de l’Université du Massachusetts, à Amherst, ont effectué une évaluation du cycle de vie pour la formation de plusieurs grands modèles d’IA courants. Ils ont découvert que le procédé peut émettre plus de 280 tonnes d’équivalent en dioxyde de carbone, soit près de cinq fois les émissions sur la durée de vie d’une voiture américaine moyenne (et cela inclut la fabrication de la voiture elle-même).

Il s’agit d’une quantification frappante de quelque chose que les chercheurs en intelligence artificielle soupçonnent depuis longtemps. « Alors que beaucoup d’entre nous y ont probablement pensé de manière abstraite et vague, les chiffres montrent vraiment l’ampleur du problème « , explique Carlos Gómez-Rodríguez, informaticien à l’Université de La Corogne en Espagne, qui n’a pas participé à cette recherche. « Ni moi, ni d’autres chercheurs avec qui j’en ai discuté n’avons pensé que l’impact sur l’environnement était si important. »
L’empreinte carbone du traitement du langage naturel
L’article examine spécifiquement le processus de formation du modèle pour le traitement du langage naturel (NLP), le sous-domaine de l’IA qui se concentre sur l’enseignement des machines à utiliser le langage humain. Au cours des deux dernières années, la communauté du NLP a atteint plusieurs jalons de rendement dignes de mention en matière de traduction automatique, d’achèvement de phrases et d’autres tâches d’analyse comparative standard. Le fameux modèle GPT-2 d’OpenAI, par exemple, excellait dans la rédaction de faux articles de presse convaincants.
Mais de tels progrès ont nécessité la formation de modèles de plus en plus vastes sur des ensembles de données tentaculaires de phrases extraites d’Internet. L’approche est coûteuse sur le plan informatique et très énergivore.
Les chercheurs ont examiné quatre modèles sur le terrain qui ont été à l’origine des plus grands bonds en matière de performance : le Transformer, ELMo, BERT et GPT-2. Ils se sont entraînés chacun sur un seul GPU pendant une journée pour mesurer sa consommation d’énergie.

Ils ont ensuite utilisé le nombre d’heures de formation indiqué dans les documents originaux du modèle pour calculer l’énergie totale consommée au cours du processus de formation complet. Ce chiffre a été converti en kg d’équivalent de dioxyde de carbone sur la base du mix énergétique moyen aux États-Unis, qui correspond de près au mix énergétique utilisé par AWS d’Amazon, le plus grand fournisseur de services cloud.
Ils ont constaté que les coûts informatiques et environnementaux de la formation augmentaient proportionnellement à la taille du modèle, puis explosaient lorsque des étapes de réglage supplémentaires étaient utilisées pour augmenter la précision finale du modèle. En particulier, ils ont constaté qu’un processus d’optimisation connu sous le nom de « recherche d’architecture neurale », (neural architecture search) qui tente d’optimiser un modèle en ajustant progressivement la conception d’un réseau neuronal par des essais et des erreurs exhaustifs, avait des coûts associés extraordinairement élevés pour un faible bénéfice de performance. Sans lui, le modèle le plus coûteux, BERT, avait une empreinte carbone d’environ 635 kg d’équivalent en dioxyde de carbone, soit près d’un aller-retour sur un vol transaméricain.
De plus, les chercheurs notent que les chiffres ne devraient être considérés que comme des données de référence. « La formation d’un seul modèle est le minimum de travail que vous pouvez faire « , assure Emma Strubell, candidate au doctorat à l’Université du Massachusetts, Amherst, et auteure principale de l’article. Dans la pratique, il est beaucoup plus probable que les chercheurs en IA élaborent un nouveau modèle à partir de zéro ou adaptent un modèle existant à un nouvel ensemble de données, ce qui peut nécessiter beaucoup plus de séances de formation et d’adaptation.
Pour mieux comprendre à quoi pourrait ressembler le pipeline de développement complet en termes d’empreinte carbone, Emma Strubell et ses collègues ont utilisé comme étude de cas un modèle qu’ils avaient produit dans un article précédent. Ils ont constaté que le processus d’élaboration et de mise à l’essai d’un modèle final sur papier digne d’intérêt nécessitait la formation de 4 789 modèles sur une période de six mois. Converti en équivalent CO2, il émet plus de 35 tonnes et est probablement représentatif du travail typique sur le terrain.
L’importance de ces chiffres est colossale, surtout si l’on considère les tendances actuelles de la recherche sur l’IA. « En général, la plupart des dernières recherches en intelligence artificielle négligent l’efficacité, car de très grands réseaux neuronaux se sont révélés utiles pour une variété de tâches, et les entreprises et les institutions qui ont un accès abondant aux ressources informatiques peuvent en tirer parti pour obtenir un avantage concurrentiel « , estime Carlos Gómez-Rodríguez. « Ce genre d’analyse devait être faite pour sensibiliser les gens aux ressources dépensées (…) et susciter un débat. »
« Ce que beaucoup d’entre nous n’ont probablement pas compris, c’est l’ampleur de la situation jusqu’à ce que nous voyions ces comparaisons « , a fait écho Siva Reddy, une postdoctorante de l’Université Stanford qui n’a pas participé à cette recherche.
La privatisation de la recherche sur l’IA
Les résultats soulignent également un autre problème croissant de l’IA : l’intensité même des ressources nécessaires pour produire des résultats dignes d’être publiés sur papier fait qu’il est de plus en plus difficile pour les personnes travaillant dans le milieu universitaire de continuer à contribuer à la recherche.
« Cette tendance à former d’énormes modèles sur des tonnes de données n’est pas faisable pour les étudiants universitaires, surtout parce que nous n’avons pas les ressources informatiques nécessaires « , explique Emma Strubell. « Il y a donc un problème d’accès équitable entre chercheurs universitaires et chercheurs industriels. »
Emma Strubell et ses coauteurs espèrent que leurs collègues tiendront compte des conclusions du document et contribueront à uniformiser les règles du jeu en investissant dans le développement de matériel et d’algorithmes plus efficaces.
Siva Reddy est d’accord. « Le cerveau humain peut faire des choses étonnantes avec une faible consommation d’énergie, dit-il. « La grande question est de savoir comment construire de telles machines. »
https://drive.google.com/file/d/1v3TxkqPuzvRfiV_RVyRTTFbHl1pZq7Ab/view