Difficile évaluation du coût environnemental et financier de l'utilisation des grands modèles de langage

Des perroquets pas si efficaces
Economie 5 min
Difficile évaluation du coût environnemental et financier de l'utilisation des grands modèles de langage
Crédits : DNY59/iStock

Les grands modèles de langage sont actuellement très prisés des multinationales du numérique. Aucune ne présente son futur sans le faire reposer sur les modèles d'Intelligence artificielle popularisés par OpenAI et son ChatGPT. Mais faire tourner ces modèles a un coût énergétique, donc financier et écologique. S'il est difficile de l'évaluer, des signes montrent qu'il est loin d'être négligeable.

Malgré les signaux d'alarmes lancés par des chercheurs et chercheuses du domaine, l'industrie du numérique s'est massivement tournée, en suivant OpenAI et son ChatGPT, vers ce qu'elle a nommé l'IA générative pour proposer des nouveaux services accélérant de façon considérable la production de contenus, que ça soit des images, des vidéos ou des textes.

En termes de vitesse de création de contenus, les grands modèles de langage et ce qu'on nomme maintenant plus largement les « modèles de fondation » sont diablement efficaces et OpenAI, Google, Midjourney et leurs concurrents n'ont de cesse de le démontrer avec des outils dépassants ce qui existait il y a quelques mois seulement.

Si leur pari est d'attirer des fonds, l'énergie utilisée pour entraîner et utiliser ces IA paraît importante, même si elle est difficile à évaluer. Et ce point est très important pour comprendre les enjeux économiques et environnementaux.

Un intérêt à ne pas trop en dire

L'information sur le sujet est difficile à trouver. D'une part, économiquement, ces entreprises n'ont pas forcément intérêt à être transparentes. D'autre part, une bonne partie de la recherche dans ces champs est soit directement produite par leurs équipes, soit financée par ces entreprises.

Or ces dernières ont tout intérêt à financer des recherches sur l'amélioration des performances visibles plutôt que sur les potentielles failles dans leurs modèles économiques et les coûts environnementaux de ces nouveaux outils. On peut rappeler l'affaire du licenciement de Timnit Gebru puis de Margaret Mitchell autour de la publication de leur article sur les dangers des modèles de langage.

Il faut dire aussi que l'état de l'art change très rapidement : de nouveaux modèles ou de nouvelles versions sont publiés toutes les semaines, alors que l'évaluation, elle, prend un certain temps.

Des signes d'un coût financier important

Mais des signes montrent quand même que les coûts d'entraînement et d'utilisations sont des enjeux à part entière. Si ce n'était pas le cas, dans la version gratuite de ChatGPT, OpenAI aurait pu rapidement remplacer la version 3.5 de son modèle de langage (entraîné sur des données datant de juin 2021) par GPT-4, pour rester le leader incontesté. Par ailleurs, même la version payante de ChatGPT, qui permet d'utiliser la version 4 du modèle, est limitée en nombre de textes produit par utilisateur.

Le Washington Post rapporte que Dylan Patel, de l'entreprise de recherche sur les semi-conducteurs SemiAnalysis, « a estimé qu'une simple conversation avec ChatGPT pouvait coûter jusqu'à 1 000 fois plus cher qu'une simple recherche sur Google. »

Un autre signe du coût de fonctionnement de ces IA est l'explosion du cours de Nvidia. Ces machines ont besoin de GPU pour tourner et le leader du marché prévoit de vendre 11 milliards de dollars de nouvelles puces au deuxième trimestre de cette année, soit 4 milliards de dollars de plus que ce qu'attendaient les analystes de Wall Street.

Pour l'entraînement, le Human-Centered Artificial Intelligence de l'Université de Stanford a publié une analyse comparative de son coût suivant les différents modèles : de 230 000 dollars pour Dall-E à plus de 11 millions pour le Megatron-Turing Natural Language Generation de Nvidia.

Benchmark LLM
Crédits : Human-Centered Artificial Intelligence de l'Université de Stanford

Un coût environnemental significatif

Si le coût financier de ces IA est difficile à connaître, l'estimation de leur coût environnemental est un casse-tête, comme souvent dans le numérique.

La chercheuse Sacha Luccioni de HuggingFace, qui travaille sur le sujet, a récemment mis en ligne un article scientifique [PDF] (écrit en collaboration avec Sylvain Viguier de Graphcore et Anne-Laure Ligozat de l'Université Paris-Saclay) évaluant les émissions de CO2 du grand modèle de langage BLOOM (qui est l'un des seuls à respecter les critères de l'open science). Dans celui-ci, une comparaison est faite entre les entrainements de quatre modèles de langage : GPT-3, Gopher (de DeepMind), OPT (de META) et BLOOM.

Coût environnemental LLM
Crédits : Sacha Luccioni, Anne-Laure Ligozat et Sylvain Viguier

Luccioni explique dans un article publié sur ArsTechnica qu' « en fonction de la source d'énergie utilisée pour la formation et de son intensité en carbone, la formation d'un LLM de l'ère 2022 émet au moins 25 tonnes métriques d'équivalents carbone si vous utilisez des énergies renouvelables, comme nous l'avons fait pour le modèle BLOOM. Si vous utilisez des sources d'énergie à forte intensité de carbone comme le charbon et le gaz naturel, ce qui était le cas pour le GPT-3, ce chiffre monte rapidement à 500 tonnes métriques d'émissions de carbone, ce qui équivaut à plus d'un million de kilomètres parcourus par une voiture moyenne à essence ».

Et encore, ces estimations ne prennent pas en compte la fabrication du matériel pour les entraîner.

Quant à leur fonctionnement après entraînement, il ne semble pas y avoir encore d'estimation permettant de savoir quel est son coût environnemental. La chercheuse se lamente : « Il est difficile d'estimer la quantité exacte d'émissions qui en résulte, étant donné le secret et le manque de transparence qui entourent ces grands LLM. »

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !