IA : les « modèles de fondation » et leur index de transparence critiqués

Mi-octobre, une équipe de l’Institute for Human-Centered Artificial Intelligence (HAI) de l’université de Stanford publiait un index de la transparence des modèles de fondation (modèles d'IA générative généralistes), outil notamment pensé pour servir les régulateurs. Dans la communauté scientifique, l'outil fait débat.

Il y a quelques jours, nous rapportions la publication d’un index permettant de mesurer la transparence de divers grands modèles d’intelligence artificielle. Créé par l’équipe du Center for Research on Foundation Models (CREM) de l’Institute for Human-Centered Artificial Intelligence (HAI) de l’université de Stanford, l’outil recense cent indicateurs à partir desquels il propose d’évaluer la transparence d’un modèle comme GPT-4, Lama 2 ou Bloomz.

Sur l'index de transparence des modèles de fondation :

L’évaluation proposée par l’équipe du CREM se fait en plusieurs étapes : en amont de la fabrication du modèle (du côté des données d’entrainement, notamment), dans l’outil lui-même, et en aval (du côté de son application et de la possibilité qu’ont les utilisateurs de faire remonter des critiques et retours). Problème, nous a fait remarquer severo_bo, « cet « index » est très critiqué par la communauté scientifique ».

Et, de fait, dans un article publié par la newsletter Interconnects et le blog du groupe de recherche open source Eleuther AI intitulé « Comment l’index de transparence des modèles de fondation déforme la transparence », quatre experts de l’intelligence artificielle – Nathan Lambert, Stella Bideman, Aviya Skowron et SE Gyges – détaillent plusieurs critiques à l’encontre de l’index.

Tous ont travaillé sur le modèle BLOOM-Z ou sont affiliés à des institutions qui ont participé à sa création, indiquent-ils dès l’introduction, aussi illustrent-ils leur propos à l’aide du modèle initié par Hugging Face et ouvert aux spécialistes du monde entier chaque fois que possible.

S’ils admettent l’intérêt de créer ce type d’outils, notamment pour le public non scientifique et les régulateurs, les quatre signataires s’inquiètent notamment de la manière dont la nécessité de transparence dans les grands modèles de langage est présentée par les chercheurs de Stanford. Ils estiment, aussi, qu’approcher le problème sous forme de score réduit nécessairement la nuance nécessaire pour aborder la question de la transparence, la transformant à une simple note qu’il s’agirait d’optimiser.

Ils estiment par ailleurs que l’index est construit de sorte à favoriser les produits d’entreprises privées.

Les modèles de fondation, des « châteaux dans le ciel » ?

Lors d’un colloque organisé par le CREM sur le concept même de modèle de fondation à l’été 2021, le chercheur et professeur d’ingénierie électrique et d’informatique Jitendra Malik avait exposé clairement ses critiques contre le concept. Pour lui, le terme même de « fondation » est « horriblement faux » : les modèles qu’ils désignent (principalement des grands modèles de langages, LLM, dont les résultats généralistes peuvent être adaptés à une série de tâches différentes) sont « des châteaux dans le ciel, ils n’ont aucune notion de fondation ».

C’est-à-dire, développe Jitendra Malik, que ces machines n’ont aucune conscience, aucune compréhension des mots qu’ils alignent les uns après les autres – puisqu’ils le font par calcul probabiliste.

Et le chercheur de détailler comment le langage, chez les humains, ne se développe que par-dessus une série d’autres compétences liées à leurs capacités sensorielles et motrices. Un enfant qui apprend à parler, par exemple, touche, manipule, agit et réagit à son environnement en même temps qu’il apprend à le nommer. Un modèle de langage, aussi large soit-il, n’a aucune de ces capacités. Or, pour Jitendra Malik, pour pouvoir qualifier un modèle de « fondation », il faudrait précisément « que le langage soit couplé à de l’expérience sensorimotrice ».

La transparence est un moyen, pas une fin

Deux ans après la publication de chercheurs de Stanford qui a fait émerger l’expression de « modèles de fondation » (désormais utilisée dans les travaux des régulateurs européens), d’autres, affiliés à la même université, publient donc leur index de transparence, présenté comme un outil à destination des régulateurs.

Premier problème pointé par les auteurs de « Comment l’index de transparence des modèles de fondation déforme la transparence » : l’index ne discute pas l’utilité de la transparence des modèles d’IA. Or, « en analysant la transparence comme un agrégat », sans référence aucune, l’index la rend « creuse », estiment ces critiques.

Autrement dit, la transparence doit être « un outil, pas un but », autrement, elle cesse d’avoir un intérêt. Or, faute de discussion claire, « la manière dont les auteurs [de l’index] définissent la transparence évolue au fil du questionnaire », ce qui en complique l’appréhension.

Invisibilisation de pratiques admises dans la recherche

Les méthodes de récupération des informations qui ont permis d’établir les scores de l’index manquent par ailleurs d’explications. Ces critiques pointent le manque d’intégration de pratiques pourtant courantes de diffusion d’information transparente, comme la publication d’articles scientifiques en accès libre. Cela donne lieu à des cas comme celui de BLOOM-Z, pour lequel l’index estime que « la propriété des forces de calcul nécessaires au projet n’est pas déclarée ».

« Elle l’est », répondent Nathan Lambert et ses co-auteurs. « L’information est disponible dans l’article de BLOOM-Z, clairement liée en tête de sa documentation ». Mais les logiques de récupération de l’information adoptée par l’équipe de Stanford n’ont visiblement pas permis de le prendre en compte. Plus largement, tous s’étonnent que les bonnes pratiques de transparence habituellement partagées dans le milieu de l’IA soient si peu représentées dans l’index.

« La recherche sur l'apprentissage automatique est généralement considérée comme "plus transparente" si les données, le modèle et les procédures d'évaluation sont rendus publics », écrivent-ils. Ces éléments sont « tellement sous-évalués » dans l’index « qu’un modèle qui leur donne la priorité peut obtenir un score de seulement 30 % à l’index, ce qui signifie que deux tiers des questions ne reflètent pas les éléments que les chercheurs en apprentissage automatique considèrent comme fondamentaux pour la transparence ».

Des erreurs méthodologiques

Les auteurs pointent aussi des erreurs méthodologiques. Le fait de noter positivement, par exemple, la fourniture de documents sur les potentiels dommages prévisibles que pourrait causer la machine ne devraient pas être assimilées à de la transparence.

« Supposons que vous vendiez des armes à feu : êtes-vous un fabricant d'armes "plus transparent" si vous distribuez également des brochures sur les blessures causées par les armes à feu ? »

Par ailleurs, l’article scientifique qui accompagne l’index mentionne plusieurs critiques classiques pouvant être faites à des travaux sur la transparence comme le leur, mais n’y répond pas réellement. Surtout, pointent ses critiques, faire de la transparence un score revient précisément à créer un dispositif relativement vide qu’il s’agirait d’optimiser.

Un index favorisant les modèles privés ?

Une autre grande problématique que pointent Nathan Lambert et ses collègues réside dans le mélange que l’index de l’équipe de Stanford fait entre modèles (les « artefacts de recherche », créés une seule fois, documentés et reproductibles) et « services de modèles hébergés ». Ces derniers sont des produits à part entière, qui peuvent interagir avec d’autres modèles et sont « généralement maintenus par une entreprise et administrés par des conditions d’utilisation ».

Or, selon ses critiques, l’index est construit de telle sorte que « s’il critique les pratiques de vendeurs [comme OpenAI], il accepte implicitement leur agenda ». L’outil est construit de manière à mieux correspondre à des services fournis par des entreprises privées – un nombre conséquent de catégories de notation ne s’appliquent même qu’à des entreprises –, mais est néanmoins appliqué aussi à des modèles au sens d’ « artefacts de recherche ».

Et les scientifiques de donner en exemple le cas de GPT-4, qui reçoit 50 % des points de méthode et des « bases » du modèle, quand bien même OpenAI refuse de publier divers détails d’importance sur la méthode de fabrication de son LLM. « Un index de transparence construit par la communauté de la recherche aurait donné un score de 0 à GPT-4 », insistent les cosignataires.

En réalité, estiment ses critiques, l’index sert plus à noter les pratiques des entreprises constructrices de LLM – et peut effectivement être utile pour le public qui souhaiterait analyser ces entités – qu’à évaluer ces modèles eux-mêmes.

Éthique : les développeurs et développeuses ont-ils la possibilité de répondre à leurs questionnements ?

Commentaires (4)

fred42 Abonné

Le 13/11/2023 à 16h 44

Merci d’avoir pris en compte la remarque de severo_bo et en avoir fait un article après analyse des critiques qui semblent fondées (pour ne pas dire qu’elles ont de solides fondations).

DantonQ-Robespierre Abonné

Le 14/11/2023 à 21h 48

Merci Mathilde pour cet article approfondi qui revient pour ma part à poser la question : Pour toute chose il y a des évaluateurs… Mais qui évalue les évaluateurs ?

Leur méthode d’évaluation est-elle scientifiquement solide et reproductible ? Est-elle efficace et incorruptible ? Est-elle adapté aux changements et aux évolutions rapides du modèle observé ?

…Et MERCI @Flock pour ce magnifique dessin qui évoque, comme un clin d’oeil, “Le Château dans le Ciel” de Maître Hayao Miyazaki !

dematbreizh Abonné

Le 16/11/2023 à 13h 33

« Supposons que vous vendiez des armes à feu : êtes-vous un fabricant d’armes “plus transparent” si vous distribuez également des brochures sur les blessures causées par les armes à feu ? »
bah oui, si on part du principe qu’une arme sert à infliger des blessures…

consommateurnumérique Abonné

Le 16/11/2023 à 16h 56

Des châteaux dans le ciel ou des standards sans créativité. J’aime bien citer l’auteur Alexandre Astier à propos de l’IA, mais je vais citer le philosophe Eric Sadin : « C’est un pseudo-langage, une langue morte, une langue frappée par la nécrose. Ces systèmes ingurgitent tous les corpus existants en vue de les soumettre à des traitements statistiques, des analyses mathématiques, afin d’en tirer des lois sémantiques qui sont adossées à des équations probabilistes. »

IA : les « modèles de fondation » et leur index de transparence critiqués

Ça reste opaque, cette affaire

Les modèles de fondation, des « châteaux dans le ciel » ?

La transparence est un moyen, pas une fin

Invisibilisation de pratiques admises dans la recherche

Des erreurs méthodologiques

Un index favorisant les modèles privés ?

Tiens, en parlant de ça :

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Sommaire de l'article

Introduction

Les modèles de fondation, des « châteaux dans le ciel » ?

La transparence est un moyen, pas une fin

Invisibilisation de pratiques admises dans la recherche

Des erreurs méthodologiques

Un index favorisant les modèles privés ?

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (4)