Les « crowd workers », qui créent les masses de données d'entraînement des algorithmes de deep learning, utilisent eux-mêmes massivement les grands modèles de langage. Ce cercle vicieux en cours de formation risque d'amplifier les biais déjà en germe dans les modèles existants.
« L'une de nos principales sources de données humaines n'est plus entièrement "humaine" ! », résume sur Twitter Manoel Horta Ribeiro, chercheur à l'École polytechnique fédérale de Lausanne (EPFL).
Dans un article mis en ligne [PDF] sur la plateforme de preprints arXiv et cosigné avec ses collègues Veniamin Veselovsky et Robert West, il affirme qu'une large partie des « crowd workers » utilisent des grands modèles de langage pour accomplir leurs tâches. Ces personnes, payées souvent à la tâche pour créer les amas de données qui serviront ensuite à entraîner les algorithmes de deep learning, proposent leurs services sur la plateforme Mechanical Turk d'Amazon.
Qui a écrit les résumés de texte ?
Pour tester l'utilisation de ces grands modèles de langage par les « crowd workers » d'Amazon Mechanical Turk, ces trois chercheurs ont repris une expérience datant de 2019 issue de leurs anciennes recherches et qui étudiait comment l'information est perdue quand des humains résument un texte. Celle-ci demandait aux « crowd workers » de résumer les « abstracts » (la première partie résumant déjà l'article scientifique en question). Ils devaient produire huit textes de plus en plus court.
Cette fois, ils ont reproduit la même expérience, mais en demandant un seul résumé (et non huit) :
Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)
En plus du résumé envoyé par les « crowd workers », les chercheurs ont intégré un code JavaScript dans le formulaire. Il récupère les actions effectuées pendant qu'ils effectuent la tâche, incluant les copiés-collés (par le menu ou par les raccourcis clavier).
Ils ont ensuite utilisé un modèle pré-entraîné (E5-base-v2), renforcé avec les données de l'étude de 2019 et des textes générés avec ChatGPT par eux-mêmes, pour créer un détecteur de textes générés par ChatGPT. Les données récupérées par le code JavaScript leur ont permis de confirmer la validité de ce détecteur (il est probable qu'un texte copié-collé ait été généré via un grand modèle de langage et inversement).
Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)
Dans leur étude (encore en cours), leur modèle détecte pour l'instant entre 33 et 46 % de résumés utilisant ChatGPT. L'article ne prend pour l'instant en compte que 46 résumés, mais les chercheurs expliquent qu'ils continuent à en récolter et mettront à jour le preprint au fur et à mesure.
S'il faut donc rester très prudent sur la part réelle d'utilisation de ChatGPT (et autres chatbots du même type) par les « crowd workers », il n'en reste pas moins que ce travail montre qu'une partie non négligeable des données censées provenir d'humains est, de fait, créée à partir de grands modèles de langage.
Alerte sur tous les contenus pouvant être générés via LLM
Les chercheurs alertent dans leur article que, « bien que notre étude porte spécifiquement sur une tache de résumé de texte, nous avertissons que toute tâche de production de texte dont les instructions peuvent être facilement transmises à un LLM par un prompt [la ligne de commande, par exemple une question posée à poser à chatGPT, ndlr] est susceptible d'être touchée de la même manière. »
Et même, ils considèrent que cette alerte devrait être généralisée à toute sorte de contenus : « les LLM deviennent de plus en plus populaires et les modèles multimodaux, supportant non seulement le texte, mais aussi les entrées et sorties d'images et de vidéos, sont de plus en plus nombreux. Nos résultats devraient donc être considérés comme le "canari dans la mine de charbon" qui devrait pousser les plateformes, les chercheurs et les « crowd workers » à trouver de nouveaux moyens de s'assurer que les données humaines restent humaines ».
En réaction à la lecture de cet article, la chercheuse Vered Shwartz de l'Université de Colombie-Britannique (au Canada) confirme avoir été récemment confrontée au problème : « Cela semble cohérent avec mon expérience récente. Nous avons dû vérifier manuellement le texte écrit par les annotateurs et filtrer une bonne partie du texte qui semblait avoir été générée par LM [modèle de langage, ndlr]. De plus, les annotations pour les tâches de vérification/classement comportaient tellement de bruits que nous avons décidé de ne pas les faire en utilisant Mechanical Turk ».
Automatisation du « Turc mécanique »
Conceptuellement, ce constat est un peu vertigineux. Amazon a nommé sa plateforme « Mechanical Turk » (« Turc mécanique », en français) en reprenant le nom du célèbre canular que Johann Wolfgang von Kempelen avait monté au XVIIIe siècle. Il s'agissait d'un automate censé être capable de jouer aux échecs. Il était en fait manipulé par un joueur humain caché dans son mécanisme.
La plateforme a donc repris le concept pour proposer une plateforme de microtravail, afin de souligner que les tâches sont réalisées par des humains. Mais maintenant, nous ne pouvons que constater que le « Turc mécanique » est aussi alimenté par des contenus créés par des machines imitant des humains.
Les auteurs de l'étude l'ont aussi constaté, entamant leur article d'un ironique « Artificial Artificial Artificial Intelligence ».
Si cette situation peut prêter à sourire, Manoel Horta Ribeiro pointe qu'en plus d'une adoption croissante de ces modèles de langages, les données humaines restent très importantes pour la recherche et que « l'entrainement de modèles sur des données synthétiques peut perpétuer les préjugés et les idéologies ».
Why does this matter? Because
— Manoel (@manoelribeiro) June 14, 2023
1. human data remains critical in the sciences
2. training models on synthetic data may perpetuate biases and ideologies
3. adoption will only increase as models become popular and better/multimodal pic.twitter.com/klMKmQuncd