Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

Artificial Artificial Artificial Intelligence

Publié dans

16/06/2023 6 minutes

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d'autres modèles de langage

Les « crowd workers », qui créent les masses de données d'entraînement des algorithmes de deep learning, utilisent eux-mêmes massivement les grands modèles de langage. Ce cercle vicieux en cours de formation risque d'amplifier les biais déjà en germe dans les modèles existants.

« L'une de nos principales sources de données humaines n'est plus entièrement "humaine" ! », résume sur Twitter Manoel Horta Ribeiro, chercheur à l'École polytechnique fédérale de Lausanne (EPFL).

Dans un article mis en ligne [PDF] sur la plateforme de preprints arXiv et cosigné avec ses collègues Veniamin Veselovsky et Robert West, il affirme qu'une large partie des « crowd workers » utilisent des grands modèles de langage pour accomplir leurs tâches. Ces personnes, payées souvent à la tâche pour créer les amas de données qui serviront ensuite à entraîner les algorithmes de deep learning, proposent leurs services sur la plateforme Mechanical Turk d'Amazon.

La délicate question du sous-traitement des données d'entraînement de l'IA

Qui a écrit les résumés de texte ?

Pour tester l'utilisation de ces grands modèles de langage par les « crowd workers » d'Amazon Mechanical Turk, ces trois chercheurs ont repris une expérience datant de 2019 issue de leurs anciennes recherches et qui étudiait comment l'information est perdue quand des humains résument un texte. Celle-ci demandait aux « crowd workers » de résumer les « abstracts » (la première partie résumant déjà l'article scientifique en question). Ils devaient produire huit textes de plus en plus court.

Cette fois, ils ont reproduit la même expérience, mais en demandant un seul résumé (et non huit) :

Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)

En plus du résumé envoyé par les « crowd workers », les chercheurs ont intégré un code JavaScript dans le formulaire. Il récupère les actions effectuées pendant qu'ils effectuent la tâche, incluant les copiés-collés (par le menu ou par les raccourcis clavier).

Ils ont ensuite utilisé un modèle pré-entraîné (E5-base-v2), renforcé avec les données de l'étude de 2019 et des textes générés avec ChatGPT par eux-mêmes, pour créer un détecteur de textes générés par ChatGPT. Les données récupérées par le code JavaScript leur ont permis de confirmer la validité de ce détecteur (il est probable qu'un texte copié-collé ait été généré via un grand modèle de langage et inversement).

Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)

Dans leur étude (encore en cours), leur modèle détecte pour l'instant entre 33 et 46 % de résumés utilisant ChatGPT. L'article ne prend pour l'instant en compte que 46 résumés, mais les chercheurs expliquent qu'ils continuent à en récolter et mettront à jour le preprint au fur et à mesure.

S'il faut donc rester très prudent sur la part réelle d'utilisation de ChatGPT (et autres chatbots du même type) par les « crowd workers », il n'en reste pas moins que ce travail montre qu'une partie non négligeable des données censées provenir d'humains est, de fait, créée à partir de grands modèles de langage.

Alerte sur tous les contenus pouvant être générés via LLM

Les chercheurs alertent dans leur article que, « bien que notre étude porte spécifiquement sur une tache de résumé de texte, nous avertissons que toute tâche de production de texte dont les instructions peuvent être facilement transmises à un LLM par un prompt [la ligne de commande, par exemple une question posée à poser à chatGPT, ndlr] est susceptible d'être touchée de la même manière. »

Et même, ils considèrent que cette alerte devrait être généralisée à toute sorte de contenus : « les LLM deviennent de plus en plus populaires et les modèles multimodaux, supportant non seulement le texte, mais aussi les entrées et sorties d'images et de vidéos, sont de plus en plus nombreux. Nos résultats devraient donc être considérés comme le "canari dans la mine de charbon" qui devrait pousser les plateformes, les chercheurs et les « crowd workers » à trouver de nouveaux moyens de s'assurer que les données humaines restent humaines ».

En réaction à la lecture de cet article, la chercheuse Vered Shwartz de l'Université de Colombie-Britannique (au Canada) confirme avoir été récemment confrontée au problème : « Cela semble cohérent avec mon expérience récente. Nous avons dû vérifier manuellement le texte écrit par les annotateurs et filtrer une bonne partie du texte qui semblait avoir été générée par LM [modèle de langage, ndlr]. De plus, les annotations pour les tâches de vérification/classement comportaient tellement de bruits que nous avons décidé de ne pas les faire en utilisant Mechanical Turk ».

Automatisation du « Turc mécanique »

Conceptuellement, ce constat est un peu vertigineux. Amazon a nommé sa plateforme « Mechanical Turk » (« Turc mécanique », en français) en reprenant le nom du célèbre canular que Johann Wolfgang von Kempelen avait monté au XVIIIe siècle. Il s'agissait d'un automate censé être capable de jouer aux échecs. Il était en fait manipulé par un joueur humain caché dans son mécanisme.

La plateforme a donc repris le concept pour proposer une plateforme de microtravail, afin de souligner que les tâches sont réalisées par des humains. Mais maintenant, nous ne pouvons que constater que le « Turc mécanique » est aussi alimenté par des contenus créés par des machines imitant des humains.

Les auteurs de l'étude l'ont aussi constaté, entamant leur article d'un ironique « Artificial Artificial Artificial Intelligence ».

Dangers des grands modèles de langage : des chercheuses avaient prévenu

Si cette situation peut prêter à sourire, Manoel Horta Ribeiro pointe qu'en plus d'une adoption croissante de ces modèles de langages, les données humaines restent très importantes pour la recherche et que « l'entrainement de modèles sur des données synthétiques peut perpétuer les préjugés et les idéologies ».

Why does this matter? Because
1. human data remains critical in the sciences
2. training models on synthetic data may perpetuate biases and ideologies
3. adoption will only increase as models become popular and better/multimodal pic.twitter.com/klMKmQuncd

— Manoel (@manoelribeiro) June 14, 2023

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

14:41 0

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

14:09 10

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

12:07 3

Chiffrement : WhatsApp menace de quitter l’Inde

11:04 6

Microsoft ouvre les sources de… MS-DOS 4.0

10:02 15

La Paris Games Week reviendra du 23 au 27 octobre 2024

08:04 2

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

06:59 12

Commentaires (16)

spidermoon

Le 16/06/2023 à 18h 04

Chatception Il n’y aura bientôt plus une trace d’intelligence humaine sur les réseaux sociaux, déjà qu’il n’y en a pas beaucoup

stratic Abonné

Le 17/06/2023 à 10h 07

#1.1

Je ne sais pas trop quoi dire sur cet article. ChatGPT en a très bien fait la synthèse, mais il n’a pas été en mesure de me proposer une réaction pertinente

Joeman Abonné

Le 17/06/2023 à 06h 12

Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?

f_p_ Abonné

Le 17/06/2023 à 06h 59

Joeman a dit:

Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?

Parce que cela rajoute, au “signal” humain des rédacteurs de contenus que l’on voudrait étudier, le biais des concepteurs du système (choix des données ayant alimenté le modèle). De fait, le signal n’est plus exploitable en tant que tel.

Il ne s’agit donc pas des mêmes “biais”. Les humains ont des “opinions” et des “préjugés”. On peut éventuellement les appeler “biais” si l’on peut les confronter à des faits scientifiquement prouvés (rotondité de la Terre, inefficacité de l’hydroxychloroquine, etc.). Dans bien d’autre cas, faute de faits, cela reste des “opinions” que l’on veut pouvoir mesurer sans biais ajouté.

Le 17/06/2023 à 07h 53

Je comprends où tu veux en venir, mais ce n’est pas ce que dit le message que je cite: il parle bien de “perpetuate biases”, pas d’ajouter une couche de biais sur des biais existants sur les données source.
Je tiquais sur le fait que le message semble sous entendre que des données non synthétiques seraient mieux du point de vue de perpétuer les biais. Ce qui n’a pas trop de sens pour moi.

127.0.0.1

Le 17/06/2023 à 10h 50

Il y a amplification du biais car, dans un système avec boucle de rétroaction (*), les données inhabituelles ont moins de poids que celles qui font consensus. A chaque génération d’un LLM, leur influence sur le modèle est amoindrie.

(*) les textes/données générées actuellement par les IA sont utilisés dans des publications qui serviront un jour à entrainer les futurs IA. Ce qui crée une boucle.

DantonQ-Robespierre Abonné

Le 17/06/2023 à 14h 59

#5.1

Voilà. Perso cette boucle de rétroaction, je la trouve très inquiétante, sachant qu’à l’heure où l’on se parle, la majorité des gens qui consultent des LLM sont loin d’être des pros de la profession, on a plutôt à faire à des gens certes curieux, ludiques, voire intéressés d’en tirer profit, mais surtout largement influençables.

Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?

Le danger de ces algorithmes, c’est que c’est comme des écrans sur lesquels on peut projeter absolument tout et n’importe quoi, il suffit de se balader sur YT ou autre pour trouver des déclarations intempestives sur cette prétendue “AI” qui relèvent plus de la croyance / spéculation hasardeuse / théorie du complot que d’un réel apport sérieux et argumenté au débat de société sur le sujet.

En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…

SebGF Abonné

Le 17/06/2023 à 15h 42

(quote:2138699antonQ-Robespierre)
Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?
(…)
En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…

Ca ne s’applique pas qu’aux outils basés sur l’IA, l’esprit critique est une chose qui doit être développée et appliquée pour tout. C’est sur ça qu’il faut développer comme compétence. Et j’ai vraiment des doutes que ça le soit vraiment…

A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia comme une source d’info mais comme une base de recherche. L’esprit critique ça se développe et ça s’applique pour tout.

Mais bon, quand je vois que le moindre message avec une photo sortie de son contexte engendre de la désinformation sur les machins sociaux, je pense que je prêche dans le désert.

Le 17/06/2023 à 16h 29

#6.1

C’est censé être aussi le rôle de l’enseignement, malheureusement les enseignants aujourd’hui subissent toutes sortes de pressions parentales et sociétales d’un autre âge, il devient bien difficile aujourd’hui de délivrer un enseignement réellement pluraliste et inclusif, factuel, invitant à la réflexion individuelle, à la créativité, à la curiosité…

On n’en parle pas assez mais cette pression à bas bruit - qui peut devenir carrément violente, ex. : l’assassinat de Samuel Patti - de l’extrême droite et des milieux plus ou moins religieux / intégristes / fascistes sur l’enseignement joue un grand rôle dans le manque de discernement de certains jeunes qui n’ont pas eu la chance de grandir dans un environnement social favorable à l’ouverture, à la créativité et à la diversité.

fofo9012 Abonné

Le 18/06/2023 à 09h 59

SebGF a dit:

A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia

Google et Wikipedia n’existaient pas encore début 2000 :) (enfin google en beta si mais ça n’avait pas encore réellement traversé l’atlantique)

Le 18/06/2023 à 10h 38

#7.1

Début années 2000, il manquait un mot en effet.

ronki Abonné

Le 18/06/2023 à 11h 52

J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?

Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer (plus d’homme infirmier ou femme dev dans les deux exemples ). J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir. Du coup un biais ce serait totalement arbitraire et subjectif et c’est là que les ennuis commencent à mon sens

Le 18/06/2023 à 13h 56

#8.1

Je pense que dans le débat on oublie que les modèles représentent ce avec quoi ils ont été entraînés et, d’un certain point de vue, la “réalité” de ce modèle d’entraînement. Or, cette “réalité” peut heurter des convictions ou une vision plus idéalisée.

Je disais sur ce précédent article, les modèles sont limités à ce qu’on leur a donné à manger.

Quand on utilise les LLM, on apprend justement qu’il ne faut pas utiliser leurs connaissances comme source d’info (ce ne sont pas des moteurs de recherche), mais comme critères à leur donner pour produire le résultat. Sinon par défaut, oui, ça va recracher bêtement ce que ça a appris. Comme un humain en somme.

Mais j’ai toujours l’impression que peu de monde au final a vraiment testé ces outils. Le prompt pour un LLM ce n’est rien de plus qu’un cahier des charges. Plus celui-ci est vague, plus il restera dans sa “zone de confort”, influencée elle-même par le poids donné au prompt (paramétrage pour le rendre plus ou moins imaginatif). Par contre si le cahier des charges est précis avec des critères et une pondération qui vont avec, il produira quelque chose allant dans le sens de la demande (moyennant évidemment ses capacités, la mise en scène ou l’interaction entre personnages est encore peu efficace sur StableDiffusion, même si les nouvelles versions comprennent mieux ces points).

Le 19/06/2023 à 06h 36

ronki a dit:

Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer.

Si ces IA balancent des femmes infirmières et des hommes ingénieurs c’est que les bases d’images (getty, shutterstock…) ayant servi pour l’entrainement sont bourrées de clichés stéréotypés. L’IA apprend ces stéréotypes. Et c’est bien un stéréotype, je fais de l’informatique, j’ai toujours eu entre 30 et 50% de femmes, si tu vas à l’hosto tu vas croiser des infirmiers (certes peut-être moins nombreuses que les infirmières mais ils sont bien là).
Bref le biais est déjà là, et si on fait appel à des humains, c’est pour qu’ils donnent leur avis, le fait d’utiliser une IA pour répondre à une IA va amplifier le biais.
Un réseau neuronal est “simplement” une grosse équation avec des ratios de probabilités, donc si une IA biaisée fait la leçon à une autre IA la nouvelle risque d’apprendre encore plus ce biais.

Wosgien Abonné

Le 19/06/2023 à 10h 16

#10

ronki a dit:

J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?
J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir.

Je m’interroge aussi, je pense qu’on parle de biais quand cela bloque la représentation d’un possible.

Un autre: pour illustrer un challenge mathématique, j’ai demandé de faire représenter un combat entre une fille et un garçon à l’aide de calculettes.
-> Les IA semblent ne PAS pouvoir sortir d’image de combat entre une fille et un garçon. En demandant des images d’affrontements de ce genre, je me retrouve avec des couples heureux.

-> je m’interroge sur ces filtres sensés nous protéger (ou plutôt “censés”)

Erwan123 Abonné

Le 19/06/2023 à 11h 39

#11

Ca y est, on y est enfin !!

James Cameron, quel visionnaire !!

Des machines qui conçoivent et créent d’autres machines… Terminator

Autrement illustré par un vieux proverbe Français:

“Le serpent qui se mange la queue”

Le futur: fascinant & terrifiant

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

Artificial Artificial Artificial Intelligence

Qui a écrit les résumés de texte ?

Alerte sur tous les contenus pouvant être générés via LLM

Automatisation du « Turc mécanique »

Tiens, en parlant de ça :

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

noyb vs OpenAI, S01E01

Android TV laisse installer Chrome et accéder aux données du compte Google

Une mise à jour ? Quelle mise à jour ?

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Sommaire de l'article

Introduction

Qui a écrit les résumés de texte ?

Alerte sur tous les contenus pouvant être générés via LLM

Automatisation du « Turc mécanique »

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

Android TV laisse installer Chrome et accéder aux données du compte Google

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

Chiffrement : WhatsApp menace de quitter l’Inde

Microsoft ouvre les sources de… MS-DOS 4.0

La Paris Games Week reviendra du 23 au 27 octobre 2024

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

Commentaires (16)