Quand chatGPT est utilisé par les « crowd workers » pour entraîner d'autres modèles de langage

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

Artificial Artificial Artificial Intelligence

Avatar de l'auteur
Martin Clavey

Publié dans

Société numérique

16/06/2023 6 minutes
16

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d'autres modèles de langage

Les « crowd workers », qui créent les masses de données d'entraînement des algorithmes de deep learning, utilisent eux-mêmes massivement les grands modèles de langage. Ce cercle vicieux en cours de formation risque d'amplifier les biais déjà en germe dans les modèles existants.

« L'une de nos principales sources de données humaines n'est plus entièrement "humaine" ! », résume sur Twitter Manoel Horta Ribeiro, chercheur à l'École polytechnique fédérale de Lausanne (EPFL).

Dans un article mis en ligne [PDF] sur la plateforme de preprints arXiv et cosigné avec ses collègues Veniamin Veselovsky et Robert West, il affirme qu'une large partie des « crowd workers » utilisent des grands modèles de langage pour accomplir leurs tâches. Ces personnes, payées souvent à la tâche pour créer les amas de données qui serviront ensuite à entraîner les algorithmes de deep learning, proposent leurs services sur la plateforme Mechanical Turk d'Amazon.

Qui a écrit les résumés de texte ?

Pour tester l'utilisation de ces grands modèles de langage par les « crowd workers » d'Amazon Mechanical Turk, ces trois chercheurs ont repris une expérience datant de 2019 issue de leurs anciennes recherches et qui étudiait comment l'information est perdue quand des humains résument un texte. Celle-ci demandait aux « crowd workers » de résumer les « abstracts » (la première partie résumant déjà l'article scientifique en question). Ils devaient produire huit textes de plus en plus court.

Cette fois, ils ont reproduit la même expérience, mais en demandant un seul résumé (et non huit) :

Tache MTurk Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)

En plus du résumé envoyé par les « crowd workers », les chercheurs ont intégré un code JavaScript dans le formulaire. Il récupère les actions effectuées pendant qu'ils effectuent la tâche, incluant les copiés-collés (par le menu ou par les raccourcis clavier).

Ils ont ensuite utilisé un modèle pré-entraîné (E5-base-v2), renforcé avec les données de l'étude de 2019 et des textes générés avec ChatGPT par eux-mêmes, pour créer un détecteur de textes générés par ChatGPT. Les données récupérées par le code JavaScript leur ont permis de confirmer la validité de ce détecteur (il est probable qu'un texte copié-collé ait été généré via un grand modèle de langage et inversement).

Modèle MTurk Crédits : Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West (EPFL)

Dans leur étude (encore en cours), leur modèle détecte pour l'instant entre 33 et 46 % de résumés utilisant ChatGPT. L'article ne prend pour l'instant en compte que 46 résumés, mais les chercheurs expliquent qu'ils continuent à en récolter et mettront à jour le preprint au fur et à mesure.

S'il faut donc rester très prudent sur la part réelle d'utilisation de ChatGPT (et autres chatbots du même type) par les « crowd workers », il n'en reste pas moins que ce travail montre qu'une partie non négligeable des données censées provenir d'humains est, de fait, créée à partir de grands modèles de langage.

Alerte sur tous les contenus pouvant être générés via LLM

Les chercheurs alertent dans leur article que, « bien que notre étude porte spécifiquement sur une tache de résumé de texte, nous avertissons que toute tâche de production de texte dont les instructions peuvent être facilement transmises à un LLM par un prompt [la ligne de commande, par exemple une question posée à poser à chatGPT, ndlr] est susceptible d'être touchée de la même manière. »

Et même, ils considèrent que cette alerte devrait être généralisée à toute sorte de contenus : « les LLM deviennent de plus en plus populaires et les modèles multimodaux, supportant non seulement le texte, mais aussi les entrées et sorties d'images et de vidéos, sont de plus en plus nombreux. Nos résultats devraient donc être considérés comme le "canari dans la mine de charbon" qui devrait pousser les plateformes, les chercheurs et les « crowd workers » à trouver de nouveaux moyens de s'assurer que les données humaines restent humaines ».

En réaction à la lecture de cet article, la chercheuse Vered Shwartz de l'Université de Colombie-Britannique (au Canada) confirme avoir été récemment confrontée au problème : « Cela semble cohérent avec mon expérience récente. Nous avons dû vérifier manuellement le texte écrit par les annotateurs et filtrer une bonne partie du texte qui semblait avoir été générée par LM [modèle de langage, ndlr]. De plus, les annotations pour les tâches de vérification/classement comportaient tellement de bruits que nous avons décidé de ne pas les faire en utilisant Mechanical Turk ». 

Automatisation du « Turc mécanique »

Conceptuellement, ce constat est un peu vertigineux. Amazon a nommé sa plateforme « Mechanical Turk » (« Turc mécanique », en français) en reprenant le nom du célèbre canular que Johann Wolfgang von Kempelen avait monté au XVIIIe siècle. Il s'agissait d'un automate censé être capable de jouer aux échecs. Il était en fait manipulé par un joueur humain caché dans son mécanisme.

La plateforme a donc repris le concept pour proposer une plateforme de microtravail, afin de souligner que les tâches sont réalisées par des humains. Mais maintenant, nous ne pouvons que constater que le « Turc mécanique » est aussi alimenté par des contenus créés par des machines imitant des humains.

Les auteurs de l'étude l'ont aussi constaté, entamant leur article d'un ironique « Artificial Artificial Artificial Intelligence ».

Si cette situation peut prêter à sourire, Manoel Horta Ribeiro pointe qu'en plus d'une adoption croissante de ces modèles de langages, les données humaines restent très importantes pour la recherche et que « l'entrainement de modèles sur des données synthétiques peut perpétuer les préjugés et les idéologies ».

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Qui a écrit les résumés de texte ?

Alerte sur tous les contenus pouvant être générés via LLM

Automatisation du « Turc mécanique »

Fermer

Commentaires (16)


Chatception :D Il n’y aura bientôt plus une trace d’intelligence humaine sur les réseaux sociaux, déjà qu’il n’y en a pas beaucoup :transpi:


Je ne sais pas trop quoi dire sur cet article. ChatGPT en a très bien fait la synthèse, mais il n’a pas été en mesure de me proposer une réaction pertinente :keskidit:


Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?



Joeman a dit:


Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?




Parce que cela rajoute, au “signal” humain des rédacteurs de contenus que l’on voudrait étudier, le biais des concepteurs du système (choix des données ayant alimenté le modèle). De fait, le signal n’est plus exploitable en tant que tel.



Il ne s’agit donc pas des mêmes “biais”. Les humains ont des “opinions” et des “préjugés”. On peut éventuellement les appeler “biais” si l’on peut les confronter à des faits scientifiquement prouvés (rotondité de la Terre, inefficacité de l’hydroxychloroquine, etc.). Dans bien d’autre cas, faute de faits, cela reste des “opinions” que l’on veut pouvoir mesurer sans biais ajouté.


Je comprends où tu veux en venir, mais ce n’est pas ce que dit le message que je cite: il parle bien de “perpetuate biases”, pas d’ajouter une couche de biais sur des biais existants sur les données source.
Je tiquais sur le fait que le message semble sous entendre que des données non synthétiques seraient mieux du point de vue de perpétuer les biais. Ce qui n’a pas trop de sens pour moi.



Joeman a dit:


Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?




Il y a amplification du biais car, dans un système avec boucle de rétroaction (*), les données inhabituelles ont moins de poids que celles qui font consensus. A chaque génération d’un LLM, leur influence sur le modèle est amoindrie.



(*) les textes/données générées actuellement par les IA sont utilisés dans des publications qui serviront un jour à entrainer les futurs IA. Ce qui crée une boucle.


Voilà. Perso cette boucle de rétroaction, je la trouve très inquiétante, sachant qu’à l’heure où l’on se parle, la majorité des gens qui consultent des LLM sont loin d’être des pros de la profession, on a plutôt à faire à des gens certes curieux, ludiques, voire intéressés d’en tirer profit, mais surtout largement influençables.



Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?



Le danger de ces algorithmes, c’est que c’est comme des écrans sur lesquels on peut projeter absolument tout et n’importe quoi, il suffit de se balader sur YT ou autre pour trouver des déclarations intempestives sur cette prétendue “AI” qui relèvent plus de la croyance / spéculation hasardeuse / théorie du complot que d’un réel apport sérieux et argumenté au débat de société sur le sujet.



En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…



(quote:2138699:DantonQ-Robespierre)
Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?
(…)
En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…




Ca ne s’applique pas qu’aux outils basés sur l’IA, l’esprit critique est une chose qui doit être développée et appliquée pour tout. C’est sur ça qu’il faut développer comme compétence. Et j’ai vraiment des doutes que ça le soit vraiment…



A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia comme une source d’info mais comme une base de recherche. L’esprit critique ça se développe et ça s’applique pour tout.



Mais bon, quand je vois que le moindre message avec une photo sortie de son contexte engendre de la désinformation sur les machins sociaux, je pense que je prêche dans le désert.


C’est censé être aussi le rôle de l’enseignement, malheureusement les enseignants aujourd’hui subissent toutes sortes de pressions parentales et sociétales d’un autre âge, il devient bien difficile aujourd’hui de délivrer un enseignement réellement pluraliste et inclusif, factuel, invitant à la réflexion individuelle, à la créativité, à la curiosité…



On n’en parle pas assez mais cette pression à bas bruit - qui peut devenir carrément violente, ex. : l’assassinat de Samuel Patti - de l’extrême droite et des milieux plus ou moins religieux / intégristes / fascistes sur l’enseignement joue un grand rôle dans le manque de discernement de certains jeunes qui n’ont pas eu la chance de grandir dans un environnement social favorable à l’ouverture, à la créativité et à la diversité.



SebGF a dit:


A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia




Google et Wikipedia n’existaient pas encore début 2000 :) (enfin google en beta si mais ça n’avait pas encore réellement traversé l’atlantique)


Début années 2000, il manquait un mot en effet.


J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?



Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer (plus d’homme infirmier ou femme dev dans les deux exemples ). J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir. Du coup un biais ce serait totalement arbitraire et subjectif et c’est là que les ennuis commencent à mon sens


Je pense que dans le débat on oublie que les modèles représentent ce avec quoi ils ont été entraînés et, d’un certain point de vue, la “réalité” de ce modèle d’entraînement. Or, cette “réalité” peut heurter des convictions ou une vision plus idéalisée.



Je disais sur ce précédent article, les modèles sont limités à ce qu’on leur a donné à manger.



Quand on utilise les LLM, on apprend justement qu’il ne faut pas utiliser leurs connaissances comme source d’info (ce ne sont pas des moteurs de recherche), mais comme critères à leur donner pour produire le résultat. Sinon par défaut, oui, ça va recracher bêtement ce que ça a appris. Comme un humain en somme.



Mais j’ai toujours l’impression que peu de monde au final a vraiment testé ces outils. Le prompt pour un LLM ce n’est rien de plus qu’un cahier des charges. Plus celui-ci est vague, plus il restera dans sa “zone de confort”, influencée elle-même par le poids donné au prompt (paramétrage pour le rendre plus ou moins imaginatif). Par contre si le cahier des charges est précis avec des critères et une pondération qui vont avec, il produira quelque chose allant dans le sens de la demande (moyennant évidemment ses capacités, la mise en scène ou l’interaction entre personnages est encore peu efficace sur StableDiffusion, même si les nouvelles versions comprennent mieux ces points).



ronki a dit:


Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer.




Si ces IA balancent des femmes infirmières et des hommes ingénieurs c’est que les bases d’images (getty, shutterstock…) ayant servi pour l’entrainement sont bourrées de clichés stéréotypés. L’IA apprend ces stéréotypes. Et c’est bien un stéréotype, je fais de l’informatique, j’ai toujours eu entre 30 et 50% de femmes, si tu vas à l’hosto tu vas croiser des infirmiers (certes peut-être moins nombreuses que les infirmières mais ils sont bien là).
Bref le biais est déjà là, et si on fait appel à des humains, c’est pour qu’ils donnent leur avis, le fait d’utiliser une IA pour répondre à une IA va amplifier le biais.
Un réseau neuronal est “simplement” une grosse équation avec des ratios de probabilités, donc si une IA biaisée fait la leçon à une autre IA la nouvelle risque d’apprendre encore plus ce biais.



ronki a dit:


J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?
J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir.




Je m’interroge aussi, je pense qu’on parle de biais quand cela bloque la représentation d’un possible.



Un autre: pour illustrer un challenge mathématique, j’ai demandé de faire représenter un combat entre une fille et un garçon à l’aide de calculettes.
-> Les IA semblent ne PAS pouvoir sortir d’image de combat entre une fille et un garçon. En demandant des images d’affrontements de ce genre, je me retrouve avec des couples heureux.



-> je m’interroge sur ces filtres sensés nous protéger (ou plutôt “censés”)


Ca y est, on y est enfin !!



James Cameron, quel visionnaire !! :bravo:



Des machines qui conçoivent et créent d’autres machines… Terminator



Autrement illustré par un vieux proverbe Français:



“Le serpent qui se mange la queue”



Le futur: fascinant & terrifiant :eeek2: