La délicate question du sous-traitement des données d’entraînement de l’IA

Les algorithmes de machine learning ont besoin d'être entraînés sur des masses de données pour espérer être efficaces. Peu valorisée dans la chaîne de production du numérique, cette tâche est sous-traitée. Deux sociologues ont enquêté sur le fonctionnement de trois plateformes et d’une entreprise de sous-traitance sud-américaines qui s'occupent de rassembler des données créées par des humains au prix de la précarité des travailleurs, et d'une sélection reproduisant la vision du monde de leur clients.

Pour rendre les algorithmes de machine learning efficaces, les ingénieurs et chercheurs doivent d'abord les entraîner sur des masses de données très importantes, qui doivent être récoltées et documentées de manière fastidieuse. Cette tâche est essentielle mais elle est souvent sous-traitée, comme l'explique notamment le sociologue Antonio Casilli.

Et ceux qui travaillent pour les entreprises de sous-traitances sont souvent indépendants et payés quelques centimes de dollars la tâche. Cette étude qui n’est pas sans en rappeler une autre sur les plateformes et notamment « celles et ceux qui travaillent de l'autre côté des écrans et dont on ignore trop souvent l'existence ». Cela avait donné lieu à un documentaire sur France TV.

Ce mois-ci, deux autres sociologues, la chercheuse de l'Université technique de Berlin Milagros Miceli et Julian Posada de l'Université de Yale, publient un article (PDF) dans la revue scientifique Proceedings of the ACM on Human-Computer Interaction relatant leur enquête à propos de trois plateformes de crowdsourcing situées au Venezuela (Tasksource, Workerhub et Clickrating) et l'entreprise de sous-traitance argentine Alamo.

Dans leur introduction, les chercheurs qui ont interrogé de nombreux « data workers », expliquent que « leurs missions consistent généralement à interpréter et à classer des données, et leurs pratiques professionnelles impliquent des choix sociaux et techniques subjectifs qui influencent la production de données et ont des implications éthiques et politiques ».

Après avoir consulté 210 documents d'instructions adressés à ce qu'ils appellent des « data workers » pour encadrer leur travail et mené, entre mai 2019 et juin 2021, 55 entretiens avec certains d'entre-eux. Ils se sont aussi entretenus avec des managers, des clients de ces sociétés et des gens qui travaillent dans le milieu. Les deux chercheurs en concluent que les clients utilisent les instructions de travail pour imposer un formatage prédéfini des interprétations des données. « Le contexte de pauvreté et de dépendance en Amérique latine ne laisse d'autre choix aux travailleurs que d'obéir », expliquent-ils dans leur conclusion.

Des sous-traitants peu connus des utilisateurs finaux

Des quatre acteurs observés par les chercheurs, Alamo est un peu particulier parce que cette entreprise est un sous-traitant assumé des entreprises et institutions qui travaillent dans l'intelligence artificielle, et non une plateforme où les travailleurs viennent se connecter par eux-mêmes sans lien direct avec elle, comme les trois autres.

Alamo fait même partie de ce qu'on appelle les « impact sourcing », des entreprises de sous-traitance « socialement responsables ». Elle emploie 400 jeunes travailleurs qui vivent dans les bidonvilles de Buenos Aires et leur verse le salaire minimal argentin (1,70 dollar par heure en 2019) , « ce qui contraste beaucoup avec le modèle très répandu des plateformes qui payent à la tâche » explique Milagros et Posada.

C'est cet autre modèle qu'ont suivi Tasksource, Workerhub et Clickrating. Les chercheurs précisent que les plateformes de ce genre ont prospéré dans l'économie vénézuélienne à cause de l'inflation. Tous les travailleurs qu'ils ont interrogés ont expliqué qu'ils travaillaient sur ces sites à cause de la situation du pays.

Ce système leur permet de ne pas dépendre de la valeur du bolivar en touchant des dollars américains. Selon les chercheurs, ces « data workers » gagnent entre 10 et 60 dollars par semaine (avec une moyenne de 20 dollars), ce qui est substantiellement plus haut que le salaire minimum au Venezuela (1 dollar par mois en 2021).

De micro tâches qui demandent beaucoup

Pour ces quelques dollars, les « data workers » doivent remplir des tâches du genre :

« Vous allez avoir deux listes de huit suggestions de recherche. Votre tâche est d'indiquer quelle liste de suggestions est la meilleure » ;
en tant qu'assistant « l'utilisateur va initier la conversation... vous devez utiliser des faits pour répondre aux questions de l'utilisateur » ;
« en fonction du texte de chaque tâche, sélectionnez une de ces trois options : explicitement sexuel, suggestif, non-sexuel » ;
l'estimation de l'âge d'une personne sur une photo ;
« vous pouvez gagner 2,5 dollars en complétant la tâche « portez-vous des lunettes ? » Téléchargez une image d'un document avec les valeurs de votre prescription maintenant ».

Selon Milagros et Posada, ces tâches servent quatre buts principaux : renforcer l'imitation de l'humain par la machine, l'évaluation des résultats sortis des algorithmes, la classification des données en leur attribuant des labels prédéfinis et la collecte directe de données.

« Tu dois penser comme une machine pas comme un humain »

Le but d'effectuer ces tâches, au départ, est d'entraîner les algorithmes à faire des choix qui se rapprochent le plus possible des humains. Mais Milagros et Posada soulignent qu' « ironiquement, alors même que [Tasksource] employait des travailleurs pour aider à former des agents artificiels, ils étaient censés se comporter comme des "robots" ».

Les chercheurs montrent que les instructions données aux « data workers » les poussent à être le plus près possible des attentes de leurs clients et à penser de la même façon qu'eux, peu importe la taille de l'entreprise, et non à répondre en tant qu'humain.

Un analyste d'Alamo leur indique, par exemple, que « les informations du client parviennent généralement d'abord au chef d'équipe ou au chef de projet et, à ce moment-là, nous organisons une réunion d'alignement des critères...
[...] L'équipe se réunit pour avoir la même cible et vérifier que nous pensons tous de la même manière ».

Dans leur article, les chercheurs expliquent que le respect du point de vue du client est explicitement noté dans les documents d'instructions sous la forme d'avertissements pour les travailleurs.

Mais c'est encore plus clair dans le témoignage qu'ils ont recueilli d'une personne qui travaille sur la plateforme TaskForce, Cécilia :

« Quand vous commencez, ils vous disent "pour réussir dans ce boulot, tu dois penser comme une machine et pas comme un humain". Après ils vous expliquent pourquoi. Par exemple, vous apprenez à une voiture [autonome] comment elle doit se comporter.

Quand vous partitionnez une image, s'il y a une voiture de police, et que vous l'étiquetez comme une voiture normale et, s'il y a un accident, quelque chose de terrible peut arriver. L'erreur n'était pas celle de la voiture qui a eu un accident avec un véhicule de police mais la vôtre, en tant que "tasker", en tant que travailleur, d'avoir appris à la voiture à se comporter comme ça ».

Et les chercheurs insistent sur le fait que l'utilisation du modèle des plateformes pousse les travailleurs à être d'autant plus obéissants aux instructions. Un autre travailleur de TaskForce leur confie : « C'est pour ça que je n'aime pas beaucoup les plateformes. Parce qu'ils nous donnent des instructions et nous devons les suivre. Et il y a beaucoup de cas dans lesquels, si tu ne finis pas la tâche à la perfection, de leur point de vue et en suivant ce qu'ils pensent être bon, ils te virent. Comme ça, même si tu as suivi les instructions parfaitement ».

Des améliorations possibles

Pour Milagros et Posada, pour arrêter l'aliénation des « data workers », la rendre visible n'est pas suffisant, « cela nécessite surtout que le reste de la chaîne de l'apprentissage automatique leur soit visible. C'est à dire informer et former sur les questions techniques et linguistiques qui pourraient aider les travailleurs à comprendre comment leur précieux travail alimente une industrie de plusieurs milliards de dollars ». Les chercheurs pointent aussi que « l'une des préoccupations éthiques et humanitaires les plus urgentes concernant le travail de données externalisé est la qualité de vie des travailleurs ».

Les auteurs de l'étude ciblent enfin le fait que les retours des « data workers » pourraient être pris en compte : pour l'instant, « même si les retours pourraient être intéressants pour les clients, le dispositif de production de données est fait de telle sorte que les voix des travailleurs ne sont pas écoutées ».

Commentaires (6)

marba

Le 17/11/2022 à 11h 18

Merci pour cet article de qualité

Ils devraient faire une IA pour automatiser le process d’entrainement des IA

misocard

Le 17/11/2022 à 14h 04

#1.1

Je crois que c’est l’idée derrière le principe du gan

Humble Abonné

Le 17/11/2022 à 12h 32

Je pensais que les “automates turques” étaient de l’histoire ancienne, merci de l’info.
Vu la description des besoins, on ne va pas s’en passer de suite.
Explication

Thomas Desvenain Abonné

Le 17/11/2022 à 14h 49

les chercheurs mentionnés ont fait un rapport qui tentent d’évaluer le micro travail et les micro travailleurs de l’IA en france, à lire…

MisterDams Abonné

Le 17/11/2022 à 20h 32

misocard a dit:

Je crois que c’est l’idée derrière le principe du gan

Même pour un GaN, il faut que celui que le discriminant dispose d’un modèle de référence, donc un entraînement préalable via des données documentées.

cthoumieux Abonné

Le 18/11/2022 à 06h 28

Merci pour cette article qui montre une facette de ce qui se cache derrière l IA
Hormis le fait que des big compagnies exploitent des pauvres dans des pays en difficulté , ce qui est helas classique et a toujours exister… la question qui est intéressante est comment faire pour ne pas introduire un biais.
Si on demande a des gens de le faire volontairement la bêtise humaine va créer des pb (cf le cas d’une ia devenu raciste)
Si on paye des gens pour le faire ils feront ce que celui qui paye veut (et c’est normal ils sont payés pour cela)
Bref c compliqué

La délicate question du sous-traitement des données d’entraînement de l’IA

Digital labor

Des sous-traitants peu connus des utilisateurs finaux

De micro tâches qui demandent beaucoup

« Tu dois penser comme une machine pas comme un humain »

Des améliorations possibles

Tiens, en parlant de ça :

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Qui donnera du grain avarié à moudre aux nouvelles IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Artificial Ideology

Sommaire de l'article

Introduction

Des sous-traitants peu connus des utilisateurs finaux

De micro tâches qui demandent beaucoup

« Tu dois penser comme une machine pas comme un humain »

Des améliorations possibles

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Aux États-Unis, Threads sur le point de dépasser X (Twitter)

Snapdragon X : Qualcomm tricherait dans ses benchmarks

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

Ubuntu 24.04 LTS disponible en version finale

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

Commentaires (6)