La délicate question du sous-traitement des données d'entraînement de l'IA

Digital labor
Tech 2 min
La délicate question du sous-traitement des données d'entraînement de l'IA
Crédits : Milagros Miceli, Julian Posada

Les algorithmes de machine learning ont besoin d'être entraînés sur des masses de données pour espérer être efficaces. Peu valorisée dans la chaîne de production du numérique, cette tâche est sous-traitée. Deux sociologues ont enquêté sur le fonctionnement de trois plateformes et d’une entreprise de sous-traitance sud-américaines qui s'occupent de rassembler des données créées par des humains au prix de la précarité des travailleurs, et d'une sélection reproduisant la vision du monde de leur clients.

Pour rendre les algorithmes de machine learning efficaces, les ingénieurs et chercheurs doivent d'abord les entraîner sur des masses de données très importantes, qui doivent être récoltées et documentées de manière fastidieuse. Cette tâche est essentielle mais elle est souvent sous-traitée, comme l'explique notamment le sociologue Antonio Casilli.

Et ceux qui travaillent pour les entreprises de sous-traitances sont souvent indépendants et payés quelques centimes de dollars la tâche. Cette étude qui n’est pas sans en rappeler une autre sur les plateformes et notamment « celles et ceux qui travaillent de l'autre côté des écrans et dont on ignore trop souvent l'existence ». Cela avait donné lieu à un documentaire sur France TV.

Ce mois-ci, deux autres sociologues, la chercheuse de l'Université technique de Berlin Milagros Miceli et Julian Posada de l'Université de Yale, publient un article (PDF) dans la revue scientifique Proceedings of the ACM on Human-Computer Interaction relatant leur enquête à propos de trois plateformes de crowdsourcing situées au Venezuela (Tasksource, Workerhub et Clickrating) et l'entreprise de sous-traitance argentine Alamo.

Dans leur introduction, les chercheurs qui ont interrogé de nombreux « data workers », expliquent que « leurs missions consistent généralement à interpréter et à classer des données, et leurs pratiques professionnelles impliquent des choix sociaux et techniques subjectifs qui influencent la production de données et ont des implications éthiques et politiques ».

Après avoir consulté 210 documents d'instructions adressés à ce qu'ils appellent des « data workers » pour encadrer leur travail et mené, entre mai 2019 et juin 2021, 55 entretiens avec certains d'entre-eux. Ils se sont aussi  entretenus avec des managers, des clients de ces sociétés et des gens qui travaillent dans le milieu. Les deux chercheurs en concluent que les clients utilisent les instructions de travail pour imposer un formatage prédéfini des interprétations des données. « Le contexte de pauvreté et de dépendance en Amérique latine ne laisse d'autre choix aux travailleurs que d'obéir », expliquent-ils dans leur conclusion.

Des sous-traitants peu connus des utilisateurs finaux

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !