Vie privée et propriété intellectuelle bousculées dans les jeux d’entrainement des IA générativesCrédits : Ryzhi/iStock

Pour mieux comprendre quels types de données servent à entraîner de grands modèles de langage (LLM), le Washington Post a entrepris de décortiquer le jeu de données C4 de Google, avec l’aide des chercheurs du Allen Institute for AI et de la société Similarweb.

Ce jeu a notamment servi à entraîner les modèles d’IA générative T5 de Google et LLaMA de Facebook.

Constitué à 16 % de contenus tirés de sites industriels et business, à 15 % de contenu technologique et à 5 % de textes tirés de « communautés », l’objet donne une « photographie monumentale » de la production des quelque 15 millions de sites web récupérés pour entraîner des modèles d’IA, écrit le quotidien américain.

Les trois sites les plus utilisés pour produire l’immense somme de données sont la bibliothèque de brevets patent.google.com, l’encyclopédie Wikipédia et la bibliothèque numérique Scribd, uniquement accessible sur abonnement.

À la 190e place, encore assez haut dans la liste des sites recensés, le Washington Post note la présence de b-ok.org, un site connu pour avoir fait circuler des e-books piratés (et saisi par la justice américaine depuis la constitution de C4).

Au moins deux des 100 premiers pourvoyeurs de contenus soulèvent des problématiques de vie privée : coloradovoters.com et flvoters.com contiennent des copies des bases de données d’inscription de leurs électeurs, informations publiques, mais sensibles. Une fois entrées dans la base d’entraînement, leur usage est inconnu.

L’analyse suggère aussi une série de débats sur les droits d’auteur, dans la mesure où le Washington Post a relevé plus de 200 millions d’apparitions du symbole « copyright », suggérant que les travaux concernés sont soumis à la propriété intellectuelle, et recensé de nombreux noms de médias, alors que ceux-ci critiquent l’utilisation non concertée de leur production.

Le jeu embarque aussi les publications de plusieurs sites notés très bas sur l’indice de confiance des médias de la société indépendante NewsGuard, ainsi que plusieurs vecteurs notoires de publications d’extrême-droite.

Ces derniers éléments pourraient expliquer pourquoi des modèles à la ChatGPT fournissent quelques fois de la désinformation et/ou des productions discriminantes ou de la propagande de manière très assurée.

Parmi les sites dédiés à des communautés précises, le Washington Post relève une surreprésentation de sites religieux, notamment chrétiens, partageant parfois des visions très conservatrices du monde. Le Washington Post note aussi un fort biais occidental dans ces contenus.

Enfin, plus d’un demi-million de blogs personnels ont été retrouvés dans le jeu de données.  

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !