OpenAI lance son web crawler, RSF appelle les médias à le bloquer

GPT crawle Internet
Droit 4 min
OpenAI lance son web crawler, RSF appelle les médias à le bloquer
Crédits : Arisa Chatasa/Unsplash

Avec GPTBot, OpenAI lance un web crawler dédié à récupérer des données « depuis tout Internet », quand bien même les plaintes pour infraction à la vie privée et au droit d'auteur se multiplient contre les différents LLM déployés sur le marché.

Le 8 août, OpenAI a annoncé le lancement de GPTBot, un crawler dédié à « récupérer automatiquement des données depuis tout Internet ». Ce type de données, explique l’entreprise, doit servir à entraîner ses nouveaux modèles génératifs, « comme GPT-4 et GPT-5 ».

En réaction, l’association Reporters Sans Frontières (RSF) a rapidement invité « tous les médias à configurer leurs sites pour éviter qu’OpenAI ne récupère leur contenu gratuitement ».

La documentation d'OpenAI prévoit l'exclusion de GPTBot

L’entreprise a indiqué dans sa documentation qu’il était possible de bloquer GPTBot, que ce soit via le protocole d’exclusion des robots (robots.txt) ou en bloquant son adresse IP.

OpenAI précise tout de même que, pour les sources qui ne présentent aucun accès soumis à paywall, ne fournissent pas d’ « informations personnelles identifiables » ou de textes allant à l’encontre des politiques de l'entreprise, « permettre à GPTBot d’accéder à votre site permet aux modèles d’IA de devenir plus précis et d’améliorer leurs capacités générales et leur sécurité ».

Elle fournit donc aussi des explications sur la manière de permettre à GPTBot de ne scraper qu'une partie d'un site web. Bloquer GPTBot ne permet pas de supprimer rétroactivement du contenu qui aurait déjà été récupéré et utilisé pour entraîner les versions existantes de ChatGPT.

... mais il s'agit de scraper alors qu'OpenAI est attaqué

L'annonce du lancement du crawler se fait dans un contexte particulier : de multiples plaintes ont été déposées contre différents constructeurs de grands modèles de langages, aussi bien pour infraction au droit d’auteur que de violation de la vie privée. OpenAI, qui a déjà été bloqué par l’Italie pour des questions de données personnelles avant d’être réaccepté, est ainsi visé par un recours collectif en Californie pour l’usage qu’il fait des données personnelles, et est aussi attaqué, de concert avec Meta, pour plagiat

Mouvement général de protection des contenus

Reporters Sans Frontières ne cache donc pas la nécessité, pour qui souhaiterait protéger sa production, d'utiliser l'outil fourni par OpenAI pour bloquer son crawler. Il ne s'agit pas de la première tentative de soustraction des contenus numériques de l'entraînement de modèles d'apprentissage machine, souligne The Verge : en 2022, un site comme DeviantArt avait mis au point sa propre tentative en créant un tag « NoAI ».

Plus récemment, des réseaux sociaux comme Twitter ou Reddit ont pris le parti de rendre payant l’accès à leurs API pour tirer profit des activités d’entraînement des constructeurs d’intelligences artificielles. Preuve que le sujet est complexe : ces décisions ont pu se faire au détriment des scientifiques, voire des utilisateurs.

D'autres ont choisi une autre option, comme l'agence américaine Associated Press, qui a passé un accord avec OpenAI lui permettant de se servir de ses archives. Pour les éditeurs qui accepteraient le passage GPTBot sur leurs sites web, en revanche, OpenAI ne semble pas avoir prévu de contrepartie aux données récupérées.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !