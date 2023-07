Vendredi, Sarah Silverman, Christopher Golden et Richard Kadrey ont déposé deux plaintes auprès de la justice américaine contre OpenAI et Meta, explique ArsTechnica. Ils les accusent d'avoir entrainé de façon illégale leurs modèles de langage GPT-3.5, GPT 4 et LLaMA sur des contenus sous copyright.

Une autre plainte [PDF] a été déposée contre OpenAI fin juin par l'autrice canadienne Mona Awad et l'auteur américain de livres d'horreur Paul Tremblay. Ces trois plaintes ont été déposées par le même cabinet d'avocats. Les plaignants pensent que Meta et OpenAI ont entraîné leurs modèles de langage sur des collections d'epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.

Les chercheurs des deux entreprises qui ont travaillé sur ces modèles de langage expliquent les avoir entrainés sur des milliers de livres sans pour autant en donner la liste. Les deux entreprises n'ont pas répondu aux diverses demandes de clarification.

La plainte visant Meta explique que LLaMA aurait été entrainé sur un regroupement de 196 640 livres nommé "ThePile", comprenant lui-même l'ensemble des livres se trouvant sur Bibliotik.

En ce qui concerne les modèles d'OpenAI, les avocats ayant déposé les plaintes pensent qu'ils ont été entrainés sur des livres des différentes bibliothèques clandestines citées ci-dessus ainsi que sur BookCorpus qui hébergent des livres auto-édités gratuits mais aussi protégés par le droit d'auteur.

Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d'œuvres particulières dans l'ensemble de données d'entraînement et est capable de produire un contenu textuel similaire ».

Les plaignants accusent de plus les deux entreprises d'avoir « intentionnellement supprimé » les informations sur la gestion du copyright (copyright-management information, CMI). En interrogeant les modèles, il est donc impossible de remonter jusqu'aux ayants droit.

Outre l'utilisation illicite d'œuvres protégées, Ars Technica pose une question épineuse : « ChatGPT ou LLaMA sont-ils eux-mêmes des œuvres dérivées illicites basées sur des milliers d'œuvres d'auteurs ? »