Publié dans Droit

58

Plusieurs auteurs attaquent Meta et OpenAI pour plagiat

Plusieurs auteurs attaquent Meta et OpenAI pour plagiat

Vendredi, Sarah Silverman, Christopher Golden et Richard Kadrey ont déposé deux plaintes auprès de la justice américaine contre OpenAI et Meta, explique ArsTechnica. Ils les accusent d'avoir entrainé de façon illégale leurs modèles de langage GPT-3.5, GPT 4 et LLaMA sur des contenus sous copyright.

Une autre plainte [PDF] a été déposée contre OpenAI fin juin par l'autrice canadienne Mona Awad et l'auteur américain de livres d'horreur Paul Tremblay. Ces trois plaintes ont été déposées par le même cabinet d'avocats. Les plaignants pensent que Meta et OpenAI ont entraîné leurs modèles de langage sur des collections d'epub récupérées dans des bibliothèques clandestines comme LibGen, Z-Librar, Sci-Hub et Bibliotik.

Les chercheurs des deux entreprises qui ont travaillé sur ces modèles de langage expliquent les avoir entrainés sur des milliers de livres sans pour autant en donner la liste. Les deux entreprises n'ont pas répondu aux diverses demandes de clarification.

La plainte visant Meta explique que LLaMA aurait été entrainé sur un regroupement de 196 640 livres nommé "ThePile", comprenant lui-même l'ensemble des livres se trouvant sur Bibliotik.

En ce qui concerne les modèles d'OpenAI, les avocats ayant déposé les plaintes pensent qu'ils ont été entrainés sur des livres des différentes bibliothèques clandestines citées ci-dessus ainsi que sur BookCorpus qui hébergent des livres auto-édités gratuits mais aussi protégés par le droit d'auteur.

Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d'œuvres particulières dans l'ensemble de données d'entraînement et est capable de produire un contenu textuel similaire ».

Les plaignants accusent de plus les deux entreprises d'avoir « intentionnellement supprimé » les informations sur la gestion du copyright (copyright-management information, CMI). En interrogeant les modèles, il est donc impossible de remonter jusqu'aux ayants droit.

Outre l'utilisation illicite d'œuvres protégées, Ars Technica pose une question épineuse : «  ChatGPT ou LLaMA sont-ils eux-mêmes des œuvres dérivées illicites basées sur des milliers d'œuvres d'auteurs ? »

58

Tiens, en parlant de ça :

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

13:37 Flock 24

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

17:24 DroitSécu 11
Les logos de Facebook et Meta dans des carrés en 3D sur un fond grisé dégradé

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

16:53 DroitSocials 12
58

Fermer

Commentaires (58)



Ils les accusent d’avoir entrainé de façon illégale leurs modèles de langage GPT-3.5, GPT 4 et LLaMA sur des contenus sous copyright.




il va falloir attaquer tous les gens qui se sont entrainés en étudiant des livres, documents, oeuvres.



Est-ce que les ayant-droits de Ellouze, Audran et Pragern vont me poursuivre pour avoir sournoisement appris la lecture avec “Caroline & Nicolas” ?



Mystère.


Sauf qu’en lisant les livres, tu as (normalement) rémunéré l’auteur qui, en autorisant la publication, autorise également la lecture.


Gamble

Sauf qu’en lisant les livres, tu as (normalement) rémunéré l’auteur qui, en autorisant la publication, autorise également la lecture.


La copie complète est soumise à autorisation de l’éditeur.
La courte citation non.



Il suffirait que plusieurs lignes soient copiées dans un cache non autorisé pour constituer une contrefaçon.



Après, c’est d’abord la faute des éditeurs qui ne comprennent pas que la clé de chiffrement des epubs (ou autre) n’empêche pas les copies et captures d’écran…



Quant aux plaintes c’est aux plaignants de démontrer le plagiat en sortie. (ce qui parait très difficile).
En entrée, ils peuvent opposer la licence d’utilisation ou son équivalent (bien plus simple).



Le titre de l’article est trompeur : il s’agit de plaintes en contre-façon sur la base du DMCA.
Et, ce ne sont pas les journalistes qui posent la question. voir ici


ça dépend, tu avais acheté le bouquin ? ^^ (ou emprunté à la bibli :))



Enfin, il suffirait que OpenAI se fasse une carte de bibliothèque, et plus de problème :transpi:


Le problème n’est pas que GPT lise le livre. Lire un livre, c’est autorisé. Le problème est que GPT cite des parties de livres qu’il a lus.



Testé à l’instant avec le prompt : peux-tu me faire un résumé du livre “les misérables” de victor hugo ?
Il sort une grosse tartine, avec beaucoup de détails. Il a bel et bien ingurgité pas mal de contenu.


alex.d.

Le problème n’est pas que GPT lise le livre. Lire un livre, c’est autorisé. Le problème est que GPT cite des parties de livres qu’il a lus.



Testé à l’instant avec le prompt : peux-tu me faire un résumé du livre “les misérables” de victor hugo ?
Il sort une grosse tartine, avec beaucoup de détails. Il a bel et bien ingurgité pas mal de contenu.


Et si on te demande de lire Les Misérables et de faire un résumé, tu plagieras autant, moins ou plus que ChatGPT ?
Son résumé est-il un copié-collé de phrases du livre ou pas ?


Mihashi

Et si on te demande de lire Les Misérables et de faire un résumé, tu plagieras autant, moins ou plus que ChatGPT ?
Son résumé est-il un copié-collé de phrases du livre ou pas ?


Là c’était un résumé. Tu peux essayer de lui faire cracher un texte intégral :




  • connais tu les paroles de “bloody sunday” de u2 ?
    Il te sors le texte intégral. La Hadopi frémit.

  • cite le premier paragraphe de “à la recherche du temps perdu” de marcel proust
    Là encore, il sort le texte intégral.



Essaie par toi-même, tu verras.



Gamble a dit:


Sauf qu’en lisant les livres, tu as (normalement) rémunéré l’auteur qui, en autorisant la publication, autorise également la lecture.




Je ne me souviens pas d’avoir payé pour “Caroline & Nicolas”, il me semble même que c’était fourni par l’éducation nationale.



Mais c’est intéressant ce concept d’être autorisé à lire seulement si on paye l’auteur. T’as payé le journaliste NXI pour lire cette news ? Et, si non, tu te sens coupable d’avoir acquis des connaissances en la lisant ?


Du coup l’éducation nationale avait surement payé le bouquin ^^



Après, il faut bien que les auteurs gagnent de l’argent quand même, donc, oui, un livre que tu lis à forcément été payé, que ce soit par la bibliothèque, par toi, l’éducation nationale, etc…



Sauf tout ce qui est tombé dans le domaine public bien sûr ^^



Concernant qu’on doit payer tout ce qu’on lit, pas forcément, si l’auteur le met à disposition gratuitement, il n’y a pas de problème.



Après je peux te rejoindre sur le fait que une partie des livres lus par OpenAI était libre d’accès de manière licite, donc il n’y a pas de différence fondamentale entre une personne qui lit le livre, et une AI.


Le concept le plus intéressant c’est le lecteur. :fumer:



(Je rappelle qu’avec un réchauffement à +3.5 degrés qui nous pend au nez il y a des priorités dans l’usage de l’électricité.)


Si c’était fourni par l’éducation nationale c’est donc bien que le livre a été acheté légalement et donc que l’ensemble des Français ont payés pour que vous appreniez à lire.
Concernant le fait de payer pour lire, à moins que vous ne voliez livres et journaux chez le détaillant ou à la bibliothèque vous avez toujours payé pour lire.



Quand à ce site comme tous les autres il n’est pas “gratuit” si vous ne payez pas c’est soit qu’il se finance par la publicité soit qu’une association a décidé de payer pour que vous puissiez lire.
C’est impressionnant de penser que quelque chose puisse être “gratuit” sans que quelqu’un quelque part ai payé pour cela même s’il décide de vous l’offrir “gratuitement” et non je ne me sent pas coupable mais plutôt reconnaissant que nextinpact m’offre des connaissances nouvelles.



eglyn a dit:


Du coup l’éducation nationale avait surement payé le bouquin ^^



Après, il faut bien que les auteurs gagnent de l’argent quand même, donc, oui, un livre que tu lis à forcément été payé, que ce soit par la bibliothèque, par toi, l’éducation nationale, etc…




Ce que dit la plainte et par extension le message de @Gamble, c’est que le lecteur (moi, OpenAI) est responsable d’avoir illégalement lu un livre dans une bibliothèque si la bibliothèque n’a pas rémunéré l’auteur.



=> si je fais une copie d’un livre sans rémunérer l’auteur et que tu lis ma copie, alors tu peux être poursuivi pour les connaissance que tu as indument acquises.



max6 a dit:


Concernant le fait de payer pour lire, à moins que vous ne voliez livres et journaux chez le détaillant ou à la bibliothèque vous avez toujours payé pour lire.




Je ne paye pas pour lire mais pour avoir accès à une copie.




  • J’ai acheté des livres que je n’ai pas lu (cadeaux à des proches, …)

  • j’ai lu des livres que je n’ai pas acheté (bibliobus, éducation nationale, …)



autant je peux comprendre être coupable de reproduction illicite (contrefaçon), autant je trouve délirant d’être coupable d’avoir acquis des connaissances en lisant une copie (licite ou pas).


Les entreprises ne seraient pas attaquées par ce que l’IA a lu, mais par ce que l’IA conserverait une copie.




Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d’œuvres particulières dans l’ensemble de données d’entraînement et est capable de produire un contenu textuel similaire ».




L’IA n’est pas une personne physique, donc ne bénéficie pas des mêmes exceptions (copie privée)




Les copies ne peuvent être réalisées que par une personne physique pour un usage privé. Cela signifie que la copie réalisée ne peut être utilisée à des fins commerciales.




De plus, il est possible que l’information ne soit pas “en cache”, mais que l’IA accès à une copie illégale stockée sur un server des entreprises concernées (ce qui serait illégal).



Je pense aussi que les entreprises privées ne peuvent pas casser les DRM.



Pour moi, c’est plus la façon dont l’information a été acquise que le traitement par l’IA qui est attaqué.
Il faudra attendre le résultat du procès et idéalement les preuves utilisées pour en savoir plus je suppose.



(quote:2142221:127.0.0.1)
il va falloir attaquer tous les gens qui se sont entrainés en étudiant des livres, documents, oeuvres.




C’est différent, d’une part pour tous ce que les autres commentateurs ont dit, et d’autre part parce que OpenAI fait un usage commercial de ces données sous copyright, et un possible plagiat.


Ca va être intéressant si Meta ou OpenAI est jugé plagiaire : ça fera peut-être prendre conscience que l’IA générative ne fait que réutiliser ce qui existe déjà. Ça ne crée rien (pour le moment) pareillement à la voiture dite autonome qui n’est pas autonome.



(quote:2142259:alex.d.)
Le problème n’est pas que GPT lise le livre. Lire un livre, c’est autorisé. Le problème est que GPT cite des parties de livres qu’il a lus.
Testé à l’instant avec le prompt : peux-tu me faire un résumé du livre “les misérables” de victor hugo ?
Il sort une grosse tartine, avec beaucoup de détails. Il a bel et bien ingurgité pas mal de contenu.




La Wikimedia Foundation n’hésite pas à le citer et même à le diffuser en licence CC BY-SA!



https://fr.wikisource.org/wiki/Les_Misérables


Évidemment, tout Victor Hugo est tombé dans le domaine public. Mais curieusement, tu as oublié de répondre sur les textes de U2.


alex.d.

Évidemment, tout Victor Hugo est tombé dans le domaine public. Mais curieusement, tu as oublié de répondre sur les textes de U2.


je rejoins un peu 127.0.0.1 perso.
Si tu me demandes de citer les paroles d’une chanson et que je le fais de tête est-ce que c’est du plagiat ?


Tab41

je rejoins un peu 127.0.0.1 perso.
Si tu me demandes de citer les paroles d’une chanson et que je le fais de tête est-ce que c’est du plagiat ?


Si tu les récites à qui veut l’entendre sur internet, oui, c’est de la contrefaçon. Si tu le fais pour toi ou dans le cercle de ta famille, non. Mais la famille de ChatGPT est petite, c’est une machine.


alex.d.

Si tu les récites à qui veut l’entendre sur internet, oui, c’est de la contrefaçon. Si tu le fais pour toi ou dans le cercle de ta famille, non. Mais la famille de ChatGPT est petite, c’est une machine.


Mais du coup, quelle est la différence entre moi (ou ChatGTP) qui te fournis les paroles de bloody sunday et Google (ou Musixmatch, LyricFind, la Coccinnelle, paroles2chansons.lemonde.fr, …) qui semblent pouvoir les mettre à disposition de tout internet sans encombre ?



C’est une vraie question, je ne pense sincèrement pas que ça tombe sous le coup de la contrefaçon / plagiat mais je n’ai pas les compétences / connaissances pour être sûr de moi et je peux donc totalement me fourvoyer.


Tab41

je rejoins un peu 127.0.0.1 perso.
Si tu me demandes de citer les paroles d’une chanson et que je le fais de tête est-ce que c’est du plagiat ?


Si tu récites les paroles d’une chanson dans un but commercial, tu as cité l’auteur et tu as des droits pécuniaires à payer (sauf œuvre issue du domaine public).



Si tu t’appropries une œuvre existante, tu es un plagiaire, un faussaire, un arnaqueur.



misocard a dit:


Les entreprises ne seraient pas attaquées par ce que l’IA a lu, mais par ce que l’IA conserverait une copie.




Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d’œuvres particulières dans l’ensemble de données d’entraînement et est capable de produire un contenu textuel similaire ».





Ils sont pas cons, ils savent bien que ca ne fonctionne pas comme cela.
D’ailleurs il disent que ChatGPT conserve la connaissance et pas conserve une copie.



Ce qui, au passage, signifie qu’ils trouvent problématique de conserver de la connaissance après avoir lu une oeuvre.


Oui, mais en terme d’IA la connaissance c’est stocké en mémoire. Donc pour que l’IA ait connaissance de quelque chose elle doit en faire une copie.



Il faudrait voir l’étendue de la connaissance, ils auront à prouver que ce n’est pas juste un “court résumé” de l’œuvre mais que l’IA en sait plus.



Normalement ces IA lisent des livres pour apprendre à mettre les mots après les autres pour que ça donne un résultat cohérent, elles ne devraient pas garder des informations spécifiques en mémoire.


misocard

Oui, mais en terme d’IA la connaissance c’est stocké en mémoire. Donc pour que l’IA ait connaissance de quelque chose elle doit en faire une copie.



Il faudrait voir l’étendue de la connaissance, ils auront à prouver que ce n’est pas juste un “court résumé” de l’œuvre mais que l’IA en sait plus.



Normalement ces IA lisent des livres pour apprendre à mettre les mots après les autres pour que ça donne un résultat cohérent, elles ne devraient pas garder des informations spécifiques en mémoire.


Si le modèle derrière ChatGPT est vraiment celui évoqué par OpenAI (en parlant de la version sans accès au web en live) alors non il n’y a aucune copie en mémoire. Et pour le coup sur l’aspect technique c’est mon boulot au quotidien donc je suis assez sûr de moi.



Ce qu’a enregistré le modèle comme tu le dis à la fin de ton message c’est quel mot a plus ou moins tendance à suivre quel autre en fonction d’un contexte (les X mots précédents de la “conversation”) dans le contexte où son interlocuteur lui demande un extrait de “Les Misérables” alors le modèle sait quels mots sortir parce que dans ce contexte c’est cette suite de mots qui est la plus probable.



C’est la plus grande force des LLM, (sans pouvoir le nommer bien sûr) ils sont capables d’avoir pleins de “contextes” dans leurs paramètres (ce n’est pas une mémoire à proprement parlé c’est une suite de fonction mathématique qui choisit la meilleure réponse à fournir à un prompt, c’est pas comparable à une requête en base de donnée par exemple).


Tab41

Si le modèle derrière ChatGPT est vraiment celui évoqué par OpenAI (en parlant de la version sans accès au web en live) alors non il n’y a aucune copie en mémoire. Et pour le coup sur l’aspect technique c’est mon boulot au quotidien donc je suis assez sûr de moi.



Ce qu’a enregistré le modèle comme tu le dis à la fin de ton message c’est quel mot a plus ou moins tendance à suivre quel autre en fonction d’un contexte (les X mots précédents de la “conversation”) dans le contexte où son interlocuteur lui demande un extrait de “Les Misérables” alors le modèle sait quels mots sortir parce que dans ce contexte c’est cette suite de mots qui est la plus probable.



C’est la plus grande force des LLM, (sans pouvoir le nommer bien sûr) ils sont capables d’avoir pleins de “contextes” dans leurs paramètres (ce n’est pas une mémoire à proprement parlé c’est une suite de fonction mathématique qui choisit la meilleure réponse à fournir à un prompt, c’est pas comparable à une requête en base de donnée par exemple).


Je dirais que, si ChatGPT est en mesure d’imiter à la perfection un auteur existant, cet outil est un outil de plagiat. Si ChatGPT reproduit une œuvre quasi-parfaitement en citant l’auteur, même en la paraphrasant, des droits (d’auteur, de diffusion, etc) seront probablement réclamés.


Tab41

Si le modèle derrière ChatGPT est vraiment celui évoqué par OpenAI (en parlant de la version sans accès au web en live) alors non il n’y a aucune copie en mémoire. Et pour le coup sur l’aspect technique c’est mon boulot au quotidien donc je suis assez sûr de moi.



Ce qu’a enregistré le modèle comme tu le dis à la fin de ton message c’est quel mot a plus ou moins tendance à suivre quel autre en fonction d’un contexte (les X mots précédents de la “conversation”) dans le contexte où son interlocuteur lui demande un extrait de “Les Misérables” alors le modèle sait quels mots sortir parce que dans ce contexte c’est cette suite de mots qui est la plus probable.



C’est la plus grande force des LLM, (sans pouvoir le nommer bien sûr) ils sont capables d’avoir pleins de “contextes” dans leurs paramètres (ce n’est pas une mémoire à proprement parlé c’est une suite de fonction mathématique qui choisit la meilleure réponse à fournir à un prompt, c’est pas comparable à une requête en base de donnée par exemple).


Oui, mais du coup si retient les mots et la probabilité de suite dans un contexte, je pense qu’il n’est pas absurde d’essayer d’argumenter que c’est une forme de stockage.



Ce n’est peut être pas fiable pour du stockage, mais je ne pense pas que le droit de copie se limite à des copies parfaites.



Je me doute que c’est un peu plus complexe que ça, mais je ne suis pas certain qu’il soit possible de juger cette affaire devant son écran.



(quote:2142221:127.0.0.1)
il va falloir attaquer tous les gens qui se sont entrainés en étudiant des livres, documents, oeuvres.




Si on considère qu’un humain et un LLM c’est la même chose (y compris au niveau juridique), alors oui. Sinon, non.




le lecteur (moi, OpenAI) est responsable d’avoir illégalement lu un livre dans une bibliothèque




Pareil, il faudrait encore considérer que les scripts « lisent » de la même manière qu’un humain. Et accèdent aux œuvres de la même manière … achat, prêt par un proche, emprunt dans une bibliothèque 🤪



(quote:2142288:alex.d.)
Évidemment, tout Victor Hugo est tombé dans le domaine public. Mais curieusement, tu as oublié de répondre sur les textes de U2.




De mémoire (c’est dans ma playlist de voiture pour l’été).
Ca doit pas être exact, mais pas loin… :8




Summer stretchin on the grass
summer dresses pass in.
the shade of a willow tree
creeps crawling over me.
over me and over you
stuck together with God’s glue.
it’s gonna get stickier too.




Edit: j’ai été vérifié, c’est pas si loin. Et je ne me sens par en infraction en citant les paroles de mémoire.


Tu viens d’exercer ton droit de citation



En fonction du pourcentage des paroles que tu retransmets (même de mémoire) ton commentaire pourrait être en infraction avec le droit d’auteur.
En théorie, je pense que les ayants droits pourraient demander à nextinpact de supprimer ton commentaire si ils estime qu’il y a une infraction (bon, ça ne vaut pas le cout de la procédure mais … en théorie).



Tu peux les mettre par écrit en privé (droit de copie privée) et je pense que tu peux les réciter à tes proches. Mais normalement pas au public (sauf éducation et plein d’autres exceptions).



L’IA est un programme et les entreprises qui les possèdent n’ont pas le droit à ces exceptions.



misocard a dit:


Tu viens d’exercer ton droit de citation



En fonction du pourcentage des paroles que tu retransmets (même de mémoire) ton commentaire pourrait être en infraction avec le droit d’auteur. En théorie, je pense que les ayants droits pourraient demander à nextinpact de supprimer ton commentaire si ils estime qu’il y a une infraction (bon, ça ne vaut pas le cout de la procédure mais … en théorie).




La plainte dans la news n’est pas à l’encontre des sites (nextinpact, OpenAI, …) qui publient des commentaires/messages dont le contenu est partiellement soumis au droit d’auteur. La plainte est contre OpenAI qui a utilisé des textes soumis au droit d’auteur pour faire l’apprentissage de son outil.



Bref, ce N’est PAS une plainte contre le résultat obtenu (=la diffusion des paroles de U2) mais contre la méthode d’apprentissage (=la lecture des paroles de U2)…


Heu, non ils parlent de la méthode d’apprentissage (et surtout des méthodes utilisées pour l’obtention des données qui ne semble pas net), mais le titre dit clairement




Plusieurs auteurs attaquent Meta et OpenAI pour plagiat




Et d’après wikipedia, le plagiat c’est de la contrefaçon




En droit français, le mot « plagiat » n’existe pas en tant que tel. Le terme légal exact est la contrefaçon, définie par L. 335-3 du Code de la propriété intellectuelle comme « toute reproduction, représentation ou diffusion, par quelque moyen que ce soit, d’une œuvre de l’esprit en violation des droits de l’auteur, tels qu’ils sont définis et réglementés par la loi »




Peut être que c’est différent pour le droit US, mais il est possible que la méthode d’apprentissage soit précisée car pour un plagiat je pense qu’il faut prouver qu’il y a connaissance de l’œuvre plagiée.



Si une IA “lit” un livre et qu’elle est capable d’en restituer quelque chose de similaire on est pour moi dans le cadre (et en plus c’est commercial).
Le pire, c’est que le plagiat ne doit pas être identique (voir les affaires de plagiat en musique), il y a généralement appréciation du juge.



Ces 2 paragraphes me semblent importants




Pour les auteurs des livres en question, le fait que ChatGPT puisse fournir un résumé très précis de leur livre suggère que « ChatGPT conserve la connaissance d’œuvres particulières dans l’ensemble de données d’entraînement et est capable de produire un contenu textuel similaire ».



Les plaignants accusent de plus les deux entreprises d’avoir « intentionnellement supprimé » les informations sur la gestion du copyright (copyright-management information, CMI). En interrogeant les modèles, il est donc impossible de remonter jusqu’aux ayants droit.




Encore une fois, je ne juge pas devant mon écran, mon avis est qu’il ne semble pas y avoir une plainte abusive et qu’on peut sortir le popcorn pour suivre tout ça.



TabDambrine a dit:


Mais du coup, quelle est la différence entre moi (ou ChatGTP) qui te fournis les paroles de bloody sunday et Google (ou Musixmatch, LyricFind, la Coccinnelle, paroles2chansons.lemonde.fr, …) qui semblent pouvoir les mettre à disposition de tout internet sans encombre ?



C’est une vraie question, je ne pense sincèrement pas que ça tombe sous le coup de la contrefaçon / plagiat mais je n’ai pas les compétences / connaissances pour être sûr de moi et je peux donc totalement me fourvoyer.




Google et les droits d’auteurs, vaste débat.
https://www.nextinpact.com/article/43369/droits-voisins-editeurs-se-regroupent-google-se-rebiffe



Pour ceux qui diffusent les paroles, accords, ou musiques, il y a deux écoles :
– ceux qui paient la SACEM ou ont des accords spécifiques avec les éditeurs (par exemple youtube)
– ceux qui ne font qu’héberger du contenu déposé par les utilisateurs, et se cachent derrière ça pour ne pas engager leur responsabilité. Ça tient tant que les ayants droits ne se fâchent pas (par exemple paroles.net, fermé dernièrement sur décision de justice).


ok donc ce qui fait que là je ne serais pas dérangé si je postais les paroles d’une chanson, c’est en gros l’absence de gain (pour moi de les poster ici, et pour les ayant-droits de se farcir une procédure contre ça) je comprends mieux.




misocard a dit:



Je me doute que c’est un peu plus complexe que ça, mais je ne suis pas certain qu’il soit possible de juger cette affaire devant son écran.




je te rejoins là dessus et je ne prétends pas avoir raison et les plaignant torts, j’ai du mal à concevoir que ça puisse passer pour eux mais je ne suis assez versé en droits d’auteur (vu que c’est l’angle pris) pour me faire une analyse profonde du sujet.



Pour le reste oui je comprends qu’on veuille assimiler ça à une base mais ce que je veux souligner c’est bien que nulle part (normalement) l’oeuvre n’est stockée en tant que telle dans le modèle de ChatGPT (et LLaMA) parce que le public pourrait trop vite croire que c’est juste une grosse BDD et ceci pourrait mener à des raisonnements et conclusions fausses sur la techno et l’outil lui même.


Tab41

ok donc ce qui fait que là je ne serais pas dérangé si je postais les paroles d’une chanson, c’est en gros l’absence de gain (pour moi de les poster ici, et pour les ayant-droits de se farcir une procédure contre ça) je comprends mieux.




misocard a dit:



Je me doute que c’est un peu plus complexe que ça, mais je ne suis pas certain qu’il soit possible de juger cette affaire devant son écran.




je te rejoins là dessus et je ne prétends pas avoir raison et les plaignant torts, j’ai du mal à concevoir que ça puisse passer pour eux mais je ne suis assez versé en droits d’auteur (vu que c’est l’angle pris) pour me faire une analyse profonde du sujet.



Pour le reste oui je comprends qu’on veuille assimiler ça à une base mais ce que je veux souligner c’est bien que nulle part (normalement) l’oeuvre n’est stockée en tant que telle dans le modèle de ChatGPT (et LLaMA) parce que le public pourrait trop vite croire que c’est juste une grosse BDD et ceci pourrait mener à des raisonnements et conclusions fausses sur la techno et l’outil lui même.


Je comprends que l’œuvre n’est pas stockée en tant que tel, mais si on me dit “l’IA conserve une probabilité de suite de mots en fonction d’un contexte” j’ai vraiment envie de voir ça comme une compression avec perte.



Encore une fois, je simplifie à outrance, mais j’ai vraiment l’impression que les lois actuelles ne sont pas adaptées à l’IA et si on continue sur un silence des législateurs on va se retrouver en face de situation foireuses.


misocard

Je comprends que l’œuvre n’est pas stockée en tant que tel, mais si on me dit “l’IA conserve une probabilité de suite de mots en fonction d’un contexte” j’ai vraiment envie de voir ça comme une compression avec perte.



Encore une fois, je simplifie à outrance, mais j’ai vraiment l’impression que les lois actuelles ne sont pas adaptées à l’IA et si on continue sur un silence des législateurs on va se retrouver en face de situation foireuses.


Perso, je ne vois pas quelles adaptations législatives il s’agirait de faire parce que le plagiat est suffisamment défini depuis longtemps. Par exemple, lorsqu’une oeuvre (roman, pièce de théâtre) est adaptée au cinéma, on écrit au générique “adaptation de …” ou “librement inspiré de …” : ce n’est pas pour rendre honnêtement hommage, c’est pour éviter des accusations de plagiat justement.



(quote:2142311:127.0.0.1)
Bref, ce N’est PAS une plainte contre le résultat obtenu (=la diffusion des paroles de U2) mais contre la méthode d’apprentissage (=la lecture des paroles de U2)…




La première plainte citée, c’est plutôt un non respect des termes de la licence d’utilisation de bibliothèques en ligne.



(quote:2142313:alex.d.)
La première plainte citée, c’est plutôt un non respect des termes de la licence d’utilisation de bibliothèques en ligne.



misocard a dit:


Heu, non ils parlent de la méthode d’apprentissage (et surtout des méthodes utilisées pour l’obtention des données qui ne semble pas net), mais le titre dit clairement




Petit florilège extrait du PDF:




CLAIMS FOR RELIEF



Direct Copyright Infringement




  1. OpenAI made copies of Plaintiffs’ books during the training process of the OpenAI Language Models without Plaintiffs’ permission. Specifically, OpenAI copied at least Plaintiff Tremblay’s book The Cabin at the End of the World; and Plaintiff Awad’s books 13 Ways of Looking at a Fat Girl and Bunny. Together, these books are referred to as the Infringed Works.



  2. Because the OpenAI Language Models cannot function without the expressive information extracted from Plaintiffs’ works (and others) and retained inside them, the OpenAI Language Models are themselves infringing derivative works, made without Plaintiffs’ permission and in violation of their exclusive rights under the Copyright Act.




Vicarious Copyright Infringement




  1. OpenAI has the right and ability to control the output of the OpenAI Language Models. OpenAI has benefited financially from the infringing output of the OpenAI Language Models. Therefore, every output from the OpenAI Language Models constitutes an act of vicarious copyright infringement.




Pour le 55, c’est le litige de contrefaçon habituel = recup de fichiers depuis un site qui n’avait pas le droit de les proposer/diffuser.



pour le 56, ca dit que le modèle de langage c’est une oeuvre dérivée. Celle là ca impliquerait que n’importe quelle extraction de données/métriques serait une oeuvre dérivée. Tu comptes les occurrences de voyelles/consones dans l’intégrale des chansons de U2 => le comptage obtenu c’est une oeuvre dérivée de U2.



pour le 60, ca dit que TOUT ce qui sera généré à partir d’un modèle entrainé à partir d’oeuvre sera TOUJOURS une oeuvre dérivée. Tu pioches des lettres au hasard dans l’intégrale des chansons de U2 => c’est une oeuvre dérivée de U2.



Je trouve que c’est un poil abusif de la part de nos amis les zayandroits.


Le 56 est peut être léger, mais comme j’ai essayé de l’expliquer on pourrait associer le système de fonctionnement de l’IA à une espèce de compression avec perte.
C’est stocké autrement, mais il y a une idée de stockage.



Le 60 me semble le plus abusif (surtout qu’ils disent que tout ce que génère l’IA est du plagiat, et là j’ai un gros doute que ça passe).



Mais il y a 2 plaintes, je suppose que




ChatGPT conserve la connaissance d’œuvres particulières dans l’ensemble de données d’entraînement et est capable de produire un contenu textuel similaire




Se trouve dans la 2 eme. Par ce qu’ici il y aurait plagiat.


misocard

Le 56 est peut être léger, mais comme j’ai essayé de l’expliquer on pourrait associer le système de fonctionnement de l’IA à une espèce de compression avec perte.
C’est stocké autrement, mais il y a une idée de stockage.



Le 60 me semble le plus abusif (surtout qu’ils disent que tout ce que génère l’IA est du plagiat, et là j’ai un gros doute que ça passe).



Mais il y a 2 plaintes, je suppose que




ChatGPT conserve la connaissance d’œuvres particulières dans l’ensemble de données d’entraînement et est capable de produire un contenu textuel similaire




Se trouve dans la 2 eme. Par ce qu’ici il y aurait plagiat.


En fait non, GPT à proprement parler n’a pas les informations issues du modèle d’entraînement (même si j’ai souvent parlé ici de “culture générale” dans le modèle, c’est avant tout une image : il n’a pas de mémoire comme nous l’entendons et avons).



Il a juste appris à lire des modèles linguistiques et la syntaxe pour être capable de prédire la suite de mots la plus probable dans un contexte donné.



Un exemple concret : souvenez-vous aux débuts de ChatGPT où il déformait des citations de films, livres, ou bien “répétait” de manière incorrecte un passage. Ben c’est justement la démonstration qu’il ne “connaît” pas par coeur le bouquin : il a juste régénéré le texte en se basant sur le contexte et les milliards de paramètres qui lui permettent de reproduire le style de l’auteur. Ca peut faire illusion, mais c’est un peu comme réciter un texte par coeur et se rendre compte qu’on a réinventé des passages par trou de mémoire.



Si par exemple je lui demande de me citer le 1er paragraphe de 20 000 lieues sous les mers :



GPT 3.5 :




Certainement ! Voici le premier paragraphe de “20 000 lieues sous les mers” de Jules Verne :



“Le 24 février 1867, un incident de mer retentissant se produisit. Personne n’a pu l’ignorer. Dès le matin, de nombreux curieux, munis de lunettes d’approche, s’étaient massés sur les quais de New York et de Brooklyn ; d’autres occupaient les embarcations de plaisance, et même de simples canots de pêche, rassemblés en flottilles serrées, affairés, bruyants, impatients, pour ne rien manquer de cette curieuse démonstration nautique.”




Texte original :




L’année 1866 fut marquée par un événement bizarre, un phénomène inexpliqué et inexplicable que personne n’a sans doute oublié. Sans parler des rumeurs qui agitaient les populations des ports et surexcitaient l’esprit public à l’intérieur des continents les gens de mer furent particulièrement émus. Les négociants, armateurs, capitaines de navires, skippers et masters de l’Europe et de l’Amérique, officiers des marines militaires de tous pays, et, après eux, les gouvernements des divers États des deux continents, se préoccupèrent de ce fait au plus haut point.




Encore plus drôle, même demande sur GPT 4 :




Je suis désolé, mais je ne peux pas citer directement le texte d’une œuvre spécifique en raison des restrictions de droit d’auteur. Cependant, je peux vous dire que “20,000 Lieues sous les mers” de Jules Verne commence par le mystère des rapports sur une créature étrange dans les mers qui suscite l’intérêt et l’excitation du monde entier. Le roman vous emmène ensuite dans une aventure sous-marine passionnante à bord du Nautilus, le sous-marin du capitaine Nemo. J’espère que cela vous aide !




(reply:2142330:consommateurnumérique)




Je voulais m’exprimer de façon très générale pour ma conclusion, pas juste pour le plagiat.



Est-ce que quand une IA consulte une œuvre elle réalise une copie ? (légalement)


J’ai l’impression que vous complexifiez tous.



On a un programme qui a “lu” des textes et revends de la connaissance en se basant sur ces textes.



Le tout :




  • peut être sans posséder les droits pour lire ces textes ?

  • en étant capable apparemment de réaliser plus qu’une simple citation ?

  • sans citer les sources ?



On est, je trouve, dans un cas suffisamment extrême pour qu’il y ait un problème.



C’est également l’occasion de clarifier ce qu’on peut faire ou ne peut pas faire. Une fois que le monde fonctionnera avec ces IA, le législateur ne pourra plus rien faire comme c’est le cas aujourd’hui avec la publicité ciblée et la collecte des données.


En matière juridique, il vaut mieux complexifier que trop simplifier jusqu’à devenir simpliste.



peut-être, apparemment : ça fait déjà beaucoup d’incertitudes et ça ne permet pas de qualifier le cas d’extrême.



Le seul point sur lequel je suis d’accord, c’est que c’est l’occasion de clarifier.



Je ne suis pas non plus d’accord sur l’affirmation sur la publicité ciblée et la collecte des données. Le législateur européen a bien travaillé et les résultats progressent.



SebGF a dit:



Il a juste appris à lire des modèles linguistiques et la syntaxe pour être capable de prédire la suite de mots la plus probable dans un contexte donné.




Et il paye ses impots, vote à chaque élection, fait des enfants, boit de la bière Hollandaise et abuse de sa carte vitale…



La différence fondamentale d’apprentissage ou d’éducation est qu’un lecteur (même nul) est plus utile aux autres humains qu’un mauvais happening techno-nihilste.



Ce sont bien des personnes qui créent ces modèles. Si ils ont trop de données pour appliquer le minimum de respect dû aux autres, qu’ils changent de métier.



fred42 a dit:


Le législateur européen a bien travaillé et les résultats progressent.




Si c’était vrai, il y aurait un contrôle avant mise sur le marché des fonctions essentielles relatives à la privacy. De telle sorte qu’aucun commerçant ne pourrait vendre ou revendre des OS dont les paramètres par défaut sont bloqués sur « open bar ».



L’intérêt légitime a montré ses limites éthiques. En particulier lorsque la base légale invoquée, supposée justifier la collecte, est tout simplement absente.
Aucun texte de loi ne répute d’intêret public la collecte de données personnelles.
Par contre, il peut y avoir de bonnes raisons pour pathologiser un peu plus les clients des banques ou des compagnies d’assurance sur l’unique base de leurs dons (sans frais énergétiques à payer).



Lorsque dépendent les prêts et primes de ces systèmes inconnus du client, il y a de quoi s’interroger sur la bonne foi des organismes.
Puisque dans l’absolu de l’intêret, le vol de données de santé se justifie au nom du commerce de masques. :fumer:



Watchwolf a dit:



On a un programme qui a “lu” des textes et revends de la connaissance en se basant sur ces textes.



Le tout :




  • peut être sans posséder les droits pour lire ces textes ?

  • en étant capable apparemment de réaliser plus qu’une simple citation ?

  • sans citer les sources ?



On est, je trouve, dans un cas suffisamment extrême pour qu’il y ait un problème.




remplace “un programme” par “un professeur agrégé” et dit moi s’il y a toujours un problème ?


Et on appelerait ça l’exception pédagogique



https://eduscol.education.fr/420/comment-utiliser-des-oeuvres-dans-un-cadre-pedagogique



Exception qui n’est pas valable pour une société à but lucratif.


Gamble

Et on appelerait ça l’exception pédagogique



https://eduscol.education.fr/420/comment-utiliser-des-oeuvres-dans-un-cadre-pedagogique



Exception qui n’est pas valable pour une société à but lucratif.


Pas du tout !



L’exception pédagogique est une exception au droit d’auteur.



Le cas cité par 127.0.0.1 est tout autre. Il parle de revendre sa connaissance apprise parce que le professeur a lu les textes et retenu le savoir qui était dans ces textes. Il ne s’agit plus ici de droit d’auteur.



Heureusement que Marc Rees n’est plus ici, il s’arracherait le peu de cheveux qui lui reste en lisant vos amalgames en ce disant que ça ne sert à rien d’expliquer le droit d’auteur et ses exception au lectorat si c’est pour qu’il écrive de pareilles choses !


fred42

Pas du tout !



L’exception pédagogique est une exception au droit d’auteur.



Le cas cité par 127.0.0.1 est tout autre. Il parle de revendre sa connaissance apprise parce que le professeur a lu les textes et retenu le savoir qui était dans ces textes. Il ne s’agit plus ici de droit d’auteur.



Heureusement que Marc Rees n’est plus ici, il s’arracherait le peu de cheveux qui lui reste en lisant vos amalgames en ce disant que ça ne sert à rien d’expliquer le droit d’auteur et ses exception au lectorat si c’est pour qu’il écrive de pareilles choses !


Pourquoi alors utiliser spécifiquement le terme “professeur agrégé” ? Car toute personne qui acquiert des connaissances qui sont protégées de quelques manières que ce soit, puis les revends, fait de la contrefaçon.


Gamble

Pourquoi alors utiliser spécifiquement le terme “professeur agrégé” ? Car toute personne qui acquiert des connaissances qui sont protégées de quelques manières que ce soit, puis les revends, fait de la contrefaçon.


Ce n’est pas à moi qu’il faut poser la question.



Par contre, ton affirmation est fausse.
Les connaissances elles-même ne sont pas protégées.



Les œuvres de l’esprit (littérature, musique, films, art en général, articles de presse, etc.) sont protégées par le droit d’auteur, mais les connaissances qui peuvent être inclues dans ces œuvres ne sont pas protégées.



Les inventions sont protégées par les brevets. mais pas les connaissances qui ont amené à faire l’invention.



Des dessins et modèles sont protégés mais ce ne sont pas des connaissances.



Donc, non, on ne peut pas faire de contrefaçon de connaissances.


fred42

Ce n’est pas à moi qu’il faut poser la question.



Par contre, ton affirmation est fausse.
Les connaissances elles-même ne sont pas protégées.



Les œuvres de l’esprit (littérature, musique, films, art en général, articles de presse, etc.) sont protégées par le droit d’auteur, mais les connaissances qui peuvent être inclues dans ces œuvres ne sont pas protégées.



Les inventions sont protégées par les brevets. mais pas les connaissances qui ont amené à faire l’invention.



Des dessins et modèles sont protégés mais ce ne sont pas des connaissances.



Donc, non, on ne peut pas faire de contrefaçon de connaissances.


Ai-je dit que toutes les connaissances sont protégées ? Il faut arrêter d’inventer ce qui n’a pas été dit.


Si le professeur agrégé a lu des textes sans posséder les droits pour lire ces textes, oui il y a toujours un problème.




en étant capable apparemment de réaliser plus qu’une simple citation ?




Tu peux nous ré-écrire A Brief History of Time ? Ou le lire en quelques secondes d’ailleurs ? Si tu ne peux pas, alors ta question n’est pas pertinente (humain vs. machine).




sans citer les sources ?




Oui, il y a toujours un problème, même très gros, venant de quelqu’un qui a dû présenter des recherches et donc des sources.



C’est amusant de voir comme il semble normal d’évaluer un programme comme un humain pour certains ici. Si on remettait les femmes, les personnes handicapées et les hommes de nouveau ensemble pour les JO, ça vous semblerait une bonne idée ?



Gamble a dit:


Et on appelerait ça l’exception pédagogique
Exception qui n’est pas valable pour une société à but lucratif.




Imaginons une société à but lucratif d’édition de revue littéraire qui embauche un ex-professeur agrégé (ou toute personne ayant acquise des connaissances) qui va utiliser ses connaissances pour faire une meilleure revue littéraire.



Ca pose problème ?



Pinailleur a dit:


Tu peux nous ré-écrire A Brief History of Time ? Ou le lire en quelques secondes d’ailleurs ? Si tu ne peux pas, alors ta question n’est pas pertinente (humain vs. machine).




Intéressant. Donc, selon toi, la vitesse de lecture est un critère à prendre en compte dans ce qui est légalement autorisé ou interdit.



Et dans les fait ca se passe comment ? La police fait passer des tests de détection de Réplicant, à la blade-runner ?


Tu as raison d’éviter de répondre à la première question.


Pinailleur

Tu as raison d’éviter de répondre à la première question.


Pour la question de la réécriture, regarde ce que j’ai indiqué en #41.



Si paramétrée pour (et encore, y’a toujours un risque de déviation), l’IA génératrice peut reproduire un livre, mais c’est pas garanti. Tout au mieux, elle va imiter le style d’écriture de l’auteur et la tonalité du livre car tout ça c’est des éléments contextuels. En dehors de ça, non, elle n’a aucune connaissance du contenu réel du livre.



Elle l’a juste lu et retenu des concordances entre des mots pour alimenter un modèle de langage.



Tout comme elle n’a pas connaissance d’un fait mais qu’elle est capable de le retranscrire parce que le contexte du prompt lui fait obtenir le résultat le plus probable avec celui-ci. Les “connaissances” de l’outil sont une vue imagée, dans les faits il n’a pas de mémoire au sens où nous l’avons. “Juste” une énorme base d’associations de tokens qui s’enchaîne de manière la plus cohérente possible selon le contexte donné.


SebGF

Pour la question de la réécriture, regarde ce que j’ai indiqué en #41.



Si paramétrée pour (et encore, y’a toujours un risque de déviation), l’IA génératrice peut reproduire un livre, mais c’est pas garanti. Tout au mieux, elle va imiter le style d’écriture de l’auteur et la tonalité du livre car tout ça c’est des éléments contextuels. En dehors de ça, non, elle n’a aucune connaissance du contenu réel du livre.



Elle l’a juste lu et retenu des concordances entre des mots pour alimenter un modèle de langage.



Tout comme elle n’a pas connaissance d’un fait mais qu’elle est capable de le retranscrire parce que le contexte du prompt lui fait obtenir le résultat le plus probable avec celui-ci. Les “connaissances” de l’outil sont une vue imagée, dans les faits il n’a pas de mémoire au sens où nous l’avons. “Juste” une énorme base d’associations de tokens qui s’enchaîne de manière la plus cohérente possible selon le contexte donné.


Oui je l’avais lu, et je comprend, mais du coup il est quand même capable de sortir à peu près le contenu (j’ai fait le test et sur les premières pages c’est assez concluant).



Mais bon, c’était qu’un point parmi plusieurs, qui d’ailleurs de mon point de vue est moins intéressant que l’entraînement de l’IA, et la comparaison que certains font encore et toujours entre la puissance d’un ordinateur et celle d’un humain.


(reply:2143067:Gamble)



Tu as parlé de connaissances protégées ce qui veut dire que tu penses qu’au moins certaines connaissances le sont.
Moi, je dis qu’aucune connaissance n’est protégée.
Quand il y a des protections liées à la propriété intellectuelle, ce ne sont pas les connaissances qui sont protégées mais d’autres choses.



Je n’ai donc rien inventé.