Le chantier de l’exception « text and data mining » au ministère de la Culture

Le chantier de l’exception « text and data mining » au ministère de la Culture

Toi, tu creuses

Avatar de l'auteur
Marc Rees

Publié dans

Droit

31/08/2020 10 minutes
3

Le chantier de l’exception « text and data mining » au ministère de la Culture

La directive sur le droit d’auteur ce n’est pas seulement le filtrage des contenus ou la consécration par le haut des droits voisins des éditeurs et agences de presse. Elle introduit également des exceptions relatives à la fouille de données qui devront se concilier avec la propriété intellectuelle. Des travaux sont en cours au CSPLA.

Le 10 juin 2020, le Conseil supérieur de la propriété littéraire et artistique (CSPLA) a lancé une mission sur le « text and data mining » (TDM). Confiée à Alexandra Bensamoun, professeure des universités, elle vise à préparer l’introduction en France de deux dispositions issues de la directive sur le droit d’auteur dans le marché numérique,
inscrites aux articles 3 et 4. L’une et l’autre introduisent une exception sur la fouille de textes.

En France, depuis la loi Lemaire pour une République Numérique, les auteurs ne peuvent plus s’opposer aux « copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique ».

La loi a donc créé une nouvelle incise dans le monopole des auteurs, mais à condition que ces explorations se fassent sans visée commerciale et qu’elles soient limitées à l’écrit. Toutefois, la disposition est restée à un stade purement théorique. 

De la loi Lemaire à la directive Droit d’auteur

Durant les débats en janvier 2016, la députée Nathalie Kosciusko-Morizet avait estimé nécessaire de « sécuriser la circulation de données au sein de la communauté de la recherche, en particulier des données singulières que sont les fichiers issus du traitement des données de base et à partir desquels sont élaborées des conclusions ».

De tels fichiers, ajoutait-elle, « peuvent être utilement réutilisés par d’autres chercheurs qui ainsi ne sont pas obligés de reprendre tout le travail de mise en forme et de formatage ».

Arguments partagés par Isabelle Attard : « la fouille automatique de textes et de données permet, grâce à l’automatisation, d’obtenir des résultats inaccessibles par des méthodes manuelles, quelle que soit la discipline. C’est l’un des nombreux progrès que nous devons à l’informatique ».

« Je vois bien la tentation, comme sur tant d’autres sujets, de mettre en place des digues provisoires pour protéger un certain nombre d’intérêts, mais sur cette question c’est l’intérêt général qui doit prévaloir » avait renchéri Christian Paul.  

Pour mieux comprendre l’intérêt de cet outil, on peut lire ce billet de Frédéric Hélein, mathématicien et notamment Professeur à l’Université Paris Diderot :

« L’informatique permet aujourd'hui d'extraire des informations pertinentes diluées dans des masses colossales de données. Tout utilisateur de Google s'en rend compte quotidiennement. Cette démarche est pratiquée par les chercheurs sur des corpus d'articles et de documents scientifiques, mais aussi sur toutes sortes d’autres sources, comme les blogs, Wikipedia, les forums de discussion, etc.

On peut par exemple visualiser sur une carte géographique des informations sur l'occurrence de feux de forêts, de végétaux ou de maladies infectieuses signalées dans une masse de documents et rendre ainsi évidentes certaines répartitions géographiques, qui n'auraient pas pu être décelées autrement. Cette approche ne se substitue pas aux activités de recherche traditionnelles, mais elle ouvre de nouvelles perspectives, comparables à celles offertes par l'invention de la lunette astronomique ou du microscope »

Problème : pour faire de la fouille de textes… il faut des textes, et donc des copies, des compilations de ces œuvres protégées sur l’autel du droit d’auteur. On devine aisément le risque de contradiction.

Le même chercheur complétait sa présentation :

« La raison en est que les législations sur le droit d'auteur permettent aux éditeurs de limiter fortement la diffusion et la réutilisation du contenu d'une œuvre dans une autre œuvre. Cela se comprend aisément lorsqu'il s'agit d'œuvres littéraires ou artistiques, mais cela n'a pas de sens lorsqu'il s'agit de recherche scientifique. Cette inadaptation du droit est une bénédiction pour les grands éditeurs, propriétaires de très gros corpus d'articles, car elle empêche les chercheurs de pratiquer eux-mêmes le TDM, les obligeant pour cela à utiliser les outils développés par les éditeurs ».

Ce sont des décrets qui devaient fixer les conditions dans lesquelles l'exploration des textes et des données allaient être mise en œuvre dans la lignée de la loi Lemaire. Ils devaient ainsi définir « les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites »

Seulement, ces dispositions n’ont jamais été adoptées  (voir l’état d’application de la loi Lemaire), alors que Manuel Valls, premier ministre, s’était engagé à ce que tous les décrets soient publiés au printemps 2017,  « parce que c'est comme ça qu'on rend crédible la loi ». Ce calendrier a été heurté par le chantier de la directive sur le droit d’auteur dont deux dispositions concernent justement la fouille de données.

D’où la mission lancée au CSPLA, organisme rattaché au ministère de la Culture, composé pour l’essentiel de représentants des titulaires de droits, chargée de préparer le futur texte de transposition.

Insécurité juridique

« Les nouvelles technologies permettent une analyse informatique automatisée d'informations sous forme numérique, telles que du texte, des sons, des images ou des données, ce que l'on appelle généralement la fouille de textes et de données. Cette fouille de textes et de données rend possible le traitement de grandes quantités d'informations en vue d'acquérir de nouvelles connaissances et de découvrir de nouvelles tendances » expose le considérant 8 de la directive de 2019.

Or, le texte européen constate qu’actuellement, l’activité est soumise à une lourde « insécurité juridique » faute de savoir s’il est ou non possible de mener à bien ces travaux.

Des difficultés ? « Dans certains cas, la fouille de textes et de données peut entraîner des actes protégés par le droit d'auteur, par le droit sui generis sur la base de données, ou par les deux, notamment en ce qui concerne la reproduction d'œuvres ou autres objets protégés, l'extraction de contenus d'une base de données, ou les deux, ce qui est par exemple le cas lorsque les données sont normalisées lors du processus de fouille de textes et de données ».

Et lorsqu’aucune exception ou limitation ne s'applique, « l'autorisation de procéder à de tels actes est requise des titulaires de droits ». Certes, il est des cas où les chercheurs « ont accès de manière licite à du contenu, par exemple au moyen d'abonnements à des publications ou de licences en libre accès » cependant, « les conditions des licences pourraient exclure la fouille de textes et de données ».

Un TDM, deux régimes

La directive définit le text and data mining ou la fouille de textes et de données, comme « toute technique d'analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d'en dégager des informations, ce qui comprend, à titre non exhaustif, des constantes, des tendances et des corrélations »

Le régime est double. L’article 3 oblige les États membres à introduire une exception obligatoire. C’est l’exception académique. Elle autorisera « les reproductions et les extractions effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite ».

Seules ces entités pourront donc en bénéficier, non les autres. Les copies des œuvres doivent alors être stockées avec « un niveau de sécurité approprié » et peuvent être conservées « à des fins de recherche scientifique, y compris pour la vérification des résultats de la recherche ».

Les titulaires de droits se voient eux « autorisés à appliquer des mesures destinées à assurer la sécurité et l'intégrité des réseaux et des bases de données où les œuvres ou autres objets protégés sont hébergés », à condition de ne pas excéder « ce qui est nécessaire pour atteindre cet objectif ».

Enfin, les États membres devront encourager les titulaires de droits, les organismes de recherche et les institutions du patrimoine culturel à signer des accords des bonnes pratiques pour appliquer ces dispositions.

L’article 4 est beaucoup plus large. La « fouille de données » est le sujet d’une autre exception ou d’une « limitation », au choix des États. Elle s’ouvre cette fois à tous les usages « pour les reproductions et les extractions d'œuvres et d'autres objets protégés accessibles de manière licite aux fins de la fouille de textes et de données ». Il n’y a d’ailleurs plus de finalité.

Si dans les deux cas, le champ concerne les textes mais aussi les autres véhicules du droit d’auteur, il y cette fois une particularité : le législateur a prévu un régime d’opt out. L'exception ou la limitation ne s'applique qu’à condition que l'utilisation des œuvres « n'ait pas été expressément réservée par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».

En clair, dans les métadonnées notamment de ces contenus, les auteurs pourront exprimer leur opposition à cette exception. Les personnes voulant s’adonner au TDM devront alors passer par l’inévitable case contractuelle.

La transposition de ces deux articles en France

La mission sur l’exception de fouille de textes et de données a adressé un questionnaire à ses membres en vue de la transposition en droit interne des articles 3 et 4 de la directive. « Ce questionnaire, à but informatif, a pour objet de simplifier votre contribution au rapport ou de guider votre audition par la mission du CSPLA ».

Le document interroge notamment sur « les moyens techniques appropriés » (…) que les titulaires de droits pourraient utiliser pour s’opposer (…) à une fouille de textes et de données réalisée par des organismes ». Elle suggère plusieurs pistes : « métadonnées, conditions générales d’utilisation, accords contractuels, déclarations unilatérales, fichier centralisé, mesures techniques de protection, ou autres moyens », avant de se demander s’il faudra standardiser ces moyens.

« À quelles conditions les titulaires de droit pourraient-ils accepter les fouilles de textes et de données mentionnées à l’article 4 de la directive ? Le recours à une licence prévoyant des contreparties financières vous semble-t-il adapté ? » questionne encore le document.

Celui-ci demande aussi aux destinataires, membres du CSPLA, « les précisions relatives à la fouille de textes et de données que vous souhaiteriez voir inscrites dans les textes législatifs et réglementaires de transposition (…) sous réserve qu’elles ne soient pas contraires à la lettre et à l’esprit de ces dispositions ».

Les différentes réponses sont attendues avant le 1er novembre 2020 sachant que les États membres devront transposer la directive au plus tard le 7 juin 2021.

Écrit par Marc Rees

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

De la loi Lemaire à la directive Droit d’auteur

Insécurité juridique

Un TDM, deux régimes

La transposition de ces deux articles en France

Fermer

Commentaires (3)


“Toi, tu creuses”



Marc Rees creuse avec sa pioche numérique les rapports de forces et les conflits d’intérêts… pour “l’intérêt général” :pciwin:


Merci pour l’article, je vais le faire passer aux collègues ! Dans mon domaine (linguistique), l’exception académique au droit d’auteur est attendue avec impatience !



En linguistique, le droit d’auteur français est vraiment une plaie; on ne peut quasiment pas travailler sur des données provenant d’Internet. Le droit français est calibré pour des œuvres littéraires et c’est plaqué quasiment tel quel sur Internet: comment je fais moi si j’ai besoin des Œuvres complètes de Bogossdu92 chez Skyblog de 2003 à 2006, avec tous les commentaires sous les posts, y compris ceux du spammeur ivoirien qui veut lui filer ses millions de dollars (autant d’Œuvres avec des auteurs différents, parfois étrangers) ? Et même pour des textes anciens dont les auteurs sont morts depuis des siècles c’est souvent la galère sur le plan juridique; certains textes classiques on n’ose même pas y toucher.



À cause de ça, soit on travaille sur de tous petits jeux de données juridiquement sécurisées, soit on puise sur Internet des données dont on fera la publicité par le bouche à oreille, et qu’on distribuera sous le manteau, en mode “surtout tu dis à personne que c’est moi qui te les ai filées”. C’est quand même pas très glorieux pour la recherche française. Niveau valorisation, on ne peut rien faire puisque ce qu’on fait n’est pas très légal à la base, donc profil bas. Et dans les publis, on ne peut pas donner de lien vers les données pour que le lecteur puisse refaire les calculs… non seulement c’est horriblement frustrant, mais en plus scientifiquement c’est pas sérieux.


Super article. A titre perso (et pro d’ailleurs) j’aimerais en savoir plus sur le web scraping, y compris ds d’autres domaines. Par exemple, que dire de la donnée publique présente sur des réseaux sociaux (sachant que cette notion de public / privé n’existe pas ds le RGPD).



Je mets ici parce que j’ai déjà utilisé le bouton “Signaler une erreur” : le lien à la fin pour le questionnaire TDM est pété. Par ailleurs le fait d’offrir l’article est aussi pété => renvoie vers une 404.