La recherche française poussée à publier ses données

Savoir.données.gouv

En juillet dernier, le ministère de l'Enseignement supérieur et de la Recherche annonçait l'ouverture d'un portail des données de la recherche française : Recherche Data Gouv. L'accès à ces données est une porte d'entrée importante pour de nouvelles recherches et vérifier l'intégrité scientifique des connaissances. Mais pourquoi ajouter un nouveau dépôt alors que certaines disciplines se sont déjà organisées internationalement sur le sujet ?

Lors de l'inauguration de la plateforme le 8 juillet 2022, la ministre de l'Enseignement supérieur et de la Recherche, Sylvie Retailleau, déclarait « avec Recherche Data Gouv, la France se donne une vue d'ensemble de son patrimoine de données ».

Mais quand on interroge des personnels de la recherche française sur l'utilisation de ce nouvel outil numérique, les retours sont plutôt circonspects. Si tout le monde, même les personnes qui ne sont pas affiliées à une institution scientifique, peut se faire un compte sur le site, les formats de données et le moteur de recherche rendent plutôt difficile son utilisation.

Et pour les chercheurs qui veulent ajouter des données au portail, le premier pas peut être laborieux : « J'ai passé une heure à chercher le bouton Déposer, avant de comprendre qu'il fallait demander l'autorisation de déposer, autorisation reçue trop tard (je soumettais un papier) », explique l'une des personnes que nous avons interrogées.

Et le site arrive alors que de nombreuses disciplines ont déjà leurs propres serveurs de données qui fédèrent plutôt les chercheurs et chercheuses à l'international.

Des dépôts internationaux déjà utilisés

Il existe déjà énormément de dépôts de données adaptés aux nombreuses disciplines et sous-disciplines de recherche. Par exemple, le Global Biodiversity Information Facility (GBIF), permet aux chercheurs et chercheuses qui travaillent sur la biodiversité de partager leurs données à l'ensemble de leur communauté.

De même, les biologistes peuvent utiliser GenBank pour publier leurs séquences d'ADN, l'European Nucleotide Archive (ENA) pour leurs séquences nucléotidiques et Protein Data Bank pour la configuration 3D de leurs protéines. En astronomie, le Centre de Données astronomiques de Strasbourg héberge, par exemple, déjà trois des plus grosses bases de données du domaine.

Et une bonne partie des disciplines se sont déjà organisées pour stocker les données qui leur semblent importantes à partager, sans prendre ombrage du fait que les données sont stockées sur des serveurs se trouvant aux États-Unis, en Europe ou ailleurs (ce qui ne veut pas dire que cet enjeu n'est pas discuté dans les communautés scientifiques).

Un dépôt « souverain » pour ceux qui n'en ont pas

Contrairement à ce qu'on pourrait penser, sans doute à cause d'une communication essentiellement centrée sur Recherche Data Gouv, le but de la création du portail n'est pas de remplacer tous ces serveurs de données déjà utilisés par les chercheurs français, mais plutôt de leur proposer un endroit où stocker et partager leurs données si aucun service n'est encore prévu et de les inciter à les publier de la meilleure des façons possibles. En effet, s'il existe déjà beaucoup de solutions de dépôts, beaucoup de chercheurs stockent encore leurs informations sur leurs ordinateurs, des disques durs externes ou même sur des clés USB.

« La pratique conseillée est de déposer et publier ses données dans l’entrepôt le plus adapté à sa communauté scientifique, le catalogue de données de Recherche Data Gouv qui est en cours de conception se chargera autant que possible de les repérer et de les signaler », nous confirme l'équipe de Recherche Data Gouv. Nul besoin qu’elles soient toutes sur le serveur de Recherche Data Gouv, « certains jeux de données sont uniquement décrits sur Recherche Data Gouv, seules leurs métadonnées y sont ».

Et c'est ça qui le distingue du service Zenodo proposé par le CERN. Celui-ci est très pratique pour déposer des données mais il n'a pas été créé comme une archive pérenne avec des métadonnées bien renseignées. De mauvaises langues pourraient remarquer que c'est un argument qui a été utilisé pour défendre l'archive ouverte française d'articles scientifiques HAL et qu'elle est maintenant utilisée par certaines administrations comme lieu de mise en ligne obligatoire.

Si le service n'est pas prévu pour accueillir toutes les données scientifiques françaises, l'équipe nous assure que « l’architecture technique est scalable pour s’adapter très rapidement à l’augmentation des volumes de données déposées ». Il n'y a pas à proprement parlé de quota pour les chercheurs mais chaque établissement de recherche, qui assure au sein de leur espace la vérification des données et métadonnées, a un volume par défaut de 5 To « qui peut être revu à tout moment à la hausse », toujours selon le personnel chargé du projet.

« Recherche Data Gouv a pour vocation d’apporter une solution souveraine aux équipes dépourvues de solution pour ouvrir leurs données » rajoute l'équipe.

Le portail se base sur celui de l'Inrae qui existait déjà (ce qui explique la prédominance des données sur l'agriculture et l'alimentation) et utilise le logiciel libre Dataverse. Mais Recherche Data Gouv n'est en fait que l'une des pierres de la politique de dépôts de données que veut insuffler le ministère.

Un écosystème d'accompagnement et de formation

Si Recherche Data Gouv est la partie émergée de l'iceberg, une plateforme de formation, DoRANum a été mise en place. Elle permet aux chercheurs de comprendre quels sont les enjeux de la publication des données scientifiques et par exemple les principes du FAIR (Findable, Accessible, Interoperable, Reusable), lignes directrices d'amélioration de la réutilisation des données de la recherche publiées en 2016 dans la revue scientifique Nature.

Le centre de ressources OPIDoR, destiné aux infrastructures de recherche, a aussi été mis en place. L'idée est d'accompagner les établissements et les structures disciplinaires dans leurs plans de gestion de données.

Le ministère a aussi incité les établissements à créer des « ateliers de la donnée », lieux où leurs personnels pourraient trouver de l'aide pour toutes ces questions. Comme ces « ateliers » ont été financés par des appels à projets, il n'y en a actuellement que 5 labellisés et 8 en cours de labellisation.

Les GAFAM et les entreprises d'analyse de données

Selon l'équipe de Recherche Data Gouv, « l’objectif est de garantir qu’aucun chercheur ne se retrouve sans solution pour la gestion et la conservation pérenne de ses données. Il devrait être adapté à la gestion de données de longue traîne, dispersées, hétérogènes et peu structurées, de manière à ce qu’elles puissent être préservées et, autant que possible, partagées et réutilisées».

Le ministère veut, en fait, réagir face à l'utilisation massive des outils des GAFAM dans le milieu de la recherche et à l'appétit croissant des multinationales de la recherche qui voient dans les données des chercheurs un eldorado à conquérir.

D'un côté, beaucoup de chercheurs utilisent déjà Google Drive ou un autre service de cloud pour stocker leurs données. Amazon propose un « Open data sponsorship program » qui permet d'accéder à des services du géant du numérique si les données sont ouvertes.

De l'autre côté, la multinationale de la recherche Elsevier, qui est toujours l'un des plus gros éditeurs scientifiques mondiaux, ne se présente plus comme telle sur son site internet mais comme « une entreprise d’analyse de données » depuis déjà quelques années. Et Springer Nature, l'un des autres acteurs privés principaux de la recherche n'est pas en reste. Un an après la création du dépôt Figshare par Mark Hahne, la multinationale le rachetait, via sa filiale Digital Science.

L'étiquette de dépôt « souverain » est là pour marquer l'ambition de ne pas laisser les données des chercheurs français aux grandes entreprises de ces deux secteurs. L'équipe du projet explique que « Recherche Data Gouv se construit dans un contexte international et ambitionne d’être un service de l’European open science cloud ».

Si la souveraineté affichée du projet pourrait sembler franchouillarde, l'équipe affiche sa volonté de s'intégrer dans une politique plus européenne des données de la recherche. Reste à voir si la gouvernance actuellement très française arrivera à s'adapter aux différentes cultures de gestion européennes.

Commentaires (10)

Tandhruil

Le 16/11/2022 à 08h 46

L’équipe nous assure que « l’architecture technique est scalable (…)”

Vous êtes sur que c’est la recherche française qui s’exprime ?

Sinon, quelle est la différence entre séquences d’ADN et séquences nucléotidiques (je ne suis pas biologiste)

Soriatane Abonné

Le 16/11/2022 à 12h 38

#1.1

De mémoire de mes cours, les nucléotides se retrouvent l’ADN et l’ARN (et des ARN il y en a plein).

nsulek

Le 16/11/2022 à 09h 36

Bonjour,

pour info, il y a 2 sites pour recherche.data.gouv.fr :

https://recherche.data.gouv.fr : portail d’actualités, tuto, …, qui se veut le vrai point d’entrée

https://entrepot.recherche.data.gouv.fr : qui est pour l’exploitation des données via dataverse.

Pour le moment, tout est hébergé à l’INRAE dans la V1 lancée en juillet, car, comme indiqué dans l’article, tout est basé sur l’infra existante à l’INRAE. Mais la V2, prévue l’année prochaine, devrait être moins INRAE :

le portail recherche.data.gouv.fr devrait partir dans un cloud souverain, pour pouvoir être réellement scalable et dispo H24 (passage d’une infra legacy à kubernetes)

l’entrepôt entrepot.recherche.data.gouv.fr sera peut-être réparti entre plusieurs partenaires (universités, instituts, …) voire sur du cloud souverain.
Le tout avec des équipes d’exploitation mixtes ou infogérées.

Thoscellen Abonné

Le 16/11/2022 à 15h 38

#2.1

Merci de l’info; c’est cool que le cloud souverain trouve un second souffle et une utilité, et c’est sympa d’avoir de genre d’ouvertures et d’initiatives ; même si ca semble assez chaotique de comprendre et communiquer sur l’IT française

the_frogkiller Abonné

Le 16/11/2022 à 10h 13

Tandhruil a dit:

Vous êtes sur que c’est la recherche française qui s’exprime ?

Sinon, quelle est la différence entre séquences d’ADN et séquences nucléotidiques (je ne suis pas biologiste)

Il y a les séquences d’ARNs qui sont d’autres acides nucléiques qui interviennent entre autre dans la synthèse des protéines ou l’inactivation d’un des chromosomes X pour les femmes par exemples

Le 16/11/2022 à 10h 17

#3.1

Merci

pamputt Abonné

Le 16/11/2022 à 11h 41

Plutôt que comme une plateforme de formation, j’aurais plutôt vu DoRANum comme la plateforme d’exploration des données numériques.

Le 16/11/2022 à 11h 46

L’étiquette de dépôt « souverain » est là pour marquer l’ambition de ne pas laisser les données des chercheurs français aux grandes entreprises de ces deux secteurs.

Étant donné que les données ont vocation à être ouvertes, ces entreprises pourront quand même les aspirer pour en faire ce qu’elles veulent (et c’est le but). Donc le but, c’est surtout de s’assurer que ces données restent ouvertes ce qui n’est pas garanti si elles sont stockées chez des opérateurs privés.

datactivist Abonné

Le 16/11/2022 à 16h 31

Merci pour cet article qui met en lumière les avancées récentes en matière de gestion et ouverture des données de la recherche française. Vous avez raison de souligner que cet entrepôt générique est complémentaire des entrepôts spécialisés existants ; c’est peut-être moins évident mais il répond à un vrai besoin pour des disciplines ou des chercheurs qui pouvaient se sentir laissés au bord de la route par les grandes infrastructures existantes.

Dans notre expérience, la possibilité de déposer un jeu de données dépend de l’institution de rattachement. Quand (comme dans notre cas de société coopérative) l’utilisateur n’est pas rattaché à un institution, alors le rôle de déposant est accordé uniquement sur demande. À l’inverse, pour un bon fonctionnement de l’entrepôt et pour limiter les frictions inutiles, il semblerait naturel que les chercheurs authentifiés par leur compte institutionnel puissent déposer directement leurs données 🙂

Berbe Abonné

Le 17/11/2022 à 17h 38

Je ne connaissais pas ce logiciel et le découvre.

Excellente chose que ce soit FLOSS. Cela semble évident, mais ce monde étant fou, il convient alors de le souligner.

Cependant, bien que le nom y fasse penser, il n’y a pas de fédération (suffixe -erse associé à universe, la sous-entendant).
Cela veut donc dire qu’il s’agit d’un n-ème endroit pour déposer des documents, distinct des autres, ne pouvant permettre d’atteindre un objectif de contribution à un pot commun. Ce sera simplement un pot de plus, orienté vers les chercheurs ne disposant pas de serveur de stockage.
Dommage.

Il a bien le support d’un protocole ouvert d’exposition des métadonnées OAI-PMH, mais rien qui permette le dialogue & la découverte d’autres instances sans passer par un annuaire (annuaire consistant en l’occurrence en un document hébergé sur un produit SaaS d’un géant états-unien… re-tristesse).

La véritable problème, le plus grand défi de la publication scientifique, est de pouvoir rechercher de manière la plus universelle possible dans les travaux documentaires.
Que l’on souhaite commencer “petit” en fédérant l’ensemble de la recherche française aurait pu être un beau morceau. Si cette fédération avait été bien conçue, on aurait ensuite pu la proposer à l’échelle européen et ainsi tenter de créer un vivier souverain fertile pour notre recherche collective qui n’a rien à envier à d’autres endroits de la planète.

Une fédération de dépôts de recherches, chacun administrables localement par chaque entité, mais participant à un univers commun sur la base d’un protocole commun & ouvert, et permettant une découverte/recherche universelle, serait bien plus souhaitable.

Et surtout, bien plus important, cela me semble aujourd’hui réalisable… peut-être pas avec Dataverse.

La recherche française poussée à publier ses données

Savoir.données.gouv

Des dépôts internationaux déjà utilisés

Un dépôt « souverain » pour ceux qui n'en ont pas

Un écosystème d'accompagnement et de formation

Les GAFAM et les entreprises d'analyse de données

Tiens, en parlant de ça :

#Flock craque le slip et explose les quotas

Avec trois brouillons en bonus !

[Édito] Au pays des VPN menteurs…

Article sponsorisé par les lecteurs de Next

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Le progrès <3

Sommaire de l'article

Introduction

Des dépôts internationaux déjà utilisés

Un dépôt « souverain » pour ceux qui n'en ont pas

Un écosystème d'accompagnement et de formation

Les GAFAM et les entreprises d'analyse de données

#Flock craque le slip et explose les quotas

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

Commentaires (10)