Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

Le 10 février s’est tenu le colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain ? » organisé par le Conseil d’État, la CNIL et l'alliance IHU-France des Instituts Hospitalo-Universitaires (IHU). Collecte des données, anonymisation, apprentissage fédéré… retour sur les préoccupations et opportunités évoquées lors de la rencontre.

Que peut l’intelligence artificielle pour le domaine de la santé ? Après l’ouverture du colloque « IA et mégadonnées : comment vont-elles révolutionner la recherche et la pratique médicale de demain » au Conseil d’État, professionnels, chercheurs et régulateurs se sont succédé en diverses tables rondes pour évoquer les enjeux et les frictions auxquelles ils doivent répondre collectivement pour tirer profit des technologies algorithmiques émergentes.

Notre récapitulatif du colloque sur l’IA et les mégadonnées dans la santé :

Au conseil d’État, la quête d’un équilibre pour favoriser l’IA en santé
Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

Que ce soit « en termes économiques purs ou en termes de maintien de la santé publique », le secteur de la santé « est un moteur économique pour le pays », rappelle Sébastien Massart, directeur stratégique de Dassault Systèmes. Représentant 7% du PIB français, c’est l’un des plus gros employeurs en France, avec 2,5 millions d’équivalents temps plein, « et une part d’emplois technologiques forte ».

Or, dans cette part technologique comme dans les instances dirigeantes, on voit bien que l’intelligence artificielle est riche en opportunités. L’une de ses applications les plus prometteuses « est l’apprentissage profond appliqué aux mégadonnées, illustre la professeure des universités et praticienne hospitalière (PUPH) à l’AP-HP Valérie Paradis. Cela va permettre de les préparer, de les analyser, puis de réaliser des prédictions », et les applications toucheront tous les domaines pratiques : « la médecine prédictive, celle de précision, la médecine préventive et l’aide au diagnostic ».

En reconnaissance d’image, les progrès les plus flagrants

Pour ce dernier point, les progrès réalisés en traitement d’image sont clairs : les machines « facilitent déjà la détection de lésion en dermatologie, en ophtalmologie ». Dans ce type de discipline, les algorithmes aident à identifier les lésions, les classer, voire à formuler des pronostics.

Les images, surtout, sont sources d’un grand nombre d’informations « que l’œil humain ne voit pas, mais que la machine peut analyser ». Que ce soit « en termes de données macroscopiques, microscopiques ou moléculaires », énormément d’éléments qui nous étaient jusque-là inaccessibles le deviennent. L’IA permet par ailleurs de gérer quantité de données « dynamiques, temporelles », bref, de déployer de nouvelles modalités d’examens de suivi.

Les mégadonnées permettent aussi de reconnaître des critères cachés, renchérit le directeur général de l’IHU Liryc Pierre Jaïs : « des paramètres que seul le grand nombre peut dévoiler » et que l’humain aurait donc été en peine d’identifier.

Associé aux technologies d’imagerie 3D, cela permet aussi au médecin de mieux comprendre ce sur quoi il va opérer, illustre le cardiologue : « Le jumeau numérique du cœur d’un patient, cela améliore la compréhension, voire peut conduire à la modification du diagnostic. » Ce type d’application offre un net gain de temps « parce qu’on a pu effectuer des tests en ligne », ce qui permet ensuite d’opérer plus efficacement.

Directrice du Health Data Hub, Stéphanie Combes tient de son côté à souligner les usages envisageables des mégadonnées en termes macro, « pour de la prévision de réhospitalisations, par exemple, ou du suivi de l’évolution des épidémies ».

L’état des données, un défi à part entière

Avant de penser aux modèles d’apprentissage profond, il faut relever le défi de la numérisation. « En radiologie, tout est numérisé depuis longtemps, souligne Valérie Paradis. Mais en histologie [étude des cellules au microscope, ndlr] tout se fait encore en analogique, sur des lames de verre. » Pierre Jaïs cite de son côté le cas des électrocardiogrammes (ECG), « disponibles uniquement sous format papier, et c’est une spécificité française : en Hollande, les ECG sont accessibles en version numérique depuis 1992 ! »

Un autre enjeu consiste à définir ce qu’est, précisément, une donnée de santé pour la recherche, puis à établir comment les obtenir. Stéphanie Combes l’explique, ces informations « sont diverses, viennent de l’administratif, du médical pur, d’autres sources » et posent toutes sortes d’enjeux d’accessibilité. « Dans certains cas, on ne sait pas qui a quoi, on ne connaît pas non plus la qualité des données en question. »

Dans d’autres, comme dans le cas des séquences d’ADN et d’ARN, les bases existent, mais elles sont si vastes qu’il est complexe de les interroger. « On parle de plusieurs pétaoctets de données, une somme qui augmente tous les ans, c’est énorme », affirme Isabelle Ryl, directrice du Paris Artificial Intelligence Research Institute (PRAIRIE). Ce qu’il manque, pour se servir de cette manne, ce sont des acteurs « qui stockent, qui nettoient, qui donnent accès, sans réinventer la roue à chaque fois. En gros, il nous manque le moteur de recherche qui permettra d’interroger ces gigantesques bases de données. »

Propriété intellectuelle et encadrement de l’usage des données de santé

« Nous avons besoin de travailler sur l’identification et l’interopérabilité des données, agrée le directeur de l’IHU ICAN Stéphane Hatem. Mais nous avons aussi besoin de trancher les questions de propriété intellectuelles, celle d’accès et de propriété des données, nous avons besoin de référentiels sur les manières de mener les anonymisations », car ces questions émergent très tôt dans les projets de recherche.

Lorsqu’il soulève ces points, la commissaire de la CNIL responsable des données de santé, Valérie Peugeot, reprend la mission d’évangélisation entamée plus tôt dans la matinée par la présidente de la CNIL Marie-Laure Denis sur le rôle de partenaire que souhaite jouer l’institution. « Ça n’est pas un hasard si notre direction de la conformité est devenue une direction de l’accompagnement à la conformité. » À raison puisque Stéphane Hatem répondra bientôt qu’il « découvre » la fonction d’accompagnement de la CNIL et qu’il se « félicite qu’elle puisse être un acteur opérationnel de terrain ».

Sur les cadres relatifs aux usages des données, c’est le représentant du service juridique de la Commission européenne, Antonios Bouchagiar, qui apporte des éléments de réponse. La volonté d’un espace européen des données de santé, explique-t-il, viendra cadrer aussi bien les utilisations primaires, « quand les données sont créées pour la première fois », que leurs usages secondaires, « pour faciliter la recherche, tout en gardant les principes européens de sécurité ».

Un futur règlement pour créer « l’espace européen des données de santé » (EHDS)

« Nous avons des interrogations sur les usages secondaires, répond néanmoins Valérie Peugeot. En l’état, les textes semblent limiter le droit d’opposition à l’usage secondaire des données, nous en sommes inquiets. » Autre point d’attention : la question du lieu géographique où sont stockées et utilisées les données, que la CNIL voudrait voir inscrite noire sur blanc, en Europe. Antonios Bouchagiar explique que les débats sont en cours.

Anonymisation et données de synthèse

L’anonymisation des informations récupérées, elle, constitue un défi à part entière. Isabelle Ryl cite le groupe de travail de la professeure de mathématiques à l’École Polytechnique Stéphanie Allassonière, engagée sur ces questions, ou simplement l’état des débats de la communauté internationale, « très mobilisée sur la question de la création de mégadonnées non identifiables ».

Elle évoque, plus précisément, la piste des données « artificielles » : « Les chercheurs sont de gros consommateurs de données brutes, mais aussi de plus en plus producteurs de données synthétiques. » Peut-être, dans la lignée des débats sur les jumeaux numériques, y aurait-il moyen de créer des « patients artificiels », in silico, pour faciliter les expérimentations.

Comme souvent, cette nouvelle piste ne vient pas sans une nouvelle série de questionnements. À l’heure actuelle, illustre la directrice du PRAIRIE, « on n’est pas encore capable de dire à quel moment une donnée artificielle est suffisamment éloignée du patient pour ne plus lui appartenir ». Au croisement des problématiques de protection de la vie privée et de propriété intellectuelle, ce type d’interrogation est proche de celui que posent les intelligences artificielles génératives en matière de droits d’auteurs, souligne-t-elle.

Getty poursuit un éditeur d’algorithme en justice pour violation des droits d’auteurs

Partage de valeurs : l’apprentissage fédéré comme solution ?

Pour Valérie Paradis comme pour plusieurs autres intervenants du colloque, les nouveaux modèles d’apprentissage fédéré présentent un potentiel certain. En effet, cette technique permet d’utiliser des données sur site, dans l’hôpital où elles ont été collectées, par exemple, sans les bouger, mais de partager le modèle – et donc les progrès d’entraînement que ces éléments lui permettent – entre différents acteurs.

Si son développement s’avère concluant, ce type de technologie pourrait aussi bien répondre aux préoccupations de protection des données qu’à celles, nécessaire, de création de modèles d’affaires adaptés à la gestion des mégadonnées de santé. Directeur Stratégie et Opérations chez Owkin, Jérôme Chevallier salue en effet la capacité de ces systèmes à « découpler l’information de la donnée elle-même, ce qui permet de protéger cette dernière » tout en tirant profit du modèle créé et entraîné ou des usages qui en sont faits.

En ce domaine, rien n’est encore arrêté. Pour Sébastien Massart (Dassault Systèmes), « le secteur de la santé est en train d’entrer dans l’économie de la connaissance. Il ne travaillait jusque-là que sur le matériel (la molécule, par exemple), il découvre le découplage qui peut exister entre le hardware et le software », le matériel et le logiciel. Comment s’en servir pour favoriser une recherche efficace ? Et créer un écosystème économique stable et profitable ? Rien n’est encore fixé, note-t-il.

Ce qui est certain, c’est qu’il y aura un coût « d’accès et d’entretien de la donnée, puis un coût industriel et scientifique pour établir les modèles et faire les recherches, et enfin la question des usages finaux. » Et d’appeler, comme la plupart des personnes présentes au Conseil d’État, à une coopération de tous les acteurs du secteur.

Commentaires (3)

pamputt Abonné

Le 14/02/2023 à 16h 00

Espérons que les scientifiques ne se laisseront pas bernés par les industriels et que les données de santé resteront extrêmement bien protégées et ne pourront être exploitées que si elles sont complètement anonymes, et on sait que ce dernier point est très loin d’être simple à satisfaire.

darkjack Abonné

Le 15/02/2023 à 16h 06

#1.1

gros + 1

Et certains scientifiques ont du mal a comprendre / accepter, les conditions imposées pour l’usage de données patients, même anonymisées. Y compris chez les data scientist…

Un chercheur m’expliquait combien il était simple de désanonymiser certaines données.
Du coup, faut vraiment que l’accès soit blindé…
Ces données, c’est un peu le graal pour les compagnies d’assurances, les recruteurs, etc…

numerid Abonné

Le 15/02/2023 à 11h 10

(reply:2119820:pamputt) Et que tout cela reposera sur des formats ouverts.

Apprentissage fédéré et usage des mégadonnées : ce que l’IA peut pour la santé

... en collaboration avec l'intelligence humaine

En reconnaissance d’image, les progrès les plus flagrants

L’état des données, un défi à part entière

Propriété intellectuelle et encadrement de l’usage des données de santé

Anonymisation et données de synthèse

Partage de valeurs : l’apprentissage fédéré comme solution ?

Tiens, en parlant de ça :

EUCS : la certification cloud européenne sous le feu des critiques en France

Chiens de faïence

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Irréductible gaulois, #oupas

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Schrems vs Meta, une histoire sans fin

Sommaire de l'article

Introduction

En reconnaissance d’image, les progrès les plus flagrants

L’état des données, un défi à part entière

Propriété intellectuelle et encadrement de l’usage des données de santé

Anonymisation et données de synthèse

Partage de valeurs : l’apprentissage fédéré comme solution ?

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

#Flock : de Game of Shithrones au jeu des sept différences

[Édito] Respectez les sciences, bordel !

Une faille critique dans le langage Rust, Windows trinque

La CADA considère que le code source et les algorithmes de MIA devraient être rendus publics

Ubuntu 24.04 LTS se profile comme une version majeure, le tour des nouveautés

Loi SREN adoptée : comment la France va sécuriser et réguler l’espace numérique

« La vidéoprotection augmentée ne sera pas optimum au moment des JO »

#LeBrief : floutage DM Instagram, Apple vs espionnage, musique par IA avec Udio, Joe Biden vs Julian Assange

Au tour de l’hôpital de Cannes d’être victime d’une cyberattaque

Une analyse (très) détaillée du hardware de la Freebox Ultra par Deus Ex Silicium

Des ondes gravitationnelles de la « fusion d’une étoile à neutrons et d’un objet compact inconnu »

Pegasus : près de 600 Polonais auraient été espionnées par l’ancien gouvernement conservateur

TikTok Lite sous pression de la Commission européenne

Solidaires informatiques alerte contre le « spectre du gamergate »

Commentaires (3)