Des centaines de projets d'intelligence artificielle et d'outils prédictifs ont été développés afin de lutter contre la pandémie de Covid-19. Plusieurs études viennent de conclure, coup sur coup, que le résultat n’était pas à la hauteur des espérances : « aucun d'entre eux n'a fait une réelle différence, certains étaient potentiellement nocifs ».
Le Turing Institute, centre national britannique pour la science des données et l'IA, a récemment rendu public un rapport issu d'une série d'ateliers organisés fin 2020. En se basant sur les contributions de la communauté britannique, la centaine d'experts en science des données pointait du doigt « l'importance – et parfois le manque – de données solides et opportunes », ils estiment en effet que « de meilleures données permettraient une meilleure réponse ».
En outre, « des problèmes d'inégalité et d'exclusion liés à la science des données et à l'IA sont apparus pendant la pandémie. Ceux-ci comprenaient des préoccupations concernant la représentation inadéquate de groupes minoritaires dans les données et le faible engagement avec ces groupes, ce qui pourrait biaiser la recherche et les décisions politiques. »
En se basant sur ce rapport, le rédacteur en chef de la section intelligence artificielle (IA) de la Technology Review du MIT, Will Douglas Heaven, affirme que les chercheurs seraient arrivés à un « consensus clair » : « les outils d'IA n'avaient que peu, voire aucun, impact dans la lutte contre la covid-19 ». Il dresse un inventaire à la Prévert des ratés les plus notables identifiés dans deux nouvelles études qu'il qualifie de « majeures » :
- des IA, entraînées à reconnaître les signes d'absence de Covid-19 sur un ensemble de données comportant des scanners thoraciques d'enfants, ont appris à identifier les enfants, et non l'absence de Covid-19 ;
- une IA, dont le modèle reposait sur des données contenant un mélange d'analyses prises lorsque les patients étaient allongés et debout, a appris à tort à prédire un risque de Covid-19 grave à partir de la position d'une personne, parce que les patients scannés en position couchée étaient plus susceptibles d'être gravement malades ;
- d'autres IA se sont focalisées sur les polices de caractère utilisées pour étiqueter les scans, et conclu que les polices utilisées par des hôpitaux avec des charges de travail plus importantes étaient prédictrices de risques de Covid-19.
Un rappel que derrière le terme galvaudé d'« intelligence artificielle », il n'y a pour le moment pas d'intelligence (ni de magie). Et que la pertinence des résultats obtenus par un modèle entraîné sur la base d'un jeu de données dépend de nombreux facteurs, dont la qualité de ces données, les critères et méthode d'entraînement, etc.
Garbage In, Garbage Out
Lorsque la Covid-19 est arrivée en Europe, « les médecins n'avaient vraiment aucune idée de la façon de gérer ces patients », explique Laure Wynants, épidémiologiste à l'Université de Maastricht aux Pays-Bas, qui étudie les outils prédictifs. « S'il y a un moment où l'IA pouvait prouver son utilité, c'était là […] J'avais de l'espoir », ajoute-t-elle. « Cela n'est jamais arrivé, mais pas par manque d'effort », analyse Will Douglas Heaven.
Auteure principale d'une étude parue dans le British Medical Journal, Wynants se dit « choquée » des résultats de l'analyse faite de 232 algorithmes censés améliorer le diagnostic des patients ou prédire à quel point les personnes contaminées pouvaient tomber malade : « cela a dépassé mes craintes ».
Une autre étude, menée par Derek Driggs, chercheur en apprentissage automatique à l'Université de Cambridge, et publiée dans Nature Machine Intelligence, va dans le même sens. Son équipe s'est concentrée sur des modèles d'apprentissage profond censés diagnostiquer la Covid-19 et prédire le risque pour le patient à partir d'images médicales, telles que des radiographies pulmonaires et des tomodensitogrammes thoraciques. Sur les 415 outils examinés, « aucun n'était adapté à une utilisation clinique » selon Heaven.
« Les deux équipes ont découvert que les chercheurs répétaient les mêmes erreurs de base dans la façon dont ils formaient ou testaient leurs outils », écrit le rédacteur en chef de la Technology Review du MIT. « Des hypothèses incorrectes sur les données signifiaient souvent que les modèles entraînés ne fonctionnaient pas comme prévu ».
De nombreux problèmes seraient également liés à la mauvaise qualité des données utilisées par les chercheurs pour développer leurs outils. L'urgence face à la progression de la pandémie a amené certains d'entre eux à vouloir aider trop rapidement, quitte à utiliser des « données mal étiquetées ou provenant de sources inconnues ».
« Au final, plusieurs centaines d'outils prédictifs ont été développés. Aucun d'entre eux n'a fait une réelle différence, certains étaient potentiellement nocifs », affirme Heaven. Des « attentes irréalistes » et le « battage médiatique » encouragent l'utilisation de ces outils « avant qu'ils ne soient prêts », certains ayant même été commercialisés par des entreprises privées. « Je crains qu'ils aient pu nuire aux patients », déplore pour sa part Wynants.
De plus, relève Heaven, de nombreux outils ont été développés « soit par des chercheurs en IA qui n'avaient pas l'expertise médicale pour repérer les défauts dans les données, soit par des chercheurs en médecine qui n'avaient pas les compétences mathématiques pour compenser ces défauts ».
S’il partage le triste constat sur la question des données, le Turing Institute est plus nuancé dans le résumé de son rapport, voyant tout de même « certains aspects positifs » dans la réponse apportée par l’IA : « Les chercheurs ont répondu à la crise avec ingéniosité et détermination, le résultat a été une série de nouveaux projets et de collaborations qui ont éclairé la réponse à la pandémie et ouverts de nouveaux domaines pour de futures études ».
Vers un partage international des données de santé ?
« Wynants et Driggs croient toujours que l'IA a le potentiel d'aider » ajoute Heaven. Le plus simple serait déjà que les équipes d'IA collaborent davantage avec les cliniciens, explique Driggs. Partager leurs modèles et divulguer comment ils ont été formés afin que d'autres puissent les tester et s'appuyer sur eux. « Ce sont deux choses que nous pourrions faire aujourd'hui », dit-il. « Et ils résoudraient peut-être 50 % des problèmes identifiés ».
Un autre souci remonté par les scientifiques interviewés par Heaven est que « la plupart des chercheurs se sont précipités pour développer leurs propres modèles, plutôt que de travailler ensemble ou d'améliorer ceux qui existent déjà ». Et ce, notamment parce qu'ils n'ont guère d'« incitations professionnelles à partager leurs travaux ou à valider des résultats existants », déplore Heaven :
« Le résultat a été que l'effort collectif des chercheurs du monde entier a produit des centaines d'outils médiocres, plutôt qu'une poignée d'outils correctement formés et testés. »
Pour résoudre ce problème, l'Organisation Mondiale de la Santé (OMS) envisagerait un « contrat de partage de données d'urgence qui entrerait en vigueur lors de crises sanitaires internationales » ajoute-t-il.
Cela permettrait aux chercheurs de « déplacer plus facilement les données à travers les frontières », explique Bilal Mateen, médecin dirigeant l'équipe de technologie clinique du Wellcome Trust, une organisation caritative mondiale de recherche en santé basée à Londres.
Avant le sommet du G7 au Royaume-Uni en juin, les principaux groupes scientifiques des pays participants ont également appelé à « la préparation des données » en vue de futures urgences sanitaires. Des initiatives et appels au changement qu'Heaven qualifie d'« un peu vagues » et au « relent de vœu pieux ».
Pour autant, Mateen en appelle à une approche « naïvement optimiste ». Avant la pandémie, l'élan pour de telles initiatives était en effet au point mort. « J'avais l'impression que la montagne était trop haute pour faire de la randonnée et que la vue n'en valait pas la peine », explique-t-il. La « Covid-19 a remis tout cela à l'ordre du jour ».
« Jusqu'à ce que nous acceptions l'idée que nous devons régler les problèmes peu sexy avant les plus sexy, nous sommes condamnés à répéter les mêmes erreurs », précise Mateen. « C'est inacceptable si cela n'arrive pas. Oublier les leçons de cette pandémie est irrespectueux envers ceux qui sont décédés ».