En Espagne, des algorithmes défectueux régissent la gestion des arrêts maladie

En Espagne, des algorithmes défectueux régissent la gestion des arrêts maladie

Plus de technique ≠ plus d'efficacité

Avatar de l'auteur
Mathilde Saliou

Publié dans

Sciences et espace

19/04/2023 9 minutes
12

En Espagne, des algorithmes défectueux régissent la gestion des arrêts maladie

Depuis 2018, la Sécurité sociale espagnole utilise des outils algorithmiques à l'efficacité débattue pour lutter contre la fraude aux indemnités des congés maladie, révèle une longue enquête d'El Confidencial et Lighthouse Reports. L'effet de ce type d'outils sur les droits fondamentaux est craint par les observateurs.

Jusqu’à récemment, les usagers espagnols n’avaient aucun moyen de le savoir. Mais s’ils sont partis en congé maladie dans les cinq dernières années, leur dossier a été soumis à un système d’intelligence artificielle que l’INSS (Institut National de Sécurité Sociale espagnol) a déployé à partir de 2018, ont révélé le média d’investigation Lighthouse Reports et le journal espagnol El Confidencial.

Le but de la machine : utiliser « le big data pour lutter contre la fraude ». C’est du moins cette indication, repérée en avril 2022 sur un livre blanc de l’INSS, qui a mis les journalistes sur la piste de la machine. Dans un contexte d’augmentation nette des dépenses de santé publique, encore accrue avec la pandémie, l’INSS œuvre en effet depuis 2014 à réduire la fraude aux aides sociales et à limiter les dépenses liées aux congés maladie.

« Modèle de priorisation des rendez-vous »

Pour s’aider dans cette tâche, l’administration a acheté une série de logiciels à la multinationale SAS Institute, pour 1,5 million d’euros. L’idée était d’utiliser les larges sommes de données à sa disposition pour améliorer ses processus de travail interne et lutter contre les potentiels cas de fraude. À aucun moment le gouvernement espagnol ne donne de chiffre précis sur les montants de cette fraude présumée, pointe El Confidencial.

En 2018, l’INSS a donc fait déployer son « Modèle de priorisation des rendez-vous », un des outils achetés à SAS Institute. Appuyé sur deux algorithmes d’apprentissage profond, le système est dédié à analyser les dossiers des personnes bénéficiant de la couverture maladie. Le premier algorithme (« Premiers rendez-vous ») ausculte les dossiers d’incapacité temporaire qui n’ont pas encore été analysés par des médecins inspecteurs de l’INSS, tandis que le second (« Rendez-vous suivants ») accomplit peu ou prou la même chose sur les dossiers de patients ayant déjà reçu un diagnostic médical.

En substance, la machine analyse chaque dossier reçu par la Sécurité Sociale pour vérifier si le ou la patiente s’est bien rendue aux rendez-vous médicaux obligatoires et déterminer si la personne est en droit de continuer de percevoir ses prestations sociales. Elle identifie aussi les profils qui devraient déjà avoir retrouvé leur emploi et, sous réserve que ceux-ci n’aient pas été licenciés, y accole l’indication d’un potentiel cas de fraude.

À partir de tous ces paramètres, le système donne à chaque dossier une note qui varie entre 0 et 1, visible dans l’application couramment utilisée par les agents de l’INSS. Plus on se rapproche de 1, plus il est probable que le dossier concerne une personne prête à retourner au travail, selon les constructeurs du programme. De fait, le logiciel participe à classer l’ordre dans lequel les inspecteurs médicaux de l’INSS devraient traiter les dossiers.

Un « exemple de mauvaises pratiques »

Le logiciel a plusieurs implications. En cas de maladie, les bénéficiaires de la sécurité sociale dépendent de ses résultats pour continuer d’obtenir leurs allocations. Le travail des inspecteurs de l’INSS est lui aussi touché, dans la mesure où toute erreur de la machine leur fait perdre du temps, puisqu’ils doivent vérifier les potentiels cas de fraude.

Interrogé par le média espagnol, le directeur de l’Observatoire de l’éthique de l’IA de Catalogne Albert Sabater décrit tout le projet comme « un exemple de mauvaises pratiques », notamment pour son manque de transparence et de consultation des personnes concernées par l’usage de la machine. En effet, le déploiement de l’outil de l’INSS est resté secret pendant plusieurs années. Et si Lighthouse Reports et El Confidencial ont réussi à obtenir une série de documents techniques qui permettent d’en détailler le fonctionnement à grands traits, de nombreux éléments manquent encore pour évaluer ses effets directs et indirects.

Divers experts s’inquiètent aussi des résultats « médiocres » que produit le logiciel et de l’aspect « déséquilibré » de son jeu d’entraînement. Parmi les documents récupérés par El Confidencial, l’un d’eux, non daté, calcule la sensibilité (proportion de cas positifs correctement identifiés par la machine) et la spécificité (proportion de cas négatifs identifiés comme tels par la machine) du premier algorithme, celui qui trie les « Premiers Rendez-vous ». Dans le premier cas, la machine a correctement qualifié 65 % des dossiers qui lui ont été soumis, et dans le second, seulement 25 %. Un résultat « très pauvre » selon la chercheuse en intelligence artificielle Ana Valdivia.

Pour fonctionner, le modèle s’appuie par ailleurs sur une variété de données sensibles au sens du RGPD : sexe, âge, lieu de résidence, antécédents en matière de congés médicaux, diagnostic dans certains cas… Mais faute de précision de la part de l’administration, impossible de savoir dans quelle mesure chacun de ces éléments influe sur les notes fournies par le système.

Et le ministère en charge de l’implémentation de l’outil n’a donné aucune indication au média sur d’éventuels audits et évaluations des dangers posés par l’usage de ce type d’information.

Sur le terrain, un usage débattu

Plusieurs facteurs expliquent le déploiement d’une telle mécanique, à commencer par la tension dont souffre le secteur de la santé en Espagne. Si le nombre des travailleurs se retrouvant en congé maladie a grimpé de 350 000 personnes en 2013 à 850 000 en 2022, le nombre d’employés de l’INSS, lui, s’est réduit sur la même période. À l’heure actuelle, un poste sur quatre n’est pas pourvu.

La situation a nettement pesé dans la décision de l’INSS de déployer des outils algorithmiques, indique El Confidencial. En ajoutant les coûts d’implémentation - réalisée par ViewNext, une filiale espagnole d’IBM - à ceux de fabrication, le seul « modèle de priorisation des rendez-vous » a coûté au moins un million d’euros, calcule Lighthouse reports.

Une somme que différents médecins interrogés auraient préféré voir dépensée dans les ressources humaines de l’INSS. Plusieurs d’entre eux admettent aussi que, même s’ils travaillent avec, au quotidien, ils ne comprennent toujours pas exactement comment la machine fonctionne et calcule.

Sur le terrain, plusieurs des personnes interrogées par El Confidencial soulignent un autre point : il y a un monde entre la note froide attribuée par le système informatique et la réalité vécue par chaque patient.

Divers médecins se déclarent déçus par l’écart constaté entre la promesse et la réalité de l’outil qu’ils doivent utiliser et s’inquiètent d’une simplification bien trop grande d’une matière complexe – il peut y avoir énormément de raisons difficiles à voir dans les dossiers pour lesquels un patient met du temps à retourner au travail, pointe notamment un fonctionnaire.

Enfin, la pause forcée par l’explosion de la pandémie a posé de nouveaux problèmes : elle a empêché d’entraîner les modèles aussi régulièrement que nécessaire tandis qu’elle modifiait profondément les causes et les spécificités des arrêts maladie. Ces deux points font craindre une dégradation accrue des résultats fournis par la machine.

Algorithmes et dépenses publiques, une tendance mondiale

L’histoire espagnole n’a rien d’un cas isolé. Comme le souligne El Confidencial, partout sur la planète, des gouvernements développent l’usage d’algorithmes dans la gestion de leurs dépenses publiques. Plusieurs constantes dans le phénomène : ces machines sont généralement développées par des sociétés privées et vendues contre la promesse de réaliser des économies. Ces entreprises évoquent fréquemment des volumes de fraude exagérément élevés, indique Lighthouse Reports, de l’ordre de 5 % des dépenses publiques, quand différents experts d’administrations nationales s’accordent sur des taux de 0,2 à 0,4 % de fraude.

Ces machines sont par ailleurs déployées dans une relative opacité. Problème : les algorithmes commettent des erreurs – comme les humains –, erreurs qui ont des effets sur la situation réelle des citoyens.

Aux Pays-Bas, une précédente enquête de Lighthouse Reports et Wired a détaillé comment le logiciel de détection de fraude aux allocations sociales utilisé par la ville de Rotterdam sous-évaluait systématiquement les dossiers des femmes et des personnes nées hors du pays. Conséquence directe : ces personnes sont beaucoup plus souvent soumises à des contrôles pour suspicion de fraude que le reste de la population.

Dans la ville de Zaandam, un autre système vise spécifiquement les personnes les plus pauvres, dont la subsistance repose sur les aides sociales. Même s'il enfreint très probablement la protection des droits humains exigée par les textes européens, il reste utilisé.

Faute de transparence, les administrations ne rendent que peu de comptes sur le fonctionnement et les résultats réels de leurs équipements techniques. En Espagne, El Confidencial a eu beau demander l’information, impossible, pour le moment, de savoir quels types de contrôles et d’évaluation du modèle de l’INSS ont été mis en place, ni qui les réalise.

Impossible de vérifier, donc, si la machine discrimine certains groupes sociaux, une vraie inquiétude puisque le phénomène a déjà été constaté dans un autre cas espagnol, aux Pays-Bas, aux États-Unis, en Australie ou ailleurs. En France, l’usage que fait la CAF d’outils algorithmiques pour détecter les allocataires déclarés « à risque » est critiqué par de nombreuses associations.

Dans la proposition de règlement européen sur l’IA sur laquelle travaille actuellement le Parlement, les systèmes dédiés à un usage par les administrations sont classés dans la catégorie à haut risque. Dans l’agitation créée par la popularisation de modèles algorithmiques accessibles au grand public, comme ChatGPT, un nombre croissant d’experts appellent par ailleurs à différentes formes de régulations nationales, voire mondiales.

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

« Modèle de priorisation des rendez-vous »

Un « exemple de mauvaises pratiques »

Sur le terrain, un usage débattu

Algorithmes et dépenses publiques, une tendance mondiale

Fermer

Commentaires (12)


La nouvelle solution magique à tous les problèmes. Misère.


Si j’ai bien compris, l’algo ne sert qu’à guider les contrôles, mais ne prend pas de décision par lui-même. Si les dossiers sélectionnés par l’algo sont des cas de fraude à 65%, c’est il me semble un très bon résultat. En tout cas, j’ose espérer qu’un contrôle aléatoire mènerait à un taux de détection de fraude bien plus bas.


Le point important c’est la réduction d’effectif, que la détection soit purement aléatoire ou présélectionné sur un critère +/- pertinent, si tu as pas assez ressources humaines pour traiter la suite (par exemple de médecins expert ou de juristes pour instruire le dossier) cela ne va pas être très efficient.



Et si il n’y a pas d’évaluation après la mise en place, impossible d’estimer si la nouvelle méthode (avec algo/AI/ poudre verte) est meilleure que l’ancienne.


Si l’algorithme te fournit 35% de faux-positifs, c’est autant de dossiers qui devront repasser entre les mains des fonctionnaires. Ca me paraît au contraire un résultat assez mauvais, et je doute franchement que le travail manuel soit réduit dans un domaine où qualifier si quelqu’un est malade ou apte à travailler reste la prérogative d’un médecin bien humain…


CounterFragger

Si l’algorithme te fournit 35% de faux-positifs, c’est autant de dossiers qui devront repasser entre les mains des fonctionnaires. Ca me paraît au contraire un résultat assez mauvais, et je doute franchement que le travail manuel soit réduit dans un domaine où qualifier si quelqu’un est malade ou apte à travailler reste la prérogative d’un médecin bien humain…


Ce ne sont pas de “faux positifs” en tant que tel. L’algo ne sert qu’à sélectionner les dossiers qui devront être soumis à un contrôleur humain qui poussera les investigations plus loin, c’est tout ; il n’a pas vocation à donner une réponse définitive, juste une tendance. Je trouve au contraire que si 65% des cas pré-sélectionnés s’avèrent être des cas de fraude une fois contrôlés par le médecin conseil bien humain, alors c’est un résultat bien spectaculaire. Je serais curieux de connaître le taux de fraudes détectées quand la pré-selection des dossiers à contrôler est faite par un humain, mais à mon avis c’est beaucoup moins.



Bien sûr in fine, la visite médicale de contrôle est faite par un vrai médecin humain qui est le seul à avoir le pouvoir de décision, mais s’il peut concentrer son énergie sur les cas identifiés comme suspects, alors ce n’est pas plus mal. Après, je vois un biais : si l’IA est trop performante et lui présente majoritairement des cas de fraudeurs, alors à la longue il finira par avoir un préjugé défavorable et aura tendance à juger comme fraudeur tous les cas qu’on lui présente, alors que s’il passe son temps à contrôler des innocents et ne rencontre que 1% de fraudeurs, il n’aura pas ce préjugé, ce qui peut changer la donne sur des cas borderline.


alex.d.

Ce ne sont pas de “faux positifs” en tant que tel. L’algo ne sert qu’à sélectionner les dossiers qui devront être soumis à un contrôleur humain qui poussera les investigations plus loin, c’est tout ; il n’a pas vocation à donner une réponse définitive, juste une tendance. Je trouve au contraire que si 65% des cas pré-sélectionnés s’avèrent être des cas de fraude une fois contrôlés par le médecin conseil bien humain, alors c’est un résultat bien spectaculaire. Je serais curieux de connaître le taux de fraudes détectées quand la pré-selection des dossiers à contrôler est faite par un humain, mais à mon avis c’est beaucoup moins.



Bien sûr in fine, la visite médicale de contrôle est faite par un vrai médecin humain qui est le seul à avoir le pouvoir de décision, mais s’il peut concentrer son énergie sur les cas identifiés comme suspects, alors ce n’est pas plus mal. Après, je vois un biais : si l’IA est trop performante et lui présente majoritairement des cas de fraudeurs, alors à la longue il finira par avoir un préjugé défavorable et aura tendance à juger comme fraudeur tous les cas qu’on lui présente, alors que s’il passe son temps à contrôler des innocents et ne rencontre que 1% de fraudeurs, il n’aura pas ce préjugé, ce qui peut changer la donne sur des cas borderline.


Je me suis fait la même remarque qu’Alex : 65% de fraude constatée dans les dossiers sélectionnés, c’est spectaculaire.
Du coup, je me demande si j’ai bien compris, si c’est bien rédigé par NXI, si c’est bien exprimé dans l’étude. J’ai quand même un gros doute que ce soit bien ça
Si c’est vrai, il faut généraliser d’urgence : aucune raison de ne pas lutter contre la fraude ! (ah zut, l’article voulait pointer les risques de généralisation. C’est ballot, je viens de proposer le contraire ;) )


CounterFragger

Si l’algorithme te fournit 35% de faux-positifs, c’est autant de dossiers qui devront repasser entre les mains des fonctionnaires. Ca me paraît au contraire un résultat assez mauvais, et je doute franchement que le travail manuel soit réduit dans un domaine où qualifier si quelqu’un est malade ou apte à travailler reste la prérogative d’un médecin bien humain…


Hello, c’est rédigé de manière un peu trop rapide de ma part, je pense.
Dans l’article initial, El Confidencial parle d’un document interne non daté qui calcule la sensibilité (proportion de cas positifs correctement identifiés par la machine) et la spécificité (proportion de cas négatifs identifiés comme tels par la machine) du premier algorithme sur les deux utilisés.
Le ministère a testé 337 dossiers de patients censés terminer leur congé maladie et qui l’ont effectivement terminé. Sur ce lot, l’algo a correctement qualifié 65 % des dossiers (mais s’est trompé sur les 117 restants). Par contre, côté spécificité, la machine n’a correctement qualifié que 387 des 1540 cas qui lui ont été soumis (soit 25 %).
Je teste une formulation un peu plus claire et voici la source, si vous voulez y jeter un œil (il faut lire l’espagnol) : https://www.elconfidencial.com/tecnologia/2023-04-17/seguridad-social-ia-inteligencia-artificial-inss-bajas-empleo-algoritmos_3611167/



L’idée était d’utiliser les larges sommes de données à sa disposition.




Le problème c’est pas d’avoir des données, mais des données qualifiées !



Mihashi a dit:


Le problème c’est pas d’avoir des données, mais des données qualifiées !




Oh oui.



Comme on dit dans le domaine des flux : shit in, shit out.



(quote:2130071:alex.d.)
Je trouve au contraire que si 65% des cas pré-sélectionnés s’avèrent être des cas de fraude une fois contrôlés par le médecin conseil bien humain, alors c’est un résultat bien spectaculaire.




Ce n’est pas ce que je comprend de l’article, les 65% c’est pour identifier ceux qui n’ont pas fait les rdv médicaux obligatoires, fraude ou pas.


Relis le commentaire juste au dessus du tien. L’article a été modifié entre temps.


alex.d.

Relis le commentaire juste au dessus du tien. L’article a été modifié entre temps.


:chinois: