Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning

Pseudonymiser n'est pas anonymiser

Publié dans

10/05/2023 8 minutes

Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning

Dans le cadre de la loi République numérique de 2016, les administrations françaises ont peu à peu mis en place des procédures d'automatisation de l'ouverture des données publiques. Pour certains documents, parfois nombreux, la pseudonymisation est un passage préalable légal. Une chercheuse en sociologie a publié une enquête sur l'automatisation de ce processus à la Cour de cassation.

Depuis la loi République numérique votée en 2016, l'État doit mettre, selon son article 20, l'ensemble des décisions de justice « à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées ».

Pour que cette condition de respect de la vie privée soit prise en compte, la Cour de cassation a été chargée de définir puis de mettre en application des règles de pseudonymisation qui permettent, en même temps, de garder tous les liens logiques (ce qui ne serait pas possible, par exemple, avec un simple biffage des noms).

Camille Girard-Chanudet, doctorante en sociologie au Centre d'étude des mouvements sociaux (Cems) de l'EHESS, a passé 6 mois début 2021 au sein du pôle open data du service de la documentation, des études et du rapport (SDER) de la Cour de Cassation. Elle raconte et analyse, d'un point de vue ethnographique dans un article scientifique publié dans la revue RESET, comment s'est passé la conception d'un outil de pseudonymisation utilisant le machine learning au sein de la Cour de cassation.

La création d'une nouvelle équipe autonome au sein de la Cour

Ce projet d'automatisation de la pseudonymisation des textes juridiques a été géré en interne et financé notamment par Etalab via le programme « Entrepreneurs d’intérêt général » (EIG). La chercheuse explique que le pôle « opendata » de la Cour chargé du projet réunit « l’ensemble des profils nécessaires au développement d’un outil d’IA — là où, pour ce type de projets, tout ou partie des tâches est fréquemment externalisé ».

Une équipe technique a été recrutée spécialement pour le projet : « En tout, ce sont trois développeurs, deux data scientists et un designer qui rejoignent la cour entre 2019 et 2021, avec pour missions successives la construction d’un moteur d’apprentissage automatique de pseudonymisation des décisions ainsi que la conception d’une interface d’annotation. ».

Camille Girard-Chanudet note un décalage entre cette équipe et le personnel habituel de la Cour de Cassation : « Il s’agit en effet de jeunes recrues, essentiellement masculines et issues pour la plupart du secteur privé, dont l’expérience professionnelle est axée vers l’opérationnalité et l’efficience — bien que leur intérêt pour le service public ait constitué un facteur déterminant dans leur recrutement ».

La chercheuse constate une relative autonomie matérielle et opérationnelle de cette équipe technique, symbolisée par le fait que, « contrairement aux autres serveurs de la Cour », le serveur de calcul utilisé pour l'entrainement des algorithmes d'apprentissage automatique « n’est pas géré par le service informatique, mais directement par les data scientists ».

L'annotation internalisée aussi

Même les tâches d'annotation pour l'entrainement de l'algorithme de machine learning ont été effectuées par une équipe interne, des techniciennes et techniciens administratifs (jusqu'à une quinzaine de personnes) « dont les missions s’articulent étroitement à l’expertise juridique des magistrat·es de la Cour », explique Camille Girard-Chanudet. Leur travail consiste notamment à vérifier la pertinence et corriger l'étiquetage en nom, adresse, date de naissance, adresse email... fait par la machine.

« Cette équipe réalise une part essentielle du "travail des données" nécessaire au bon fonctionnement d’un outil d’IA : elle vérifie et corrige à la main l’annotation des décisions de justice afin d’entrainer, puis de corriger, le moteur de pseudonymisation automatique », constate la chercheuse.

Elle insiste sur le fait que « l’existence d’une équipe responsable d’une telle mission au sein de la Cour de Cassation est une spécificité dans le paysage de l’IA : ce type de travail étant fréquemment laissé aux data scientists (avec un rendement limité) ou sous-traité à des plateformes spécialisées. ».

La chercheuse décrit le besoin de diverses stratégies de maintien d'attention (pauses régulières, exercices d'étirements, écoute de musique) de cette équipe pour pouvoir assurer ce travail minutieux mais fastidieux et répétitif.

Une interface graphique a été mise en place en interne pour optimiser leur travail en collaboration avec l'équipe d'annotation, mais celle-ci n'est quand même pas associée pleinement au projet : « les agents de l’équipe d’annotation ne participent pas aux réunions hebdomadaires de l’équipe projet, sont peu informé·es des enjeux et échéances sous-tendant le projet, et pas impliqué·es dans les processus décisionnels le concernant ».

Coordination par l'expertise métier

Ces deux équipes n'ont pas été laissées seules sans une expertise du milieu juridique : « Garante de cet équilibre institutionnel et juridique, et du respect des lignes directrices déterminées par des groupes de travail constitués à ce sujet, une conseillère référendaire fortement qualifiée en gestion de projet est ainsi chargée de la coordination de l’ensemble de l’équipe. Une auditrice la seconde dans le cadrage juridique du projet, guidé par une nécessité d’arbitrage entre impératif de publication (et de lisibilité) des décisions, et respect de la vie privée des personnes physiques impliquées ».

L'article de Camille Girard-Chanudet détaille la collaboration de ces différentes équipes et constate qu'elles sont confrontées à des aller-retour permanents entre logiques conceptuelles et empiriques qui placent « l’équipe d’annotation dans une position particulière pour la mise en œuvre de la pseudonymisation des décisions de justice, dont l’importance ne correspond pas forcément à sa place statutaire dans la pyramide hiérarchique du projet ».

Cette équipe peut parfois exprimer « une certaine méfiance par rapport aux choix effectués en amont ». Et dans les faits, pour la chercheuse, « les activités et réflexions de l’équipe d’annotation revêtent une importance centrale pour la conception et la matérialisation des catégories ».

La doctorante en sociologie fait un constat qu'il est toujours bon de répéter à propos de l'IA : « La machine n’est en effet apte qu’à reconnaître des entités définies, sur la base d’exemples annotés de façon cohérente et homogène ».

Un moteur de pseudonymisation de l'Opendata... en source fermée

En cherchant un peu sur GitHub, on peut retrouver la page correspondant au projet de la Cour de cassation. Il y est expliqué que « 180 000 décisions par an sont collectées dans les bases de données « Jurinet » et « Jurica » tenues par la Cour de cassation ».

Mais que, jusque-là, « sur ces 180 000 décisions, moins de 15 000 étaient diffusées en open data et sur le site Légifrance. Le logiciel d'anonymisation reposant sur un moteur de règles Luxid, qui fonctionnait de janvier 2018 à décembre 2019, dont le taux d'erreur s'approchait de 5%, demandait un temps important de correction manuelle. De plus, les évolutions de ce logiciel étaient chronophages et coûteuses. Il n'était pas adapté pour faire face à l'augmentation et à la diversification du flux ».

L'équipe y détaille donc les spécifications et explique les briques de son nouveau moteur de pseudonymisation : un modèle de langage se basant sur une combinaison de Byte Pair Embeddings et de Flair Embeddings et un modèle de reconnaissance d'entités nommées (Named Entity Recognition, NER).

Le modèle une fois entrainé est utilisé « pour prédire les entités présentes dans de nouvelles décisions de justice » en ajoutant ensuite plusieurs corrections déterministes « qui permettent de corriger les fautes communes et les omissions du modèle ».

La vue globale de pseudonymisation à la Cour de Cassation

L'équipe assure un suivi des performances et un contrôle de qualité de son système pour améliorer son modèle.

Le Chantier en cours de data science en synergie avec la nouvelle interface

Par contre, répondant à un internaute demandant si le code source était ouvert, l'équipe explique que « Pour les raisons de confidentialité nous ne pouvons pas partager ni les données source, ni les modèles LM ou NER ».

Les décisions ainsi pseudonymisées sont actuellement disponibles sur le portail Judilibre. On peut y retrouver les décisions de la Cour de cassation mais aussi, depuis avril 2022, les décisions des cours d'appel. Fin 2023, une première étape de l'open data des décisions des tribunaux judiciaires (hors matière pénale) devrait aussi avoir lieu.

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

09:44 7

Hubble fête ses 34 ans

07:32 1

Apple présentera ses nouveaux iPad le 7 mai

07:20 1

La répression des fraudes invite à signaler « les manquements liés à la consommation durable »

07:18 7

Fedora 40 est disponible en version finale

07:08 14

JOP : le festival de Cannes expérimentera lui aussi la vidéosurveillance algorithmique (VSA)

07:07 4

Sonde Voyager 1 : contact retrouvé

07:06 22

Commentaires (11)

pamputt Abonné

Le 10/05/2023 à 12h 32

J’ai du mal à comprendre où se trouve la confidentialité dans un code de pseudonymisation. Les données doivent être confidentielles mais le code ne contient normalement pas les données en dur.

En tout cas, c’est dommage qu’un logiciel développé par de l’argent public ne soit pas publié sous licence libre …

sanscrit

Le 10/05/2023 à 13h 51

#1.1

probablement pour ne pas ‘casser’ la méthode de mise en place de pseudo afin de pouvoir déterminer qu’elle juge est plus favorable pour tel type d’infraction.

127.0.0.1

Le 10/05/2023 à 14h 02

Ca fait du bien de voir un article qui ne parle pas d’ IA.
Le “machine learning” et le “deep learning”, ca change.

#sarcasm

chipotte

Le 11/05/2023 à 09h 03

#2.1

Mais carrément !

Merci pour l’article super intéressant

tfoth Abonné

Le 10/05/2023 à 14h 27

À noter qu’ils recrutent des dev full stack s’il y a des intéressés https://www.courdecassation.fr/les-offres-d-emplois-et-de-stages/cdd/developpeurdeveloppeuse-full-stack-0

domble42 Abonné

Le 10/05/2023 à 18h 58

en 2015 la cada avait rendu un avis favorable à la divulgation du code source de calcul d’impots considérant que le code source pouvait (sous certaines conditions) être considéré comme un document administratif.

ça pourrait valoir le coup de faire la demande :)

Berbe Abonné

Le 10/05/2023 à 23h 24

Dans le monde de la sécurité informatique d’ailleurs, la vraie, l’offuscation est généralement apparentée à de la dissimulation de (potentielle) défaillance : la méthode doit être vérifiable, donc publiée. Seuls les clés/secrets, données en entrée de la méthode vérifiable, sont sensibles.

Je ne comprends pas comment une entité publique peut se prévaloir du secret, qui ne devrait être engagé qu’au seul motif de la protection de personnes, cas par cas. Certainement pas pour des modèles, algorithmes ou logiciels.
J’apparente cela au refus du contrôle de l’entité publique par les citoyens qui sont censés pouvoir l’effectuer.

Depuis toutes ces années, nous devrions pourtant avoir appris que l’opacité, norme du monde économique privé (traitant les personnes/données d’autres), est à la racine d’un grand nombre de dérives, car justement incontrôlé.
Et pourtant…

J’aimerais une prise de conscience commençant par la réalisation qu’à placer l’économie avant la société, la société devient l’économie, et qu’aujourd’hui la société ne sait plus réfléchir qu’avec les réflexes/logiques qu’elle a acquis du monde économique privé.
Nos institutions publiques doivent (re)devenir le fer de lance de la société que l’on souhaite avoir par l’exemplarité.

DantonQ-Robespierre Abonné

Le 11/05/2023 à 03h 03

#5.1

Je crois que nous ne parlons pas des même types de procès.

La vie privée doit être protégée. Exemple : une victime de viol devrait avoir le droit d’être anonymisée. Cela devrait même être une condition primordiale avant de rendre public ce genre de procès.

Certains noms ne devraient pas être livrés à la vindicte publique ou à la haine en ligne. Autre exemple, dans le cas de coupables de délits mineurs qui ont pleinement purgé leur peine, ils ont droit à une nouvelle chance, et dans ce cas l’anonymat peut aider à se réinsérer.

SebGF Abonné

Le 11/05/2023 à 11h 18

(quote:2132627antonQ-Robespierre)
Certains noms ne devraient pas être livrés à la vindicte publique ou à la haine en ligne.

C’est la grosse différence entre une accusation et une condamnation.

Quand tu écoutes une affaire un peu médiatisée du type “Machin accusé de viol”, “Machin accusé de pédophilie” et j’en passe, il est déjà condamné dans l’opinion publique quand bien même la justice finirait par le blanchir. Quand je vois les réactions excessives du type la personne accusée qui perd son emploi, se fait conspuer, démolir socialement, et même condamnée à l’avance (les soupçons énoncés comme étant avérés, et non au conditionnel) c’est l’inverse de ce qu’est l’Etat de droits de mon point de vue.

Et malheureusement, plus ça va, plus on tend vers ceci (surtout avec les volontés de vouloir supprimer la présomption d’innocence pour certains cas, de l’arbitraire pur). Et dans le cas où la plainte est classée sans suites (quand il y en a une, combien de fois y a-t-il des accusations sans plaintes ?), l’affaire a été oubliée par la mémoire collective. Mais le mal a été fait.

Le 11/05/2023 à 16h 36

#6.1

+1, Ce que tu dis me fait fortement penser à l’affaire d’Outreau, avec son monceau d’erreurs et sa chaîne d’incompétence crasse, aux conséquences catastrophiques…

Il faudrait pouvoir anticiper ce genre de dégâts, l’anonymisation des comptes-rendus en ligne est une chose importante, mais bien évidemment ça ne suffit pas : pour mieux respecter la présomption d’innocence, il faudrait pouvoir, durant toute l’enquête et durant le(s) procès, garder secret les noms des présumées victimes, mais aussi ceux des accusés, notamment dans les cas ou certaines accusations s’avèrent fausses, même après appel(s).

Je n’y connais rien en matière juridique, d’autres exprimeraient ça bien mieux que moi, mais pour prolonger le propos, même la presse ne devrait pas être autorisé à dévoiler les noms des personnes privées avant l’annonce du verdict.

Par contre, du côté des personnes occupant des postes à (très) haute responsabilité, des entreprises (telles que Servier, exemple) ou autres entités collectives, je pense que l’anonymat ne servirait à rien et serait même préjudiciable au public.

Ghostofkendo Abonné

Le 12/05/2023 à 09h 43

Merci pour cet article très intéressant.

Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning

Pseudonymiser n'est pas anonymiser

La création d'une nouvelle équipe autonome au sein de la Cour

L'annotation internalisée aussi

Coordination par l'expertise métier

Un moteur de pseudonymisation de l'Opendata... en source fermée

Tiens, en parlant de ça :

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

SS 2.0

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

Get Ready for Mach 3 (qui s’en souvient ?)

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

Des tics et des tocs

Sommaire de l'article

Introduction

La création d'une nouvelle équipe autonome au sein de la Cour

L'annotation internalisée aussi

Coordination par l'expertise métier

Un moteur de pseudonymisation de l'Opendata... en source fermée

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

Hubble fête ses 34 ans

Apple présentera ses nouveaux iPad le 7 mai

La répression des fraudes invite à signaler « les manquements liés à la consommation durable »

Fedora 40 est disponible en version finale

JOP : le festival de Cannes expérimentera lui aussi la vidéosurveillance algorithmique (VSA)

Sonde Voyager 1 : contact retrouvé

Commentaires (11)