Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !
Etalab propose un outil open source de pseudonymisation

Le département de la direction interministérielle du numérique (DINUM) chargé de « la conception et la mise en œuvre de la stratégie de l’État dans le domaine de la donnée » a publié la semaine dernière un outil de pseudonymisation alimenté par une intelligence artificielle.

Pour rappel, la différence entre pseudonymisation et anonymisation est importante. Dans le premier cas, il s’agit d’un « traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires ». Les données sont ainsi « indirectement identifiantes ». C’est la technique notamment utilisée par l’application StopCovid.

En plus de la mise en ligne d’un guide expliquant « pourquoi et comment pseudonymiser dans l'administration », Etalab propose désormais un outil open source (licence MIT) utilisant une intelligence artificielle pour pseudonymiser des documents. 

Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt (100 ko max). Pour l’instant 158 documents et 7279 phrases ont été traités ainsi. 

16 commentaires
Avatar de Zerdligham INpactien
Avatar de ZerdlighamZerdligham- 08/06/20 à 08:30:33

Curieuse pratique que d'envoyer à un tiers un document qu'on souhaite pseudonymiser.
Ça me rappelle les services en ligne proposant de changer le format de la clé privée associée à un certificat...

Le site a le mérite d'indiquer qu'il ne faut pas lui envoyer des documents sensibles.

Avatar de Trit’ Abonné
Avatar de Trit’Trit’- 08/06/20 à 08:44:28

« Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt »
Et quid de l’OpenDocument, qui est le standard préconisé par le Référentiel Général d’Interopérabilité pour les documents bureautiques ?

Non, parce que le DOC, il est obsolète et abandonné depuis 2006 (ça fait 14 ans !), et le DOCX n’est pas interopérable (et déconseillé par le même RGI, au passage).

C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 08/06/20 à 09:19:29

Le .doc, et plus secondairement le .docx, reste la norme d'usage, c'est à dire le format que la majorité utilise. Dans la plupart des administrations (publiques et privées), tu vas souvent te retrouver avec ce vieux document .doc (celui avec le formatage direct des titres et les alignement fait à base d'espace, d'entrée et de point, tout le monde le connais celui là). Quand quelqu'un t'envoie un document texte, tu as pratiquement toutes tes chance que ce soit un .doc ou un .docx (en dehors de la bubulle des linuxiens)
Autant dire que le .odt, ça a beau être la norme imposée, le pécore moyen s'en branle, l'usage c'est .doc et .docx.

Du coup, pourquoi pas d'odt ? On peut imaginer plusieurs scénario, par exemple la bibliothèque utilisait ne le gère pas, et que ça demande du travail supplémentaire pour le supporter alors qu'ils ont fait ça avec les connaissances et les moyens du bord (le stagiaire qui a codé à l'arrache le webservice sur sa dernière semaine ?).

Avatar de ndjpoye Abonné
Avatar de ndjpoyendjpoye- 08/06/20 à 09:25:22

Trit’ a écrit :

« Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt »
Et quid de l’OpenDocument, qui est le standard préconisé par le Référentiel Général d’Interopérabilité pour les documents bureautiques ?

Non, parce que le DOC, il est obsolète et abandonné depuis 2006 (ça fait 14 ans !), et le DOCX n’est pas interopérable (et déconseillé par le même RGI, au passage).

C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é

Malgré le texte, en fait t'arrives à lui faire manger de l'odt.

Par contre, je lui ai fait manger mon cv et le seul truc qu'il anonymise c'est Office :transpi::

Nb: malheureusement, tu trouves encore pas mal de .doc en circulation.

Avatar de Jarodd INpactien
Avatar de JaroddJarodd- 08/06/20 à 10:09:30

Ciotti et Estrosi désapprouvent cet outil.

Avatar de numerid Abonné
Avatar de numeridnumerid- 08/06/20 à 12:41:43

Ne prend pas en charge les formats ouverts pourtant recommandés par le RGI !

Édité par numerid le 08/06/2020 à 12:45
Avatar de numerid Abonné
Avatar de numeridnumerid- 08/06/20 à 12:54:50

Trit’ a écrit :

C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é 

  Tout à fait. Le .doc n'est plus maintenu depuis 2014.

ndjpoye a écrit :

Malgré le texte, en fait t'arrives à lui faire manger de l'odt.

Proprement (je veux dire, il respecte le document) ?.

Sinon, on peut décocher l'option "Utiliser les donnés d'identités" dans les propriétés de LibreOffice qui éliminent le nom de l'auteur ou utiliser Grammalecte (le correcteur propose aussi ça)  et modifier le nom de l'auteur ce qui "pseudonymie" le document sans l'anonymiser à l'export en pdf.

Édité par numerid le 08/06/2020 à 12:55
Avatar de numerid Abonné
Avatar de numeridnumerid- 08/06/20 à 12:58:03

Après, pour vérifier ce que ça fait réellement, il faut voir dans le XML.

Avatar de ndjpoye Abonné
Avatar de ndjpoyendjpoye- 08/06/20 à 13:11:25

numerid a écrit :

Proprement (je veux dire, il respecte le document) ?.

L'aperçu t'enlèves tous ce qui concerne la présentation. Mais j'obtiens le même résultat (texte et présentation) qu'avec le docx équivalant.

Avatar de numerid Abonné
Avatar de numeridnumerid- 08/06/20 à 13:14:18

Merci, donc intérêt plus que limité on va dire.

Il n'est plus possible de commenter cette actualité.
Page 1 / 2