Pour la CADA, les administrations doivent proscrire les scans au format PDF

Pour la CADA, les administrations doivent proscrire les scans au format PDF

Yes we scan (ou pas)

Avatar de l'auteur
Xavier Berne

Publié dans

Droit

17/04/2018 4 minutes
60

Pour la CADA, les administrations doivent proscrire les scans au format PDF

Aux yeux de la Commission d’accès aux documents administratifs (CADA), les acteurs publics qui fournissent au public des documents scannés au format PDF contreviennent à la loi Numérique de 2016. La CNIL vient d’en faire les frais.

Vous souvenez-vous de la mise en ligne des premières déclarations d’intérêts des parlementaires, en 2014 ? La plupart des documents diffusés par la Haute Autorité pour la transparence étaient en fait des versions scannées de formulaires remplis au stylo, ce qui rendait impossible toute extraction automatisée des informations contenues dans ces fichiers.

Résultat, l’association Regards Citoyens avait dû solliciter l’aide de milliers d’internautes pour ressaisir tous les renseignements alors fournis par les députés et les sénateurs...

Malheureusement pour nous, nous avons goûté au même type de déconvenue il y quelques semaines. Dans le cadre d’une demande « CADA », la CNIL nous a transmis l’une de ses délibérations sous forme de document scanné. Pour en reprendre des extraits, pas d’autre solution que de tout retranscrire. Dommage quand on sait que ce fameux document a bien dû être édité à la base sur un logiciel de traitement de texte !

Les formats non réexploitables sont interdits par la loi Numérique

Notre saisine de la Commission d’accès aux documents administratifs étant déjà enclenchée au moment où nous avons reçu ce PDF (la CNIL a mis près de trois mois à nous l’envoyer), nous avons informé l’institution que nous maintenions notre demande d’avis, sur le fondement du nouvel article L300-4 du Code des relations entre le public et l’administration.

Introduit par la loi Numérique, cet article prévoit en effet que « toute mise à disposition » (communication individuelle, diffusion...) effectuée dans le cadre du droit d’accès aux documents administratifs doit se faire « dans un standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé » – conformément aux principes de l’Open Data.

délib cnil pdf

Après avoir ausculté notre dossier, la CADA a considéré le 5 avril dernier que « la mise en ligne de documents administratifs numérisés sous format PDF image ne permet ni la réutilisation et ni l'exploitation des données fournies par un système de traitement automatisé ».

L’autorité indépendante estime ainsi qu’en cas de demande de documents administratifs, les dispositions de la loi Numérique « font obligation à l'administration d'en fournir une copie en format ouvert, aisément réutilisable et exploitable par un système de traitement automatisé dès lors qu'elle en dispose déjà ou qu'elle est susceptible d'en disposer à l'issue d'une opération de transfert, de conversion ou de reproduction courante ».

Autrement dit, cette obligation prévaut si l’administration a conservé le fichier de traitement de texte original, mais aussi si elle l’a supprimé (à condition qu’une reconversion soit possible).

Un sérieux avertissement à l'attention des administrations

Dans le cas présent, la CNIL a ainsi été enjointe à nous communiquer sa fameuse délibération dans un format compatible avec les standards de l’Open Data. Ce qu’a fait l’institution en diffusant ce jour une nouvelle version de sa délibération sur le site Légifrance.

Cet avis de la CADA n’a pas de valeur contraignante pour les administrations. Il devrait néanmoins servir d’aiguillon, et pourrait permettre à certains demandeurs d’obtenir plus facilement des documents dans un format ouvert et aisément réutilisable. On se souviendra en ce sens de la première « ouverture » de l'algorithme d'Admission Post-Bac, sous forme de scan, quelques jours seulement après la promulgation de la loi Numérique...

Le PDF déjà déconseillé par Etalab

La mission Etalab, qui accompagne les administrations dans leur marche vers l’Open Data, demande de longue date aux acteurs publics d’ouvrir leurs données « dans des formats ouverts (Exemple : CSV, JSON, XML, RDF...) qui permettent la réutilisation sans restriction d’accès ni de mise en œuvre, par opposition à un format fermé ou propriétaire ». Dans l’hypothèse où cela ne serait pas possible, l’institution recommande de « rechercher autant que possible le véritable format d’origine, et pas, par exemple, le PDF, développé pour le confort de lecture, qui circule usuellement ».

Écrit par Xavier Berne

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Les formats non réexploitables sont interdits par la loi Numérique

Un sérieux avertissement à l'attention des administrations

Le PDF déjà déconseillé par Etalab

Fermer

Commentaires (60)


Je vous aime trop NextINpact ! J’adore ! Bravo !


NextInpact, le meilleur client de la CADA ^^

Et le meilleur média sur le numérique sous tous ses aspects !


En soit, c’est logique de donner un pdf, un fichier modifiable c’est trop simple à falsifier.

Le pdf a l’avantage de figer le document à un état donné. Le minimum est d’enregistrer le fichier concerné en pdf en s’assurant que les données sont sélectionnables.


L’idée de l’open data n’est pas de servir de preuve mais de permettre l’utilisation des données.



Donc non ce n’est pas trop normal.



(De plus si la source reste en ligne tout un chacun peut vérifier si les données ont été falsifiées, quel que soit le format du document.)


Non. Un PDF semble être non modifiable pour ceux qui n’y connaissent pas grand chose (y compris bon nombre de décideurs, malheureusement), mais les sécurités qu’il offre sont illusoires et ne garantissent pas contre les modifications.








Dedrak a écrit :



En soit, c’est logique de donner un pdf, un fichier modifiable c’est trop simple à falsifier.

Le pdf a l’avantage de figer le document à un état donné. Le minimum est d’enregistrer le fichier concerné en pdf en s’assurant que les données sont sélectionnables.





Tu n’as qu’à le signer numériquement avec PGP. Il pourra être altéré mais tu le sauras.

Et ça marche avec tous les types de fichiers.



Ben, pour la lisibilité vaut quand même un pdfa (pdf + texte) que du json ou du xml non?


génial ! Un bon pas en avant.


Ils ne fonctionnent pas les logiciels d’OCR ?


Je propose que NXI demande à la CADA la transmission de son logiciel de traitement des demandes CADA.

Je suis sûr que ça commence par :

<code>

If (demandeur eq ‘Nextimpact’) {

  # répondre oui sans étudier, c’est des emmerdeurs, leur demande est toujours justifiée et on finit par répondre oui

 return 1;

}

# traiter normalement, est-ce justifié ou pas.

 </code>

<img data-src=" />


mmm… le sous-titre… <img data-src=" /> (2 pts perdus parce qu’elle est utilisée un peu à toutes les sauces)


On est en train de bannir le stylo, c’est pas assez traçable/flicable. <img data-src=" />

(avec la bénédiction de NXI entre autres)

Quels gens sauront encore écrire demain ? <img data-src=" />


Acrobat intègre nativement un OCR pour traiter les PDF image. Ça marche plutôt bien.

Reste qu’Acrobat (par le reader) est payant et n’est donc pas accessible à tous.



Sur le fond, un PDF texte natif c’est quand même beaucoup plus pratique.


Ah force de jouer aux cons, vous allez finir par gagner.



L’administration dira simplement qu’elle n’a plus le doc original et comme elle aura interdiction de fournir un PDF, il n’y aura aucun doc mis à disposition <img data-src=" />








psn00ps a écrit :



On est en train de bannir le stylo, c’est pas assez traçable/flicable. <img data-src=" />

(avec la bénédiction de NXI entre autres)

Quels gens sauront encore écrire demain ? <img data-src=" />





Les calligraphes. Le papier Seyes sera comme la leçon de moral, un reliquat du passé.

L’écriture manuscrite a-t-elle encore une raison d’être ?









yvan a écrit :



L’idée de l’open data n’est pas de servir de preuve mais de permettre l’utilisation des données.



Donc non ce n’est pas trop normal.



(De plus si la source reste en ligne tout un chacun peut vérifier si les données ont été falsifiées, quel que soit le format du document.)





Tu m’a l’air bien naïf si tu crois que des données ne pourront pas être falsifiées pour “créer” une fake news.

Les meilleures fakes news proviennent de quelques données “truquées” au milieu d’un océan de données valides.



Après c’est un autre débat.



T’aurais des exemples de ses meilleures fake news ?








netsi a écrit :



Acrobat intègre nativement un OCR pour traiter les PDF image. Ça marche plutôt bien.

Reste qu’Acrobat (par le reader) est payant et n’est donc pas accessible à tous.



Sur le fond, un PDF texte natif c’est quand même beaucoup plus pratique.





Et surtout, entre “plutôt bien” et “parfait”, il y a un gouffre… C’est souvent plus rapide que de tout retaper, mais il faut quand même relire.



Peut-on faire une demande CADA pour recevoir le magazine Next INpacthttps://fr.ulule.com/next-inpact/ dans un standard ouvert permettant la réutilisation par un système de traitement automatisé ?&nbsp;<img data-src=" />








MoonRa a écrit :



T’aurais des exemples de ses meilleures fake news ?





La Fake news, tout le monde en parle, tout le monde la cherche, tout le monde prétend l’avoir vu mais personne n’a réussi à lui mettre la main dessus.



Ça commence à devenir une arlésienne,; cette fake news.



Le soucis étant le côté scan image. Mais un pdf ouvert, sans sécurité illusoire, ou l’on peut copier le texte, ça ne pose pas de soucis. Mais les administrations fournissent trop souvent les docs imprimés puis rescannes à cause d’un tampon ou d’une signature…’


C’est le fait d’avoir imprimé le pdf puis de l’avoir scané ce qui “écrase” son contenu au copier/coller (force à faire un OCR sur tout le contenu) qui est reproché.



Un pdf ou le texte est copiable sera valide il me semble.


Ah RAHHHHHH LOVELLLLYYY <img data-src=" /><img data-src=" />








MoonRa a écrit :



T’aurais des exemples de ses meilleures fake news ?





Tiens un exemple

Beaucoup de chiffres, la plupart exacts

Beaucoup de liens la plupart exacts

Sauf que le 1er graphique a été coupé en mai, alors que juin montrait que toute la théorie développée était fausse.



Surtout que je vois pas l’intérêt de s’emmerder avec ça …



PAPIER (chiant)



Chercher le document papier à envoyer

Aller à la photocopieuse

Déposer la liasse dans le chargeur (je l’espère en tout cas …)

Indiquer la procédure de copie (noir & blanc, recto/verso, …)

Indiquer où envoyer la copie

Retourner à son poste

Récupérer la copie

Ouvrir un nouveau message et envoyer





NUMERIQUE (bien)



Chercher le document numérique à envoyer

Ouvrir un nouveau message et envoyer





Après, y’a le combo ultime, qui expliquerait pourquoi c’est toujours des PDF :

PAPIER (MEGA-chiant)



Chercher le document numérique à envoyer

L’imprimer

Aller à la photocopieuse

Récupérer la liasse

Mettre la liasse dans le chargeur (je l’espère en tout cas …)

Indiquer la procédure de copie (noir & blanc, recto/verso, …)

Indiquer où envoyer la copie

Retourner à son poste

Récupérer la copie

Ouvrir un nouveau message et envoyer





<img data-src=" />


« font obligation à l’administration d’en fournir une copie en format ouvert, aisément réutilisable et exploitable par un système de traitement automatisé dès lors qu’elle en dispose déjà ou qu’elle est susceptible d’en disposer à l’issue d’une opération de transfert, de conversion ou de reproduction courante ».

Donc, si elle ne dispose que du document papier, elle a toujours le droit de faire un scan.


Bon, je retiens pour mon boulot.



De toutes façons, le secrétariat, c’est moi qui le fait, et j’ai les docs originaux au format Open Document (ou Microsoft pour les plus anciens).



Comme ça, si je veux entuber quelqu’un je peux faire un duplicata en enlevant/rajoutant ce que je veux !



<img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" />








carbier a écrit :



Tiens un exemple

Beaucoup de chiffres, la plupart exacts

Beaucoup de liens la plupart exacts

Sauf que le 1er graphique a été coupé en mai, alors que juin montrait que toute la théorie développée était fausse.







Toi aussi, tu veux tarter tmtisfree façon Bertrand Cantat ? <img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" />



Plus sérieusement, pour les anglophones, un article avec des exemples (US + UK) de fake news



Travaillant dans une grande entreprise qui construit des avions de combat, le seul moyen de “signer” un document …… tu l’imprimes, tu le signes au stylo, tu scan, tu insères l’image dans le word, tu le transformes en PDF.



Refus des signatures numériques car il est interdit de rajouter des certificats roots dans le système n’appartenant pas au groupe (pour les sous-traitant ou prestataire).



Résultat, tu scan une fois les signature et tu fais tu C/C sur les doc…..super sécurisé :‘(




Dommage quand on sait que ce fameux document a bien dû être édité à la base sur un logiciel de traitement de texte !





Vous êtes bien péremptoires. Qui vous dit qu’il n’a pas été créé sous Paint ?








Arcy a écrit :



Après, y’a le combo ultime, qui expliquerait pourquoi c’est toujours des PDF :

PAPIER (MEGA-chiant)

Chercher le document numérique à envoyer

L’imprimer

Aller à la photocopieuse

Récupérer la liasse

Mettre la liasse dans le chargeur (je l’espère en tout cas …)

Indiquer la procédure de copie (noir & blanc, recto/verso, …)

Indiquer où envoyer la copie

Retourner à son poste

Récupérer la copie

Ouvrir un nouveau message et envoyer



<img data-src=" />





Je l’ai tellement connu cette “procédure” chez des clients….



JE… Non rien.



Surtout qu’avec PDF Creator par exemple, tu peux faire des images au lieu de texte.



Mais j’imagine que les gens qui imprime, puis scan des documents numériques pour les envoyer, n’ont pas connaissance d’un logiciel comme PDFCreator et ce qu’on peut faire avec.


Pas par défaut. J’en modifie plein d’ailleurs de cette manière.

Et quand bien même : tu ouvres le PDF, tu l’imprimes sur une imprimante PDF, et zou, tu le modifies.



Prenez PDX-Xchange Editor, et créez un tampon avec la signature. Plus besoin de scanner quoi que ce soit.


Personne n’a entendu parler de signature électronique ou bien ? <img data-src=" />

Tout document est falsifiable, mais au moins la signature electronique permet de valider la source et l’original du document en question…


Si un jour tu peux te visiter un labo de recherche (type CNRS), tu pourras voir des gens à qui on demande :




  • d’imprimer un document pdf dispo sur l’intranet

  • de le remplir à la main

  • de le scanner

  • de l’envoyer par email à la RH

  • la dite RH qui s’empressera d’imprimer le document pour l’archiver



    <img data-src=" />



    non ceci n’est pas une blague <img data-src=" />










odoc a écrit :



Si un jour tu peux te visiter un labo de recherche (type CNRS), tu pourras voir des gens à qui on demande :




  • d’imprimer un document pdf dispo sur l’intranet

  • de le remplir à la main

  • de le scanner

  • de l’envoyer par email à la RH

  • la dite RH qui s’empressera d’imprimer le document pour l’archiver



    <img data-src=" />



    non ceci n’est pas une blague <img data-src=" />



    Ca ce n’est pas spécifique au CNRS, c’est l’Administration en général…

    D’ailleurs moi aussi je dois le faire, pour tout ce qui est habilitations : au lieu d’avoir un tableau général rassemblant tout et qui tiendrait sur qques feuilles, on est obligé d’utiliser un document qui a un format spécifique, pour chaque personne. Du coup on se retrouve avec 1 à 5 feuilles par personne, à faire signer par le DRH, multiplié par le nombre d’agents ayant accès à des ressources informatiques sur le site. A réimprimer entièrement pour chaque agent dont on modifie les accès, et refaire signer Sachant qu’on fait entre 1 et 10 modifs par semaine. Et ceci pour un seul et unique intérêt : au cas où on aurait un audit un jour (en 10 ans, il n’y en a pas eu un seul sur l’établissement)…

    Et encore avant je devais le faire aussi pour tout ce qui est sauvegardes sur bandes (2 impressions par jour calendaire), mais les lecteurs sont HS et trop vieux pour être remplacés, du coup on n’en fait plus depuis qques temps, et ca nous arrange bien… <img data-src=" />









odoc a écrit :



Si un jour tu peux te visiter un labo de recherche (type CNRS), tu pourras voir des gens à qui on demande :




  • d’imprimer un document pdf dispo sur l’intranet

  • de le remplir à la main

  • de le scanner

  • de l’envoyer par email à la RH

  • la dite RH qui s’empressera d’imprimer le document pour l’archiver



    <img data-src=" />



    non ceci n’est pas une blague <img data-src=" />





    Ce qui corrobore ce que je dis depuis le début.

    Le gouvernement et plus généralement les députés pondent des lois qui doivent s’appliquer à l’administration alors qu’elle n’a pas les moyens de l’appliquer.

    L’Open data c’est bien, mais encore faut-il changer les mentalités, former et donner les moyens à l’administration de pouvoir le faire

  • généralisation de la signature électronique

  • moyen et consignes pour gérer les sauvegardes numériques

    etc. etc.



    La on a juste l’impression qu’on met la charrue avant les boeufs avec comme “chevalier blanc” NXi qui à chaque doc pdf reçu crie au complot et à la mauvaise volonté.



Je crois qu’il faut surtout chercher la raison des PDF images dans les logiciels mis en œuvre par les administrations pour l’archivage légale des documents qui font du stockage image (Généralement quelques peu bugués…).



Les certificats coûtent cher et demandent du temps pour être délivrés car les administrations ayant été refroidit par les failles de la PKI de l’Administration Centrale (gérée par l’ANSSI à l’origine) passe maintenant par des fournisseurs pour leur certificats publique.


La on veut quelque chose d’exploitablr automatiquement. Pour la lisibilité, il sera toujours plus facile de transformer ton JSON/XML/markdown dans un format lisible que l’inverse


Ce serait bien d’avoir dans ce cas un nouveau format, aussi portable, standard et léger que le PDF, avec un accès complet au contenu comme les formats Open Document.


Doublon


Libreoffice te permet de créer des PDF hybrides : lisible dans un lecteur PDF et éditable dans Libreoffice grâce à la norme OpenDocument. Cette idée a été reprise par MS Office sauf que le PDF hybride n’est pas compatible avec celui de LibreOffice.



De manière générale, il me semble que la norme PDF permet de lier un PDF “classique” avec un format XML. L’intéret est de structurer la donnée. Ainsi tu as un PDF de factures de téléphone mais que tu peux donner ce document à Clouzy Cloud pour qu’il suive ta consomation ou des dépenses bancaires.

Certains pays européens demandent ce type de PDF il me semble.


Nice. Je ne connaissais pas.

Reste que je me questionne sur la licence du PDF. Bon je vais regarder à l’occasion.


Ca ne change rien au fond du problème de certains commentaires précédant (et qui n’ont rien compris à la news au passage <img data-src=" />)

Si la France n’a pas les moyen de ce payer des certificats pour les documents officiels qu’elle émet, on est pas dans la merde… Je ne dis pas qu’il faut un certificat par employé, mais au moins par entité ca serait pas mal.



Le format est ouvert par Adobe et il n’y a pas de charge financière sur son utilisation. Il existe des bibliothèques libres pour manipuler le PDF, par exemple iText sous une licence GPL. Il reste que Adobe reste le chef du format en terme d’évolution.


Dans ma boîte, PDF Creator est installé par défaut sur tous les postes et apparaît dans les listes d’imprimante. J’ai envie de dire que si les utilisateurs se retrouvent à faire ce genre de gymnastique, c’est que le service IT n’a pas fait son boulot (outils et formations).


Si, mais - de mémoire - le meilleur taux de réussite est à 99 % (si le document est bien lisible, et le logiciel très performant). Une page de texte c’est environ 1 000 signes : ça fait au mieux 10 erreurs/page. La moyenne est à 96 % (toujours de mémoire), ça fait donc 40 erreurs/page.



&nbsp;Sur une page, ça fait un peu de taf. Sur 10, ça devient insupportable.

&nbsp;

C’est du temps de correction et vérification qu’il faut prévoir dans l’organisation (d’une administration publique comme dans une entreprise privée). Bien évidemment, ce temps n’est jamais donné, on a tous des exemples au boulot de prise de décision court-termiste insensée qui se révèle chronophage sur le long terme…


En ce moment 80% des communications officielles concernant notre dame des landes?



100% de celles concernant l’intervention en Syrie?



Perso sans chercher j’en trouve déjà beaucoup trop <img data-src=" />


En l’occurence un PDF est également falsifiable.



Et concernant les déclarations d’intérêt des parlementaires attendu que ce sont des déclarations elles peuvent être fausses de base…



Dans ce cas précis l’intérêt étant de comparer les déclarations et éventuellement des les croiser avec des données géographiques, socio économiques etc. le format PDF n’a strictement aucune pertinence.


Après l’archivage papier a tout de même certaines qualités que n’a pas l’archivage électronique…



Par contre ne pas faire des PDF formulaires heu… c’est pas parce qu’on fait des recherches top niveau qu’on a des secrétaires top niveau? <img data-src=" />


Ca dépend où dans l’administration il ne faut pas exagérer, la plupart des administrations ont des intranets/extranets avec des formulaires en ligne quand même. Y compris pour les paiements.



Après il y aura toujours LA procédure non dématérialisée parce que tout le monde s’en fout ou que le coût de déploiement d’un formulaire est démesuré par rapport au fait de ne rien changer…


Là c’est probablement parce que ça sort d’une GED.








yvan a écrit :



Ca dépend où dans l’administration il ne faut pas exagérer, la plupart des administrations ont des intranets/extranets avec des formulaires en ligne quand même. Y compris pour les paiements.



Toi tu parles de procédures uniquement avec les externes à l’administration. Moi, des procédures externes ET internes. Dans les internes, il y a énormément de papiers qui ne servent qu’à être archivés.



D’ailleurs ce matin, j’ai fait une demande de remboursement de frais. La méthode : remplir le formulaire, faire une impression, signer, le donner au service qui s’en occupe qui va s’occuper de le scanner dans la foulée, et ne gardera le papier que jusqu’à ce que le remboursement soit effectif… Encore uen fois, des impressions à blanc.



Là c’est pareil, ça dépend où, pas mal d’intranets sont très bien faits pour gérer les trucs internes genre congés, formations, déplacements, réservations de ressources etc.



Mais il est certains que la combo secrétariats pas toujours capables de gérer du doc électronique + coût des solutions pour gérer du courrier/parapheur/archivage + gestion des certificats à renouveler tous les deux ou trois ans et pertes éventuelles des clés par les agents + emmerdements techniques pour avoir des certificats qui marchent sur les postes -java mon amuuuur <img data-src=" />- laisse la plupart des petites collectivités sur le carreau et les procédures qui ne relèvent pas de signatures “RGS” de côté.



Possiblement si un jour les signatures sont gérables de manières centralisée via des mécanismes type AD/SSO avec de jolies interfaces d’administration et/ou des dispositifs de clés techniquement moins rugueux (genre les Yubikey évoquées avant hier?) ou alors via des APIs France connect (rêvons) ça se généralisera totalement même aux échanges les plus triviaux…


Malheureusement c’est souvent les premiers postes sur lesquels on rogne faute de crédit (dans mon labo no s’est retrouvé avec 2 secrétaires pour 200 personnes : bilan il a fallu 5 mois pour cloturer les comptes de l’année dernière et permettre de passer les commandes sur les comptes de cette année). Du coup le plus souvent on continue d’une certaine manière parce que le service n’a pas le temps de mettre en place autre chose.


On se demandais à quoi servait NextInpact … la démocratie doit être défendu pied à pied chaque jour … et quelques uns le font avec un certain brio. Merci.


La démocratie ? Rien que ça ?

Il y a des jours où je préférerais que l’on défende l’orthographe !