[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer

[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer

Du moins, les moteurs externes

Avatar de l'auteur
Marc Rees

Publié dans

Droit

13/06/2013 5 minutes
28

[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer

La Commission nationale pour l'informatique et les libertés (CNIL) a finalement bien voulu libérer un précieux document resté secret depuis mai 2012. Il s’agit de son avis visant un projet de décret en Conseil d’État relatif aux règles déontologiques et à la déclaration publique d’intérêts (DPI) de certains hauts fonctionnaires travaillant dans le secteur de la santé. Jamais publié malgré une première demande CADA, cet avis demande aux moteurs d’aller indexer ailleurs ces informations de première nécessité.

médecin docteur

 

Les DPI sont des déclarations qui permettent de jauger les liens d’une personne avec un tissu social afin de repérer d’éventuels conflits d’intérêts. Le décret dont il est ici question est celui du 9 mai 2012 qui uniformise ces informations. Il vise spécialement les membres des commissions et conseils siégeant auprès des ministres chargés de la santé et de la sécurité sociale, ou ceux des cabinets des mêmes ministres. Bref, toute une série de personnalités de haute tenue dont il serait pour le moins vulgaire de les voir liés aux riches labos.

 

La CNIL s’était penchée sur ce projet de décret organisant la collecte et la diffusion de ces informations pour demander à ce qu’un rideau soit vite installé entre les moteurs de recherches et des DPI. « La Commission demande que le décret soit modifié afin que les organismes qui procèderont à la mise en ligne soient tenus de mettre en place des mesures visant à empêcher les moteurs de recherche de procéder à une indexation » explique-t-elle dans l’avis qu’elle a fini par nous transmettre (l'avis au format .odt). Le gouvernement a suivi à la lettre cette recommandation : les DPI sont publiées, mais, à la demande de la CNIL, il a interdit leur repérage par les moteurs.

 

Un an plus tard, la CNIL a suivi cette même « doctrine » avec le Sunshine Act. Ce récent décret oblige cette fois les labos à publier les cadeaux faits aux médecins et autres blouses blanches, d’abord sur leur site puis sur un hypothétique site unique. Dans tous les cas, ces données ne sont pas indexables.

Moteurs externes, moteurs internes

Hervé Machi, directeur des affaires juridiques, internationales et de l’expertise de la CNIL nous a décrit la démarche de la Commission : « Cette interdiction d’indexation ne concerne que les données directement identifiantes et ne s’applique qu’aux moteurs de recherche externes, et non aux moteurs internes propres aux sites des laboratoires, des conseils de l’ordre, etc., ou à celui du site que le ministère mettrait en place et qui permettrait d’avoir l’ensemble des informations compilées pour une personne donnée. »

Ainsi, les moteurs « externes » ne doivent pas pouvoir indexer, mais les moteurs « internes » le peuvent. Avec ces données parcellaires, la CNIL rend plus difficile la possibilité d’avoir des « informations compilées pour une personne donnée ». Le service juridique en vient même à nous présenter quelques astuces pour boucher les narines de Google et autres Bing ou Yahoo :

 

« - placer un fichier dénommé « robots.txt » à la racine du site d’informations afin d’informer les moteurs de recherche de l’internet que les pages concernées ne doivent pas être indexées 
- rendre nécessaire une intervention humaine pour accéder à l’information afin d’éviter la captation des données par un programme informatique d’un moteur de recherche. En l’espèce, des Captchas visuels ou auditifs peuvent être employés. Il s’agit d’une suite de chiffres ou lettres ou opérations à reproduire ou effectuer manuellement 
- générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe. »

Un avis secret car suivi par le gouvernement ?

Fait notable, voilà déjà quelques années que les outils savent exploiter une image pour en lire le contenu… Mais peu importe. Cette réponse de la CNIL intervient après quelques résistances et questionnements. Lors d’une première demande effectuée par l'association Formidep, la Commission avait exposé à la CADA dans ce courrier inédit pourquoi elle rechignait à ce que son avis soit connu :

  undefined

 

Jaugez la contorsion : Isabelle Falque Pierrotin rappelle que les versions de travail d’un décret ne sont pas communicables. Or, explique la présidente de l'institution, dans la mesure où le gouvernement a tenu compte de l’avis de la CNIL en rendant ces DPI non indexables, « la simple comparaison de l’avis de la CNIL avec le texte publié du décret permet de déduire la version antérieure du projet de décret, non communicable. » En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations. Une vraie crise existentielle, fort heureusement aujourd’hui révolue grâce à quelques demandes insistantes via la CADA...

Écrit par Marc Rees

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Moteurs externes, moteurs internes

Fermer

Commentaires (28)


Je comprend pas. Pourquoi empêcher l’indexation de ces documents s’ils sont consultables publiquement?


je comprend pas non plus cette logique<img data-src=" /><img data-src=" />


Si une personne ( qui touche en info ) veut indexer pour son propre usage.

Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?


C’est consultable, mais vous n’avez pas le droit de savoir comment les trouver. Fascinant.





Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?



Le robot.txt est purement informatif et ne protège de rien du tout. Le moteur sait juste que l’hébergeur voudrait que le robot n’indexe pas. Mais le robot fait comme il veux.



Quant aux captchas, ben, les bots peuvent les passer, notamment en les faisant remplir par des humains. Quand tu downloades sur les sites de téléchargement, les captchas que tu remplis peuvent servir aux bots. En fait, le site te demande de répondre à un captcha auquel un bot est confronté ailleurs.








uboot76 a écrit :



Si une personne ( qui touche en info ) veut indexer pour son propre usage.

Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?







Le robots.txt ne fait qu’interdire l’accès à des répertoires du site à des user agents de robots qui sont gentils et qui se présentent quand ils frappent à la porte (googlebot, exabot…). Rien ne t’empêche de faire un crawler avec un user-agent IE, Firefox ou Chrome. <img data-src=" />



Le captcha doit également être facielement contournable. Surtout en considérant que les sites en questions seront probablement codés avec les pieds <img data-src=" />









John Shaft a écrit :



Le robots.txt ne fait qu’interdire l’accès à des répertoires du site à des user agents de robots qui sont gentils et qui se présentent quand ils frappent à la porte (googlebot, exabot…). Rien ne t’empêche de faire un crawler avec un user-agent IE, Firefox ou Chrome. <img data-src=" />



Le captcha doit également être facielement contournable. Surtout en considérant que les sites en questions seront probablement codés avec les pieds <img data-src=" />







sauf que comme ce sont des données personnelles et nominatives, la cnil considère qu’établir un tel fichier est illégal sans son accord. D’où la non indexation, le fichier est consultable mais pas copiable sans déclaration à la cnil et accord des personnes concernées. Pas plus dur que ça



edit: en fait ça devrait être limite pareil pour les annuaires …. et oh surprise pages blanches est pas indexé, mais 118000 ne semble pas respecter cela …









Tim-timmy a écrit :



sauf que comme ce sont des données personnelles et nominatives, la cnil considère qu’établir un tel fichier est illégal sans son accord. D’où la non indexation, le fichier est consultable mais pas copiable sans déclaration à la cnil et accord des personnes concernées. Pas plus dur que ça







Sauf qu’on se place dans le cas de personnes qui se torche le derrière avec l’avis de la CNIL : Je répondais à une question sur un éventuel contournement de cette interdiction. <img data-src=" />





générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe.



Il me semble que google y arrive sans souci ?

Peut être fallait il lire qu’il faut faire en sorte d’empêcher les moteurs externes d’indexer l’image ?





En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations.



C’est d’une logique implacable. <img data-src=" />








gounzor a écrit :



Je comprend pas. Pourquoi empêcher l’indexation de ces documents s’ils sont consultables publiquement?







  • 1



Histoire de compliquer la tache à ceux qui bossent dans l’intelligence économique <img data-src=" />


Dans la plupart des jeux tu as le droit de jouer, pourtant tu n’as pas le droit de faire jouer un bot à ta place.



Il n’est pas choquant de différencier un accès humain d’un accès machine à des fins de compilation et traitement de masse des données. C’est comme une limite de vitesse sur la route si veux (en terme de puissance de calcul).



Après quand à la faisabilité technique c’est autre chose <img data-src=" />


Donc l’information est public mais doit être introuvable.



Ils sont trop fort !<img data-src=" /> <img data-src=" />






  • placer un fichier dénommé « robots.txt » à la racine du site d’informations afin d’informer les moteurs de recherche de l’internet que les pages concernées ne doivent pas être indexées





    Mon dieu! Enfin, ils ont entendu parler de ce fameux fichier!!!!





  • rendre nécessaire une intervention humaine pour accéder à l’information afin d’éviter la captation des données par un programme informatique d’un moteur de recherche. En l’espèce, des Captchas visuels ou auditifs peuvent être employés. Il s’agit d’une suite de chiffres ou lettres ou opérations à reproduire ou effectuer manuellement



    • générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe.





      Mouai, si un moteur de recherche ignore déjà le robot.txt, je le pense suffisamment scrupuleux pour avoir de quoi décoder un captcha (qui se souvient de ce script greasmonkey qui faisait ça pour MU ?) et de quoi convertir une image en texte.









cyrano2 a écrit :



Donc l’information est public mais doit être introuvable.



Ils sont trop fort !<img data-src=" /> <img data-src=" />





ce qui est fort c’est de ne pas voir de différence entre indexer et trouver.<img data-src=" />









hellmut a écrit :



ce qui est fort c’est de ne pas voir de différence entre indexer et trouver.<img data-src=" />







Si tu ne sais pas qu’un tel site existe, je ne vois pas comment tu peux trouver une information sans moteur de recherche.









cyrano2 a écrit :



Si tu ne sais pas qu’un tel site existe, je ne vois pas comment tu peux trouver une information sans moteur de recherche.





un site peut très bien être référencé sans que son contenu le soit.

et avec un moteur de recherche interne au site, tu peux rechercher et trouver l’information indexée par ce même moteur mais non indexée publiquement par Google & co.



La logique c’est simple, c’est pour empêcher de faire des recherches qui permettraient de découvrir une structure globale, de faire des stats pour savoir quel labo arrose le plus, quel médecin du quartier reçoit le plus de cadeaux des labos, etc. Là il faut tout faire à la main, captcha par captcha (pas forcément si évidents que ça à décoder par une machine) et passer des mois pour obtenir un résultat.



C’est un peu comme la loi sur la “transparence” pour les élus, on va mettre leurs déclarations de revenus publiques, mais surtout interdit de les transmettre à qui que ce soit.



Les libertés individuelles c’est super important quand on est un député, un médecin ou un labo pharmaceutique. Par contre pour le reste de la population, ça ne pose aucun problème de mettre en place un fliquage de masse avec HADOPI.



En tant que citoyen français j’en ai MARRE.








Resman a écrit :



En tant que citoyen français j’en ai MARRE.







Dis toi qu’avec PRISM, les gens les politicards et les labos pharmas sont plus exposés que le citoyens lambda <img data-src=" />



le teste de la MAJ est en noir <img data-src=" /> je voie rien avec mon skin… obliger de sélectionner le texte quoi Où VA LE MONDE








Resman a écrit :



La logique c’est simple, c’est pour empêcher de faire des recherches qui permettraient de découvrir une structure globale, de faire des stats pour savoir quel labo arrose le plus, quel médecin du quartier reçoit le plus de cadeaux des labos, etc. Là il faut tout faire à la main, captcha par captcha (pas forcément si évidents que ça à décoder par une machine) et passer des mois pour obtenir un résultat.





On peut trouver à redire sur cette loi mais elle va me permettre à moi de vérifier les degrés d’influence des médecins que je pourrais avoir à consulter et finalement c’est l’essentiel.



Dans un monde idéal j’aurais souhaité une interdiction pure et simple de ces pratiques, ainsi on n’aurait pas eu à chercher un compromis entre respect de la vie privée (un point qui ne doit pas être sous-estimé) et intérêt général (indéniable) qui a conduit à la loi telle qu’elle est.



Mon seul vrai regret en l’état est qu’il sera impossible de lutter contre l’influence des prescripteurs de prescriptions (personnalités influentes de la médecine, directeurs d’organisations de référence, etc) un problème qui concerne plutôt dans ce cas les travaux rémunérés, qui n’ont rien à avoir avec les cadeaux dont il est ici question.



Le quotidien de la corruption politique, en fin de compte…

http://www.psycheduweb.fr/wp-content/uploads/2012/08/trois-singes.jpg



<img data-src=" />


et PCI laisse passer la gentille instrumentation des déficients visuels, alors que rien ne dit que les sites ne seront pas justement accessibles (ils en ont pas l’obligation, pour le public, d’ailleurs ?)



Tout ce que ça empêche, c’est que des robots l’indexent, un journaliste peut bosser sans le cache google ou script (illégal du coup, vu ce qu’il mouline) de récupération de données perso, non ?








Stargateur a écrit :



le teste de la MAJ est en noir <img data-src=" /> je voie rien avec mon skin… obliger de sélectionner le texte quoi Où VA LE MONDE







  • 1

    Le texte noir sur fond gris foncé est pas pratique à lire.



Ils n’ont qu’à créer un Momo (petit fichier script) avec mot de passe, si tu n’as pas accès au mot de passe, tu ne peux pas lire robot.txt (je dis ça, je ne dis rien) <img data-src=" />








Stargateur a écrit :



le texte de la MAJ est en noir <img data-src=" /> je ne vois rien avec mon skin… obligé de sélectionner le texte quoi Où VA LE MONDE





+1 (à part l’orthographe corrigée au passage<img data-src=" />)



Noir sur gris foncé, on ne voit vraiment rien sans sélectionner le texte.



Edit: visiblement, je ne suis pas le seul avec ce thème<img data-src=" />



Bon ok, on veut bien donner des infos mais il ne faut pas qu’elles soient exploitables : toute l’hypocrisie de la chose <img data-src=" />



Ben oui si tout à chacun est capable de voir qu’on est des vendus, ça ne le fait pas. Donc on donne un nonos à ronger (on déclare) mais ça reste du cosmétique (difficile -pas impossible car un groupement de personnes déterminées peut récolter l’ensemble des infos, ils sous-estiment la puissance du communautaire- d’exploiter les infos parcellaires)








NonMais a écrit :



Bon ok, on veut bien donner des infos mais il ne faut pas qu’elles soient exploitables : toute l’hypocrisie de la chose <img data-src=" />



Ben oui si tout à chacun est capable de voir qu’on est des vendus, ça ne le fait pas. Donc on donne un nonos à ronger (on déclare) mais ça reste du cosmétique (difficile -pas impossible car un groupement de personnes déterminées peut récolter l’ensemble des infos, ils sous-estiment la puissance du communautaire- d’exploiter les infos parcellaires)







Si ce n’est que mon riz cul l’homme vite, hé, ça va mais pas plus, hein!? <img data-src=" />



Franchement je ne comprend pas comment des documents de déclarations publiques d’intérêts serais en même temps confidentiel, ont marche sur la tete.