[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer

Du moins, les moteurs externes

La Commission nationale pour l'informatique et les libertés (CNIL) a finalement bien voulu libérer un précieux document resté secret depuis mai 2012. Il s’agit de son avis visant un projet de décret en Conseil d’État relatif aux règles déontologiques et à la déclaration publique d’intérêts (DPI) de certains hauts fonctionnaires travaillant dans le secteur de la santé. Jamais publié malgré une première demande CADA, cet avis demande aux moteurs d’aller indexer ailleurs ces informations de première nécessité.

Les DPI sont des déclarations qui permettent de jauger les liens d’une personne avec un tissu social afin de repérer d’éventuels conflits d’intérêts. Le décret dont il est ici question est celui du 9 mai 2012 qui uniformise ces informations. Il vise spécialement les membres des commissions et conseils siégeant auprès des ministres chargés de la santé et de la sécurité sociale, ou ceux des cabinets des mêmes ministres. Bref, toute une série de personnalités de haute tenue dont il serait pour le moins vulgaire de les voir liés aux riches labos.

La CNIL s’était penchée sur ce projet de décret organisant la collecte et la diffusion de ces informations pour demander à ce qu’un rideau soit vite installé entre les moteurs de recherches et des DPI. « La Commission demande que le décret soit modifié afin que les organismes qui procèderont à la mise en ligne soient tenus de mettre en place des mesures visant à empêcher les moteurs de recherche de procéder à une indexation » explique-t-elle dans l’avis qu’elle a fini par nous transmettre (l'avis au format .odt). Le gouvernement a suivi à la lettre cette recommandation : les DPI sont publiées, mais, à la demande de la CNIL, il a interdit leur repérage par les moteurs.

Un an plus tard, la CNIL a suivi cette même « doctrine » avec le Sunshine Act. Ce récent décret oblige cette fois les labos à publier les cadeaux faits aux médecins et autres blouses blanches, d’abord sur leur site puis sur un hypothétique site unique. Dans tous les cas, ces données ne sont pas indexables.

Moteurs externes, moteurs internes

Hervé Machi, directeur des affaires juridiques, internationales et de l’expertise de la CNIL nous a décrit la démarche de la Commission : « Cette interdiction d’indexation ne concerne que les données directement identifiantes et ne s’applique qu’aux moteurs de recherche externes, et non aux moteurs internes propres aux sites des laboratoires, des conseils de l’ordre, etc., ou à celui du site que le ministère mettrait en place et qui permettrait d’avoir l’ensemble des informations compilées pour une personne donnée. »

Ainsi, les moteurs « externes » ne doivent pas pouvoir indexer, mais les moteurs « internes » le peuvent. Avec ces données parcellaires, la CNIL rend plus difficile la possibilité d’avoir des « informations compilées pour une personne donnée ». Le service juridique en vient même à nous présenter quelques astuces pour boucher les narines de Google et autres Bing ou Yahoo :

« - placer un fichier dénommé « robots.txt » à la racine du site d’informations afin d’informer les moteurs de recherche de l’internet que les pages concernées ne doivent pas être indexées
- rendre nécessaire une intervention humaine pour accéder à l’information afin d’éviter la captation des données par un programme informatique d’un moteur de recherche. En l’espèce, des Captchas visuels ou auditifs peuvent être employés. Il s’agit d’une suite de chiffres ou lettres ou opérations à reproduire ou effectuer manuellement
- générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe. »

Un avis secret car suivi par le gouvernement ?

Fait notable, voilà déjà quelques années que les outils savent exploiter une image pour en lire le contenu… Mais peu importe. Cette réponse de la CNIL intervient après quelques résistances et questionnements. Lors d’une première demande effectuée par l'association Formidep, la Commission avait exposé à la CADA dans ce courrier inédit pourquoi elle rechignait à ce que son avis soit connu :

Jaugez la contorsion : Isabelle Falque Pierrotin rappelle que les versions de travail d’un décret ne sont pas communicables. Or, explique la présidente de l'institution, dans la mesure où le gouvernement a tenu compte de l’avis de la CNIL en rendant ces DPI non indexables, « la simple comparaison de l’avis de la CNIL avec le texte publié du décret permet de déduire la version antérieure du projet de décret, non communicable. » En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations. Une vraie crise existentielle, fort heureusement aujourd’hui révolue grâce à quelques demandes insistantes via la CADA...

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

09:44 3

Hubble fête ses 34 ans

07:32 1

Apple présentera ses nouveaux iPad le 7 mai

07:20 1

La répression des fraudes invite à signaler « les manquements liés à la consommation durable »

07:18 6

Fedora 40 est disponible en version finale

07:08 11

JOP : le festival de Cannes expérimentera lui aussi la vidéosurveillance algorithmique (VSA)

07:07 4

Sonde Voyager 1 : contact retrouvé

07:06 22

Commentaires (28)

gounzor

Le 12/06/2013 à 06h 37

Je comprend pas. Pourquoi empêcher l’indexation de ces documents s’ils sont consultables publiquement?

gkaplan38

Le 12/06/2013 à 06h 51

je comprend pas non plus cette logique" />" />

uboot76 Abonné

Le 12/06/2013 à 06h 53

Si une personne ( qui touche en info ) veut indexer pour son propre usage.

Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?

A33

Le 12/06/2013 à 06h 57

C’est consultable, mais vous n’avez pas le droit de savoir comment les trouver. Fascinant.

Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?

Le robot.txt est purement informatif et ne protège de rien du tout. Le moteur sait juste que l’hébergeur voudrait que le robot n’indexe pas. Mais le robot fait comme il veux.

Quant aux captchas, ben, les bots peuvent les passer, notamment en les faisant remplir par des humains. Quand tu downloades sur les sites de téléchargement, les captchas que tu remplis peuvent servir aux bots. En fait, le site te demande de répondre à un captcha auquel un bot est confronté ailleurs.

John Shaft Abonné

Le 12/06/2013 à 07h 00

uboot76 a écrit :

Si une personne ( qui touche en info ) veut indexer pour son propre usage.

Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?

Le robots.txt ne fait qu’interdire l’accès à des répertoires du site à des user agents de robots qui sont gentils et qui se présentent quand ils frappent à la porte (googlebot, exabot…). Rien ne t’empêche de faire un crawler avec un user-agent IE, Firefox ou Chrome. " />

Le captcha doit également être facielement contournable. Surtout en considérant que les sites en questions seront probablement codés avec les pieds " />

Tim-timmy

Le 12/06/2013 à 07h 12

John Shaft a écrit :

Le robots.txt ne fait qu’interdire l’accès à des répertoires du site à des user agents de robots qui sont gentils et qui se présentent quand ils frappent à la porte (googlebot, exabot…). Rien ne t’empêche de faire un crawler avec un user-agent IE, Firefox ou Chrome. " />

Le captcha doit également être facielement contournable. Surtout en considérant que les sites en questions seront probablement codés avec les pieds " />

sauf que comme ce sont des données personnelles et nominatives, la cnil considère qu’établir un tel fichier est illégal sans son accord. D’où la non indexation, le fichier est consultable mais pas copiable sans déclaration à la cnil et accord des personnes concernées. Pas plus dur que ça

edit: en fait ça devrait être limite pareil pour les annuaires …. et oh surprise pages blanches est pas indexé, mais 118000 ne semble pas respecter cela …

Le 12/06/2013 à 07h 19

Tim-timmy a écrit :

sauf que comme ce sont des données personnelles et nominatives, la cnil considère qu’établir un tel fichier est illégal sans son accord. D’où la non indexation, le fichier est consultable mais pas copiable sans déclaration à la cnil et accord des personnes concernées. Pas plus dur que ça

Sauf qu’on se place dans le cas de personnes qui se torche le derrière avec l’avis de la CNIL : Je répondais à une question sur un éventuel contournement de cette interdiction. " />

Winderly Abonné

Le 12/06/2013 à 07h 32

générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe.

Il me semble que google y arrive sans souci ?

Peut être fallait il lire qu’il faut faire en sorte d’empêcher les moteurs externes d’indexer l’image ?

En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations.

C’est d’une logique implacable. " />

Le 12/06/2013 à 07h 33

gounzor a écrit :

Je comprend pas. Pourquoi empêcher l’indexation de ces documents s’ils sont consultables publiquement?

1

tAran

Le 12/06/2013 à 07h 50

#10

Histoire de compliquer la tache à ceux qui bossent dans l’intelligence économique " />

L'Aveugle

Le 12/06/2013 à 08h 07

#11

Dans la plupart des jeux tu as le droit de jouer, pourtant tu n’as pas le droit de faire jouer un bot à ta place.

Il n’est pas choquant de différencier un accès humain d’un accès machine à des fins de compilation et traitement de masse des données. C’est comme une limite de vitesse sur la route si veux (en terme de puissance de calcul).

Après quand à la faisabilité technique c’est autre chose " />

cyrano2 Abonné

Le 12/06/2013 à 08h 18

#12

Donc l’information est public mais doit être introuvable.

Ils sont trop fort !" /> " />

tazvld Abonné

Le 12/06/2013 à 08h 44

#13

placer un fichier dénommé « robots.txt » à la racine du site d’informations afin d’informer les moteurs de recherche de l’internet que les pages concernées ne doivent pas être indexées

Mon dieu! Enfin, ils ont entendu parler de ce fameux fichier!!!!

rendre nécessaire une intervention humaine pour accéder à l’information afin d’éviter la captation des données par un programme informatique d’un moteur de recherche. En l’espèce, des Captchas visuels ou auditifs peuvent être employés. Il s’agit d’une suite de chiffres ou lettres ou opérations à reproduire ou effectuer manuellement
- générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe.
  
  Mouai, si un moteur de recherche ignore déjà le robot.txt, je le pense suffisamment scrupuleux pour avoir de quoi décoder un captcha (qui se souvient de ce script greasmonkey qui faisait ça pour MU ?) et de quoi convertir une image en texte.

hellmut Abonné

Le 12/06/2013 à 09h 23

#14

cyrano2 a écrit :

Donc l’information est public mais doit être introuvable.

Ils sont trop fort !" /> " />

ce qui est fort c’est de ne pas voir de différence entre indexer et trouver." />

Le 12/06/2013 à 11h 41

#15

hellmut a écrit :

ce qui est fort c’est de ne pas voir de différence entre indexer et trouver." />

Si tu ne sais pas qu’un tel site existe, je ne vois pas comment tu peux trouver une information sans moteur de recherche.

Le 12/06/2013 à 12h 30

#16

cyrano2 a écrit :

Si tu ne sais pas qu’un tel site existe, je ne vois pas comment tu peux trouver une information sans moteur de recherche.

un site peut très bien être référencé sans que son contenu le soit.

et avec un moteur de recherche interne au site, tu peux rechercher et trouver l’information indexée par ce même moteur mais non indexée publiquement par Google & co.

Resman

Le 12/06/2013 à 17h 15

#17

La logique c’est simple, c’est pour empêcher de faire des recherches qui permettraient de découvrir une structure globale, de faire des stats pour savoir quel labo arrose le plus, quel médecin du quartier reçoit le plus de cadeaux des labos, etc. Là il faut tout faire à la main, captcha par captcha (pas forcément si évidents que ça à décoder par une machine) et passer des mois pour obtenir un résultat.

C’est un peu comme la loi sur la “transparence” pour les élus, on va mettre leurs déclarations de revenus publiques, mais surtout interdit de les transmettre à qui que ce soit.

Les libertés individuelles c’est super important quand on est un député, un médecin ou un labo pharmaceutique. Par contre pour le reste de la population, ça ne pose aucun problème de mettre en place un fliquage de masse avec HADOPI.

En tant que citoyen français j’en ai MARRE.

Le 13/06/2013 à 07h 01

#18

Resman a écrit :

En tant que citoyen français j’en ai MARRE.

Dis toi qu’avec PRISM, les gens les politicards et les labos pharmas sont plus exposés que le citoyens lambda " />

Stargateur

Le 13/06/2013 à 07h 04

#19

le teste de la MAJ est en noir " /> je voie rien avec mon skin… obliger de sélectionner le texte quoi Où VA LE MONDE

HarmattanBlow

Le 13/06/2013 à 07h 13

#20

Resman a écrit :

La logique c’est simple, c’est pour empêcher de faire des recherches qui permettraient de découvrir une structure globale, de faire des stats pour savoir quel labo arrose le plus, quel médecin du quartier reçoit le plus de cadeaux des labos, etc. Là il faut tout faire à la main, captcha par captcha (pas forcément si évidents que ça à décoder par une machine) et passer des mois pour obtenir un résultat.

On peut trouver à redire sur cette loi mais elle va me permettre à moi de vérifier les degrés d’influence des médecins que je pourrais avoir à consulter et finalement c’est l’essentiel.

Dans un monde idéal j’aurais souhaité une interdiction pure et simple de ces pratiques, ainsi on n’aurait pas eu à chercher un compromis entre respect de la vie privée (un point qui ne doit pas être sous-estimé) et intérêt général (indéniable) qui a conduit à la loi telle qu’elle est.

Mon seul vrai regret en l’état est qu’il sera impossible de lutter contre l’influence des prescripteurs de prescriptions (personnalités influentes de la médecine, directeurs d’organisations de référence, etc) un problème qui concerne plutôt dans ce cas les travaux rémunérés, qui n’ont rien à avoir avec les cadeaux dont il est ici question.

graphseb

Le 13/06/2013 à 07h 33

#21

Le quotidien de la corruption politique, en fin de compte…

http://www.psycheduweb.fr/wp-content/uploads/2012/08/trois-singes.jpg

" />

Le 13/06/2013 à 07h 40

#22

et PCI laisse passer la gentille instrumentation des déficients visuels, alors que rien ne dit que les sites ne seront pas justement accessibles (ils en ont pas l’obligation, pour le public, d’ailleurs ?)

Tout ce que ça empêche, c’est que des robots l’indexent, un journaliste peut bosser sans le cache google ou script (illégal du coup, vu ce qu’il mouline) de récupération de données perso, non ?

Le 13/06/2013 à 07h 47

#23

Stargateur a écrit :

le teste de la MAJ est en noir " /> je voie rien avec mon skin… obliger de sélectionner le texte quoi Où VA LE MONDE

1

Le texte noir sur fond gris foncé est pas pratique à lire.

2show7

Le 13/06/2013 à 08h 04

#24

Ils n’ont qu’à créer un Momo (petit fichier script) avec mot de passe, si tu n’as pas accès au mot de passe, tu ne peux pas lire robot.txt (je dis ça, je ne dis rien) " />

RisingForce

Le 13/06/2013 à 08h 07

#25

Stargateur a écrit :

le texte de la MAJ est en noir " /> je ne vois rien avec mon skin… obligé de sélectionner le texte quoi Où VA LE MONDE

+1 (à part l’orthographe corrigée au passage" />)

Noir sur gris foncé, on ne voit vraiment rien sans sélectionner le texte.

Edit: visiblement, je ne suis pas le seul avec ce thème" />

NonMais

Le 13/06/2013 à 08h 59

#26

Bon ok, on veut bien donner des infos mais il ne faut pas qu’elles soient exploitables : toute l’hypocrisie de la chose " />

Ben oui si tout à chacun est capable de voir qu’on est des vendus, ça ne le fait pas. Donc on donne un nonos à ronger (on déclare) mais ça reste du cosmétique (difficile -pas impossible car un groupement de personnes déterminées peut récolter l’ensemble des infos, ils sous-estiment la puissance du communautaire- d’exploiter les infos parcellaires)

Le 13/06/2013 à 09h 11

#27

NonMais a écrit :

Bon ok, on veut bien donner des infos mais il ne faut pas qu’elles soient exploitables : toute l’hypocrisie de la chose " />

Ben oui si tout à chacun est capable de voir qu’on est des vendus, ça ne le fait pas. Donc on donne un nonos à ronger (on déclare) mais ça reste du cosmétique (difficile -pas impossible car un groupement de personnes déterminées peut récolter l’ensemble des infos, ils sous-estiment la puissance du communautaire- d’exploiter les infos parcellaires)

Si ce n’est que mon riz cul l’homme vite, hé, ça va mais pas plus, hein!? " />

Mapics

Le 14/06/2013 à 02h 21

#28

Franchement je ne comprend pas comment des documents de déclarations publiques d’intérêts serais en même temps confidentiel, ont marche sur la tete.

[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer

Du moins, les moteurs externes

Moteurs externes, moteurs internes

Un avis secret car suivi par le gouvernement ?

Tiens, en parlant de ça :

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

Get Ready for Mach 3 (qui s’en souvient ?)

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

Des tics et des tocs

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

Ayez confianssssssssssssssse 🐍

Sommaire de l'article

Introduction

Moteurs externes, moteurs internes

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

Hubble fête ses 34 ans

Apple présentera ses nouveaux iPad le 7 mai

La répression des fraudes invite à signaler « les manquements liés à la consommation durable »

Fedora 40 est disponible en version finale

JOP : le festival de Cannes expérimentera lui aussi la vidéosurveillance algorithmique (VSA)

Sonde Voyager 1 : contact retrouvé

Commentaires (28)