Kimetrak : notre projet pour détecter les sites qui multiplient les services de pistage

C'est pas ma faute à moi... 95
Accès libre
image dediée
Web DOSSIER
Par
le jeudi 11 janvier 2018 à 17:30
David Legrand

Après avoir longtemps muri cette idée, nous lançons aujourd'hui les premières briques de Kimetrak. L'objectif est de vous permettre de détecter simplement les services qui vous pistent en ligne à travers les sites que vous visitez, et de distinguer les bons et les mauvais élèves en la matière.

2018 sera une année importante sur le terrain du respect de la vie privée. Outre l'arrivée du Règlement Général sur la Protection des Données (RGPD) et ePrivacy en Europe, la CNIL fête ses 40 ans. C'est en effet la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés qui lui a donné naissance, quatre ans après le scandale concernant le projet SAFARI.

La vie privée des citoyens n'a sans doute jamais autant été pistée et analysée

40 ans plus tard, on ne peut pas dire que la vie privée des français soit totalement protégée. En effet, que ce soit à travers des pratiques « offline » ou « online », les entreprises vivant de la récolte de données personnelles ont appris à passer entre les mailles du filet. De votre suivi en magasin à travers le Wi-Fi (ou autres solutions), aux cartes de fidélités, il y a sans doute au moins un profil plus ou moins complet vous concernant qui se balade sur des serveurs.

Avec le numérique et internet, cette tendance a d'ailleurs explosé ces dernières années. Cela a surtout empiré avec l'automatisation de la publicité et notamment l'achat programmatique. Ainsi, les éditeurs de sites ne savent plus vraiment ce qui se passe au sein de leurs pages et ne peuvent le plus souvent agir qu'a priori. Un drame alors que des failles comme Spectre permettent une exploitation via un simple code JavaScript.

De fait, les acteurs du monde publicitaire et de la récolte de données en abusent et, au sein des sites que nous visitons quotidiennement, on constate la multiplication des outils de pistage des internautes. Ce, sans respecter la législation en vigueur. Elle est pourtant claire sur la question depuis quelques années déjà.

Une loi pas respectée, la CNIL en mode moratoire

Pour rappel, elle impose la récolte du consentement avant toute chose. Ainsi, dès que vous mettez le pied sur un site, il doit vous demander votre accord avant de procéder à des récoltes de données. En l'état actuel des choses, les éditeurs considèrent que le fait de naviguer sur un site vaut consentement, mais dans la pratique ils n'attendent même pas ça.

En effet, des dizaines, voire parfois des centaines de requêtes sont effectuées par des services tiers dès que la page est ouverte, même sans la moindre action de votre part. De nombreuses données sont alors stockées, notamment via des cookies. De quoi récolter des informations avant même que vous ayez pu commencer à vous demander si vous étiez d'accord ou non.

Ces dernières années, nous avons eu l'occasion d'interroger la CNIL sur le sujet. La Commission était bien consciente des abus manifestes en la matière et a initié plusieurs contrôles et sans doute alerté de nombreux sites. Il est impossible de savoir dans quelle mesure, ses décisions n'étant pas toutes publiques.

Les éditeurs ont néanmoins réussi à gagner du temps en incitant la CNIL à aller regarder du côté de leurs partenaires. Lors de notre dernier échange avec Isabelle Falque-Pierrotin sur la question, elle nous a confirmé qu'un moratoire était en place en attendant la mise en œuvre du Règlement Général sur la Protection des Données (RGPD) et d'ePrivacy.

Au final, la quasi-totalité des sites que nous avons analysés dans le cadre de ce dossier n'attendent pas d'avoir le consentement de l'internaute pour déposer des cookies ou même laisser des tiers récolter des données.

Un véritable raté pour la CNIL qui, bien qu'active sur de nombreux terrains ces dernières années, n'a pas réussi à endiguer la source principale du pistage des internautes, se développant à travers les applications (voir notre analyse du projet Exodus) et les objets connectés où il est encore plus complexe de savoir qui fait quoi.

Face au tracking de masse, plusieurs lignes de défense

Pour se protéger, les internautes utilisent donc de manière croissante des outils tels que des bloqueurs de publicités pour bloquer une partie de ces traceurs. L'EFF a de son côté publié son Privacy Badger se focalisant sur les services vous suivant d'un site à l'autre, et les navigateurs mettent en place un nombre croissant de protections.

Il existe aussi des outils misant sur une information de l'internaute. C'est notamment le cas de Cookieviz ou de Ghostery détaillant les outils de pistages détectés sur un site, leur finalité (audience, publicité, etc.) et d'autres éléments comme le temps de chargement d'une page par exemple.

Car tous les « trackers » ne se valent pas. La CNIL fait par exemple la distinction dans le cas des outils de mesure d'audience entre ceux qui récoltent des informations pouvant faire l'objet d'un recoupement et ceux qui font l'objet d'une configuration particulière et dont la finalité est unique. 

Ainsi, un site utilisant Analytics dont les données peuvent être utilisées par Google pour effectuer des croisements avec celles de ses autres services devrait obligatoirement obtenir le consentement de l'internaute avant la moindre requête. Dans le cas de Piwik, s'il est configuré de la bonne manière, ce consentement n'est pas jugé nécessaire. 

C'est notamment cette solution que nous utilisons depuis un peu plus d'un an pour notre mesure d'audience, sur un serveur que nous contrôlons pour nous assurer de ce qui est fait ou non des données relevées.

Kimetrak : la génèse

Il y a quelques années, nous avons commencé à travailler sur un projet : Kimetrak. L'idée était alors d'utiliser Ghostery comme outil d'analyse pour récupérer le nombre de traceurs utilisés sur divers sites. Avec une petite modification du code de son extension Chrome, nous pouvions automatiser la récupération des éléments détectés, ainsi que leur finalité.

De quoi nous permettre de constituer une base de données exploitable à des fins d'information. Nous avions alors fait face à plusieurs problèmes, le premier étant la façon de récolter ces données de manière fiable, mais aussi de gérer la potentielle relation avec Ghostery. Car l'extension n'est pas open source, et la structure qui la développe vit notamment d'études autour des informations récoltées par l'outil et partagée (de manière volontaire) par les utilisateurs.

De plus, au gré des évolutions, notre intégration a été de plus en plus complexe. Avec la mouture 8.0 qui vient d'être publiée et apporte de nombreuses nouveautés, le code JavaScript a d'ailleurs été « minifié », limitant grandement notre capacité à identifier l'endroit où « brancher » notre script.

Mieux informer internautes et éditeurs sur les services qui pistent en ligne

Nous avons donc décidé de repartir de zéro et de développer notre propre extension Kimetrak. Elle aura l'avantage d'être open source, de ne pas se limiter aux éléments identifiés par Ghostery, et de pouvoir être utilisée comme bon nous semble pour la suite de nos projets.

Son fonctionnement actuel est assez simple : lors du chargement d'un onglet elle identifie l'ensemble des requêtes effectuée par la page vers des sites dont le domaine est différent de celui que vous visitez. Elle affiche le résultat sous la forme d'un nombre et d'un code couleur dépendant de la quantité de requêtes détectées : vert, orange et rouge.

Dès que plus aucune requête n'a été détectée pendant au moins cinq secondes, le résultat se fige et le badge devient noir. Il est enregistré et utilisé dans le cadre de statistiques sur votre navigation effectuée au niveau local. Lorsque vous revenez sur un onglet et que les données sont chargées depuis une précédente analyse, le badge est gris.

Aucune donnée n'est partagée avec nos serveurs ou qui que ce soit d'autre. Les résultats et statistiques sont pour le moment réinitialisés à chaque session. 

L'objectif est de permettre à chacun de se rendre compte et de visualiser ces requêtes, et leur importance. Le tout en analysant les services pouvant assurer un pistage de sites en sites. Mais nous voulons aussi permettre aux éditeurs de constater simplement ce qu'il se passe sur leurs sites et de disposer d'un outil les aidant à faire le ménage.

Il s'agit pour le moment d'un simple « proof of concept » largement améliorable que ce soit sur son fonctionnement ou même son aspect graphique. Nous allons y travailler dans les semaines qui viennent. En attendant vous pouvez retrouver le code sous licence GPLv3.

L'extension est installable simplement sur Chrome, Opera et Vivaldi. Son code est déjà à peu près fonctionnel sous Firefox, mais il doit encore être amélioré avant une distribution directe :

Le début d'une aventure, que nous mènerons avec d'autres

Car l'objectif est bien d'analyser en profondeur et sur le long terme la manière dont les internautes sont suivis à travers les différents sites qu'ils visitent au quotidien. Nous voulons que cette démarche soit ouverte, elle prendra donc diverses formes et vise à fédérer d'autres acteurs autour de nous et de cette initiative.

La première étape est d'expliquer à nos lecteurs comment fonctionne le tracking, les cookies et autres traceurs à travers un dossier que nous débutons aujourd'hui sur le pistage en ligne. Nous en profitons pour vous apprendre comment développer votre propre extension, la rendre compatible avec différents navigateurs et analyser les requêtes effectuées par des services tiers à travers les sites que vous visitez.

Dans les prochaines semaines, nous allons également travailler sur une manière de mettre en place une base de données permettant de compiler les informations concernant de nombreux sites. L'objectif sera à terme de les rendre exploitables tant aux visiteurs qu'à ceux qui voudraient utiliser ces informations pour distinguer les sites ayant une pratique plus ou moins responsable concernant le respect de votre vie privée.

Tous ceux qui veulent nous aider dans ce projet peuvent nous contacter sur equipe@kimetrak.fr.

Notre dossier sur le pistage des internautes en ligne :


chargement
Chargement des commentaires...