Au Journal officiel ce week-end, Bercy a publié l’un des derniers coups de truelle de son chantier destiné à chaluter les réseaux sociaux et autres plateformes pour trouver des indices de fraudes. Un chantier validé par le Conseil constitutionnel, modulo un strict encadrement, rappelé par la CNIL dans sa délibération.
Derrière le hashtag #BigBrotherBercy, on trouve la possibilité pour les services fiscaux « d'une part, de collecter de façon indifférenciée d'importants volumes de données, relatives à un grand nombre de personnes, publiées sur de tels sites et, d'autre part, d'exploiter ces données, en les agrégeant et en opérant des recoupements et des corrélations entre elles ». Voilà en quelques mots comment les neuf Sages résumèrent cette disposition née de la loi de finances pour 2020.
Au fil d’une expérimentation sur trois ans, les fins limiers de Bercy se voient depuis autorisés à collecter les données ouvertes sur les réseaux sociaux, les plateformes de vente et plus globalement tous les sites de mises en relation. La finalité ? Après traitement automatisé, déceler des débuts de commencement de traces de fraudes en matière de commerce illicite (drogue, tabac) ou encore de domiciliation à l’étranger.
Ce 13 février 2021, au Journal officiel, a été publié le décret « portant modalités de mise en œuvre par la direction générale des finances publiques et la direction générale des douanes et droits indirects de traitements informatisés et automatisés permettant la collecte et l'exploitation de données rendues publiques sur les sites internet des opérateurs de plateforme en ligne ».
Il vient rythmer en deux séquences l’expérimentation programmée voilà de longs mois par le législateur : une phase d’apprentissage suivie par une phase d’exploitation. Il s’agira en pratique de développer d’abord des outils puis déceler ensuite les indélicatesses à la législation fiscale.
Le cas échéant, ces données seront transmises à des agents de la Direction générale des finances publiques ou celle des douanes pour qu’un contrôle plus individualisé soit orchestré. « Les données ouvertes qui seront utilisées ne serviront que d’indices qui, croisés avec d’autres données, peuvent conduire l’administration à ouvrir un contrôle », nous avait précisé Bercy en 2018.
« En aucun cas des redressements n’interviendront sur la seule base de telles données, insiste la direction, et il n’y aura aucune inversion de la charge de la preuve : il incombera toujours à l’administration de démontrer la fraude, sur la base d’éléments objectifs. Il ne s’agit donc absolument pas d’une surveillance généralisée de tous les Français ».
La phase d'apprentissage et de conception
Cette première phase avait été annoncée en novembre 2019 dans un amendement de la majorité LREM. Selon les explications des élus, « un algorithme auto-apprenant sera développé afin de déterminer des indicateurs permettant de cibler les infractions visées par le dispositif, sur la base d’une base de données anonymisées ».
Au Journal officiel, samedi, plus d'un an après le vote du projet de loi de finances, le décret confirme cette logique. Durant cette phase initiale, des outils « de collecte et d'analyse des données » seront développés afin « d'identifier des indicateurs (…) tels que des mots-clés, des ratios ou encore des indications de dates et de lieux ». Ces mêmes indicateurs permettront ensuite de caractériser les manquements et infractions recherchés.
Pour cet essai grandeur nature, Bercy va travailler d’abord sur des listes d’entreprises ou de personnes physiques préalablement identifiées par son traitement de data mining « ciblage de la fraude et valorisation des requêtes » (ou CFVR). Soit une centaine d'entreprises pour la recherche d'activités occultes, et une dizaine de personnes physiques s’agissant des fausses domiciliations à l'étranger.
- Contre la fraude fiscale, toute la population française sous l’œil du « datamining » CFVR
- Le datamining, cache-misère contre la fraude fiscale
Prenons l’exemple d’une fraude à la domiciliation fiscale où un contribuable affirme vivre six mois et un jour à l’étranger, en espérant échapper à l’impôt français alors que ses activités en ligne démontrent une autre réalité. Les services vont développer d’abord « un outil permettant d'associer une personne physique à ses comptes détenus sur les plateformes en ligne », dont les réseaux sociaux.
Ensuite, à partir d’un échantillon, seront aspirés tous « les contenus des pages permettant d'identifier des lieux géographiques qui peuvent notamment être des écrits, des images, des photographies, des sons, des signaux ou des vidéos ».
Enfin, ce stock d’informations sera croisé « avec des bases de données de lieux géographiques et des moteurs de recherche spécialisés dans l'identification des lieux correspondant à des images, afin d'identifier des indicateurs de lieux géographiques ». Reconnaissance de bâtiments, d’adresses, exploitation des coordonnées géolocalisées associées aux métadonnées d’une photo, tout peut être envisagé…
S’agissant de la vente de tabac ou de drogues illicites, même logique : la DGFIP compte identifier les « titulaires des pages internet analysées », tout en exploitant « les photographies des produits vendus, les données d'expédition de la marchandise et les données permettant de mesurer l'audience de la page, l'ancienneté et l'activité du profil et de l'annonce ».
Durant cette première période, toutes les données personnelles collectées seront effacées puisque l’objectif est « seulement » de disposer d’outils de collecte après cette mise à l’épreuve dans l’océan Internet.
La phase d'exploitation des données
Comme l’exploitant agricole après avoir vérifié ses engins et aiguisé ses fourches, le ministère sera ensuite prêt pour la moisson, armé de ses « indicateurs ». Les données chalutées seront ensuite transférées dans le data mining du CFVR pour « vérifier si la personne ne s'est pas fait connaître de l'administration ».
Au fil de l’eau et des manquements recherchés, les services seront amenés à brasser états civils, identifiants de profil, pseudonymes, adresses, numéros de téléphone, adresses électroniques, photographies, données d'expédition de marchandises, activités d’un profil et d’une annonce, etc.
L’appétit de Bercy, le rappel de la CNIL
Saisie pour avis, la CNIL considère dans sa délibération que ces deux phases obéissent à deux régimes juridiques différents. La phase d'apprentissage relève du RGPD, celle de l’exploitation des données, de la directive Police-Justice.
Mais au-delà, on découvre surtout les appétits des services fiscaux qui ont tenté de raboter au maximum les garanties imposées par le législateur et la décision du Conseil constitutionnel, à savoir que la collecte et l’exploitation ne visent que les contenus :
- librement accessibles sur les sites des opérateurs de plateforme
- manifestement rendus publics par leurs utilisateurs
Lorsqu’ils validèrent cette disposition, dans sa quasi-totalité, les neuf Sages prirent en compte le fait que « ne peuvent être collectés et exploités que les contenus se rapportant à la personne qui les a, délibérément, divulgués ».
API et webscraping
Dans le décret, le ministère s’est d’abord réservé la possibilité de créer des comptes via les interfaces de programmation mises à disposition par les opérateurs de plateforme.
Selon la CNIL, il « entend utiliser des API (interfaces de mise à disposition des données des sites) proposées par les plateformes ou les réseaux sociaux, et/ou des techniques de "webscraping" (techniques d'extraction du contenu de sites, via des scripts ou des programmes automatisés) pour collecter les données des plateformes et des réseaux sociaux. »
Cette technique permettra à la DGFIP de passer entre les lames des solutions de sécurité mises en place par les plateformes pour prévenir les usages massifs.
Toutefois, lors d’un échange avec Bercy, la CNIL a découvert une doctrine fiscale pour le moins éloignée de celle espérée par le législateur. Les données « librement accessibles » visées par Big Brother Bercy seraient aux yeux de la DGFIP toutes celles « publiées sur les plateformes et les réseaux sociaux sans paramètre de confidentialité spécifique ou avec un paramétrage de confidentialité public ». Et donc, toutes celles « qui ne sont pas publiées en mode privé ou en accès restreint à un cercle de contacts, quelles que soient les modalités techniques utilisées pour les collecter ».
De même, dans son projet de décret soumis à l’avis de l’autorité, le ministère a estimé que les commentaires pouvaient parfaitement être alpagués.
Interrogé par la CNIL, il « fait valoir le caractère public - par nature - des commentaires publiés sur les sites marchands au regard de leur modèle économique ainsi que la connaissance, par les utilisateurs de ces sites marchands, des paramètres de confidentialité retenus ». Et pour les réseaux sociaux, même logique : « les utilisateurs ont également la possibilité de configurer les paramètres de confidentialité de leurs pages, en l'absence de paramétrage spécifique, de suppression des contenus concernée ou de signalement effectué auprès de la plateforme concernée, l'utilisateur les divulgue délibérément ».
Un peu court…La Commission a une interprétation beaucoup plus stricte et fidèle au texte initial : un contenu librement accessible doit être... librement accessible.
Des contenus vraiment publics, divulgués par la personne concernée
De cette tautologie, elle en déduit que l’expression vise « les contenus auxquels un utilisateur non inscrit ou sans enrôlement préalable (création de compte, fourniture de certaines informations pour créer un identifiant ou toute autre forme d'inscription) sur une plateforme ou un réseau social pourrait avoir accès, sans saisie préalable d'un mot de passe ».
De même, « pour être manifestement rendus publics les contenus doivent être délibérément divulgués par la personne titulaire du compte ou de la page ce qui implique incontestablement une action volontaire de sa part ». À contrario, « la simple absence de mise en place d'un paramétrage de confidentialité spécifique par exemple ne suffit pas à caractériser qu'une personne a délibérément divulgué un contenu ».
La Commission a donc demandé une modification du décret final, qui prévient désormais au Journal officiel que « seuls les contenus se rapportant à la personne qui les a délibérément divulgués et dont l'accès ne nécessite ni saisie d'un mot de passe ni inscription sur le site en cause peuvent être collectés et exploités ».
De même, le texte indique que « lorsque la personne est titulaire sur internet d'une page personnelle permettant le dépôt de commentaires ou toute autre forme d'interactions avec des tiers, ces commentaires et interactions ne peuvent faire l'objet d'aucune exploitation ».
Cachez ce hashtag
Relevons au final que Bercy entendait aspirer également des données relatives aux « contenus de toute nature, y compris diffusés en temps réel ».
Dans les échanges avec la CNIL, il a précisé que cette expression recouvrait principalement les « hastags » outre, selon la Commission, « l'ensemble des publications quel que soit leur format informatique (par exemple des codes chiffrés, des algorithmes, …) dès lors qu'ils sont librement accessibles et manifestement rendus publics par l'utilisateur de la plateforme ». L’expression ne se retrouve plus dans le texte finalement publié.