La CNIL refroidit l’appétit de Big Brother Bercy

Cyber Bercy

Au Journal officiel ce week-end, Bercy a publié l’un des derniers coups de truelle de son chantier destiné à chaluter les réseaux sociaux et autres plateformes pour trouver des indices de fraudes. Un chantier validé par le Conseil constitutionnel, modulo un strict encadrement, rappelé par la CNIL dans sa délibération.

Derrière le hashtag #BigBrotherBercy, on trouve la possibilité pour les services fiscaux « d'une part, de collecter de façon indifférenciée d'importants volumes de données, relatives à un grand nombre de personnes, publiées sur de tels sites et, d'autre part, d'exploiter ces données, en les agrégeant et en opérant des recoupements et des corrélations entre elles ». Voilà en quelques mots comment les neuf Sages résumèrent cette disposition née de la loi de finances pour 2020.

Au fil d’une expérimentation sur trois ans, les fins limiers de Bercy se voient depuis autorisés à collecter les données ouvertes sur les réseaux sociaux, les plateformes de vente et plus globalement tous les sites de mises en relation. La finalité ? Après traitement automatisé, déceler des débuts de commencement de traces de fraudes en matière de commerce illicite (drogue, tabac) ou encore de domiciliation à l’étranger.

Ce 13 février 2021, au Journal officiel, a été publié le décret « portant modalités de mise en œuvre par la direction générale des finances publiques et la direction générale des douanes et droits indirects de traitements informatisés et automatisés permettant la collecte et l'exploitation de données rendues publiques sur les sites internet des opérateurs de plateforme en ligne ».

Il vient rythmer en deux séquences l’expérimentation programmée voilà de longs mois par le législateur : une phase d’apprentissage suivie par une phase d’exploitation. Il s’agira en pratique de développer d’abord des outils puis déceler ensuite les indélicatesses à la législation fiscale.

Le cas échéant, ces données seront transmises à des agents de la Direction générale des finances publiques ou celle des douanes pour qu’un contrôle plus individualisé soit orchestré. « Les données ouvertes qui seront utilisées ne serviront que d’indices qui, croisés avec d’autres données, peuvent conduire l’administration à ouvrir un contrôle », nous avait précisé Bercy en 2018.

« En aucun cas des redressements n’interviendront sur la seule base de telles données, insiste la direction, et il n’y aura aucune inversion de la charge de la preuve : il incombera toujours à l’administration de démontrer la fraude, sur la base d’éléments objectifs. Il ne s’agit donc absolument pas d’une surveillance généralisée de tous les Français ».

La phase d'apprentissage et de conception

Cette première phase avait été annoncée en novembre 2019 dans un amendement de la majorité LREM. Selon les explications des élus, « un algorithme auto-apprenant sera développé afin de déterminer des indicateurs permettant de cibler les infractions visées par le dispositif, sur la base d’une base de données anonymisées ».

Au Journal officiel, samedi, plus d'un an après le vote du projet de loi de finances, le décret confirme cette logique. Durant cette phase initiale, des outils « de collecte et d'analyse des données » seront développés afin « d'identifier des indicateurs (…) tels que des mots-clés, des ratios ou encore des indications de dates et de lieux ». Ces mêmes indicateurs permettront ensuite de caractériser les manquements et infractions recherchés.

Pour cet essai grandeur nature, Bercy va travailler d’abord sur des listes d’entreprises ou de personnes physiques préalablement identifiées par son traitement de data mining « ciblage de la fraude et valorisation des requêtes » (ou CFVR). Soit une centaine d'entreprises pour la recherche d'activités occultes, et une dizaine de personnes physiques s’agissant des fausses domiciliations à l'étranger.

Prenons l’exemple d’une fraude à la domiciliation fiscale où un contribuable affirme vivre six mois et un jour à l’étranger, en espérant échapper à l’impôt français alors que ses activités en ligne démontrent une autre réalité. Les services vont développer d’abord « un outil permettant d'associer une personne physique à ses comptes détenus sur les plateformes en ligne », dont les réseaux sociaux.

Ensuite, à partir d’un échantillon, seront aspirés tous « les contenus des pages permettant d'identifier des lieux géographiques qui peuvent notamment être des écrits, des images, des photographies, des sons, des signaux ou des vidéos ».

Enfin, ce stock d’informations sera croisé « avec des bases de données de lieux géographiques et des moteurs de recherche spécialisés dans l'identification des lieux correspondant à des images, afin d'identifier des indicateurs de lieux géographiques ». Reconnaissance de bâtiments, d’adresses, exploitation des coordonnées géolocalisées associées aux métadonnées d’une photo, tout peut être envisagé…

S’agissant de la vente de tabac ou de drogues illicites, même logique : la DGFIP compte identifier les « titulaires des pages internet analysées », tout en exploitant « les photographies des produits vendus, les données d'expédition de la marchandise et les données permettant de mesurer l'audience de la page, l'ancienneté et l'activité du profil et de l'annonce ».

Durant cette première période, toutes les données personnelles collectées seront effacées puisque l’objectif est « seulement » de disposer d’outils de collecte après cette mise à l’épreuve dans l’océan Internet.

La phase d'exploitation des données

Comme l’exploitant agricole après avoir vérifié ses engins et aiguisé ses fourches, le ministère sera ensuite prêt pour la moisson, armé de ses « indicateurs ». Les données chalutées seront ensuite transférées dans le data mining du CFVR pour « vérifier si la personne ne s'est pas fait connaître de l'administration ».

Au fil de l’eau et des manquements recherchés, les services seront amenés à brasser états civils, identifiants de profil, pseudonymes, adresses, numéros de téléphone, adresses électroniques, photographies, données d'expédition de marchandises, activités d’un profil et d’une annonce, etc.

L’appétit de Bercy, le rappel de la CNIL

Saisie pour avis, la CNIL considère dans sa délibération que ces deux phases obéissent à deux régimes juridiques différents. La phase d'apprentissage relève du RGPD, celle de l’exploitation des données, de la directive Police-Justice.

Mais au-delà, on découvre surtout les appétits des services fiscaux qui ont tenté de raboter au maximum les garanties imposées par le législateur et la décision du Conseil constitutionnel, à savoir que la collecte et l’exploitation ne visent que les contenus :

librement accessibles sur les sites des opérateurs de plateforme
manifestement rendus publics par leurs utilisateurs

Lorsqu’ils validèrent cette disposition, dans sa quasi-totalité, les neuf Sages prirent en compte le fait que « ne peuvent être collectés et exploités que les contenus se rapportant à la personne qui les a, délibérément, divulgués ».

API et webscraping

Dans le décret, le ministère s’est d’abord réservé la possibilité de créer des comptes via les interfaces de programmation mises à disposition par les opérateurs de plateforme.

Selon la CNIL, il « entend utiliser des API (interfaces de mise à disposition des données des sites) proposées par les plateformes ou les réseaux sociaux, et/ou des techniques de "webscraping" (techniques d'extraction du contenu de sites, via des scripts ou des programmes automatisés) pour collecter les données des plateformes et des réseaux sociaux. »

Cette technique permettra à la DGFIP de passer entre les lames des solutions de sécurité mises en place par les plateformes pour prévenir les usages massifs.

Toutefois, lors d’un échange avec Bercy, la CNIL a découvert une doctrine fiscale pour le moins éloignée de celle espérée par le législateur. Les données « librement accessibles » visées par Big Brother Bercy seraient aux yeux de la DGFIP toutes celles « publiées sur les plateformes et les réseaux sociaux sans paramètre de confidentialité spécifique ou avec un paramétrage de confidentialité public ». Et donc, toutes celles « qui ne sont pas publiées en mode privé ou en accès restreint à un cercle de contacts, quelles que soient les modalités techniques utilisées pour les collecter ».

De même, dans son projet de décret soumis à l’avis de l’autorité, le ministère a estimé que les commentaires pouvaient parfaitement être alpagués.

Interrogé par la CNIL, il « fait valoir le caractère public - par nature - des commentaires publiés sur les sites marchands au regard de leur modèle économique ainsi que la connaissance, par les utilisateurs de ces sites marchands, des paramètres de confidentialité retenus ». Et pour les réseaux sociaux, même logique : « les utilisateurs ont également la possibilité de configurer les paramètres de confidentialité de leurs pages, en l'absence de paramétrage spécifique, de suppression des contenus concernée ou de signalement effectué auprès de la plateforme concernée, l'utilisateur les divulgue délibérément ».

Un peu court…La Commission a une interprétation beaucoup plus stricte et fidèle au texte initial : un contenu librement accessible doit être... librement accessible.

Des contenus vraiment publics, divulgués par la personne concernée

De cette tautologie, elle en déduit que l’expression vise « les contenus auxquels un utilisateur non inscrit ou sans enrôlement préalable (création de compte, fourniture de certaines informations pour créer un identifiant ou toute autre forme d'inscription) sur une plateforme ou un réseau social pourrait avoir accès, sans saisie préalable d'un mot de passe ».

De même, « pour être manifestement rendus publics les contenus doivent être délibérément divulgués par la personne titulaire du compte ou de la page ce qui implique incontestablement une action volontaire de sa part ». À contrario, « la simple absence de mise en place d'un paramétrage de confidentialité spécifique par exemple ne suffit pas à caractériser qu'une personne a délibérément divulgué un contenu ».

La Commission a donc demandé une modification du décret final, qui prévient désormais au Journal officiel que « seuls les contenus se rapportant à la personne qui les a délibérément divulgués et dont l'accès ne nécessite ni saisie d'un mot de passe ni inscription sur le site en cause peuvent être collectés et exploités ».

De même, le texte indique que « lorsque la personne est titulaire sur internet d'une page personnelle permettant le dépôt de commentaires ou toute autre forme d'interactions avec des tiers, ces commentaires et interactions ne peuvent faire l'objet d'aucune exploitation ».

Cachez ce hashtag

Relevons au final que Bercy entendait aspirer également des données relatives aux « contenus de toute nature, y compris diffusés en temps réel ».

Dans les échanges avec la CNIL, il a précisé que cette expression recouvrait principalement les « hastags » outre, selon la Commission, « l'ensemble des publications quel que soit leur format informatique (par exemple des codes chiffrés, des algorithmes, …) dès lors qu'ils sont librement accessibles et manifestement rendus publics par l'utilisateur de la plateforme ». L’expression ne se retrouve plus dans le texte finalement publié.

Android 15 : la bêta 1.1 corrige plusieurs soucis, dont le NFC

09:01 0

Selon Jean-Noël Barrot, la France et l’Europe sont « pilonnés par la propagande de la Russie »

07:57 22

C’est la fin pour la marque Roccat, Turtle Beach prend le relai

07:43 4

Intelligence artificielle : Apple rachète la société française Datakalab

07:30 6

Proton Mail ajoute la surveillance du dark web à la recherche de fuites de données

07:05 2

La lutte contre les centres d’appels, une « priorité » de la cyberpolice ukrainienne

00:01 5

Commentaires (27)

ElCroco

Le 15/02/2021 à 16h 52

Question bête. Quid des plateformes de discussions ? Je pense principalement à discord, IRC, mais on peut également imaginer les groupes telegram publics ou d’autres.

De plus, de ce que j’en compris, la CNIL a dit “hey ho, on va s’calmer Jean Michel Bercy, mais on a dit public, pas ‘avec un compte’”, mais pour l’instant, le fameux Jean Michel Bercy n’a rien répondu et n’est pas dans l’obligation d’accepter la demande de la CNIL ?

lanoux Abonné

Le 15/02/2021 à 17h 02

En gros bercy n’en branle toujours pas une (mon ancien voisin qui y bosse n’y foutait jamais les pieds, et c’était avant le covid …coucou bercy, il est sur saint fargeau ponthierry), mais en plus ils bitnt kedal à la loi.
Il nous coutent combien par an ces fumistes?

Parce que bon, je veux pas dire mais être aussi mauvais dans la récupération de pognon de la fraude fiscale on serait pas dans de l’emploi fictif? ça m’en a tout l’air.

alain_du_lac Abonné

Le 16/02/2021 à 13h 03

#2.1

Bravo la généralisation à partir d’un cas 😜 !!
Je pense que comme fumiste tu te poses là …

Le 16/02/2021 à 22h 46

#2.2

alain_du_lac

23.5 vs 1 pour 10 000 vs 4000 la on est pas dans la généralité mais dans les impôts que l’on paye!
en gros tu préfères payer 4000 glandus pour ramasser 1milliard et payer 50% de glandu en plus pour ramasser 23.5……heeeeeu tu fraude la tva?
simple question parce que la t’es pas du tout rationnel….a moins de faire parti des profiteurs, sinon je ne vois pas ton intéret! moi perso jeter l’argent par les fenetres c’est pas mon kiffe à moins que je repique la moitié en loucedé. es ce ton cas?

Le 16/02/2021 à 22h 59

#2.3

enfin bon, c’est marrant que tu traites la cour des comptes de fumistes. de dangereux gauchiste extrémiste mangeur de bébé peut être? c’est vrai qu’avec debré feu chirac et vge petit niko qui n’y fout pas les pieds et flambi on a la le quinté gagnant du politburo!

anagrys Abonné

Le 17/02/2021 à 16h 33

#2.5

lanoux

j’ai l’impression que tu confonds la Cour des Comptes et le Conseil Constitutionnel. Dans la liste d’ex que tu donnes, un seul “travaillait” à la Cour des Comptes, c’était Hollande. Tout en admettant benoîtement que c’était loin d’être un job très pénible.
Concernant le Conseil Constitutionnel, Chirac, Sarkozy et Hollande ont fait le choix de ne pas y siéger, jusqu’en 2020 VGE était le seul “ex” à y être actif. Au temps pour le “quinté gagnant”.

vizir67 Abonné

Le 21/02/2021 à 16h 14

#2.6

anagrys

Concernant le Conseil Constitutionnel, Chirac, Sarkozy et Hollande ont fait le choix
de ne pas y siéger…

éh… franchement ils ont bien fait, après avoir été PR. , ‘se rabaisser’ à n’être plus
qu’un simple membre du ‘CC.’, eux qui ont ‘côtoyé les étoiles’ !
“pfff” !

DanLo Abonné

Le 22/02/2021 à 09h 27

#2.7

vizir67

Oui et non… à leur place je serais un peu dégoûté quand même vu que les membres du CC ont un plus gros salaire que le président…

Le 22/02/2021 à 09h 33

#2.8

DanLo

certes, mais je parlais de “fierté”* !

ou, ‘honneur’ = ça existe, encore, de nos jours ?

Le 22/02/2021 à 11h 34

#2.9

rien que pour emm…er leur successeur, ça aurait pu être pertinent à un moment où à un autre

Concernant le fait de mettre “personnalité politique” et “honneur” dans la même phrase… je garderai pour moi ce que j’en pense, c’est plus charitable !

Le 22/02/2021 à 14h 08

#2.10

Le 16/02/2021 à 23h 09

#2.4

bon bun la cour des comptes en accointance avec le conseil constitutionnel sur le principe de sincérité du budget (et oui le recouvrement de l’impot fait parti du budget, argent magique sorti de nos poches) mangent des bébés car étant de dangereux gauchiste.
ça va faire plaisir a debré, popa de pierre paul jaques qu’es ce que tu fait la à trainer (meilleur weed d’ile de france quand il plante et ouais, je balance rien a batre) feu chirace ça m’en touche une sans faire bouger l’autre (5minutes douche comprise) feu vge (j’ai pécho diana) le nabo qui n’y fout jamais les pieds et flambi….bravo
tu viens aussi de traiter de fumistes 5 présidents de la république :)
wouhahahahahahaha

jfoucry

Le 15/02/2021 à 17h 13

Bonjour,

Si je comprend bien, seules les données qui ne sont pas derrière un login/mot de passe pourront être utilisées… Donc pas twitter, pas facebook, pas instagram, amazon, pas google, donc… rien en fait.

Mihashi Abonné

Le 15/02/2021 à 18h 08

#3.1

Bah si, tes posts twitter, par exemple, sont (à priori) accessibles sans mot de passe (même si toi t’en utilises un pour les poster).

Le 15/02/2021 à 21h 03

#3.2

Mihashi

Ouf, je n’ai pas de compte twitter (ni facebook, ni instagram, etc). :-)

ManusDei

Le 17/02/2021 à 08h 02

#3.3

Facebook aussi, pas besoin de compte pour accéder à la plupart des contenus. Constaté via des applis qui m’ouvrent les liens facebook dans leur navigateur interne au lieu de m’ouvrir l’appli facebook.

Tony crousty Abonné

Le 16/02/2021 à 02h 57

lanoux a dit:

En gros bercy n’en branle toujours pas une (mon ancien voisin qui y bosse n’y foutait jamais les pieds, et c’était avant le covid …coucou bercy, il est sur saint fargeau ponthierry), mais en plus ils bitnt kedal à la loi. Il nous coutent combien par an ces fumistes?

Parce que bon, je veux pas dire mais être aussi mauvais dans la récupération de pognon de la fraude fiscale on serait pas dans de l’emploi fictif? ça m’en a tout l’air.

La vie de ton voisin, c’est un peu short pour tirer des conclusions d’une banalité désolante. Ce projet est sans doute criticable dans son approche, mais il y a justement des gens de Bery qui font autre chose que se tourner les pouces pour le faire avancer et récupérerdu pognon. Ça devrait te réjouir…

Le 16/02/2021 à 07h 00

(reply:1854682:Tony crousty)

Aucunement c’est LA preuve. Pourquoi? La cour des comptes n’est pas foutu de nous sortir un chiffre sur cette fraude ça va de 25 à 100 milliards d’euros, allé, on se colle à 75-80 comme beaucoup de spécialistes le disent? Allé, même 70, je suis beau jouers, une paille…combien de récupéré?
16 milliards, donc ils se branlent la nouille CQFD
A non, grâce a tweeter et fesses de boucs on va s’en foutre plein les fouilles! et du coup on en a pas rien a faire de la vie du voisin, on est bien en ligne sur un compte public, on va donc voir si l’aspirateur de bercy va lui demander des comptes, non je déconne, ils vont bien se marrer.

Rowin Abonné

Le 16/02/2021 à 08h 27

#5.1

On alors, et je dis vraiment pas ça pour défendre la DGFiP, ils ont, comme toutes les administrations, pas assez de moyens pour bosser efficacement sur la fraude fiscale. Et ce genre de projet me renforce dans cette idée, ça sent vraiment le boss qui s’est dit “trop bien, avec du data mining et des algorithmes on va pouvoir attraper des fraudeurs sans embaucher de personnel”. M’est avis qu’ils vont être déçus.

tiret

Le 16/02/2021 à 08h 43

Ils ont entraîné les moteurs sur les comptes FB de Bernard Arnault, les Mulliez et Patrick Drahi ?

Pour le coup je ne vois pas où est le problème de mettre un bot pour scanner ce genre de chose, tant que les données ne sont pas partagées avec d’autres services de la DGFIP.

Ramaloke Abonné

Le 16/02/2021 à 09h 32

lanoux a dit:

Aucunement c’est LA preuve. Pourquoi? La cour des comptes n’est pas foutu de nous sortir un chiffre sur cette fraude ça va de 25 à 100 milliards d’euros, allé, on se colle à 75-80 comme beaucoup de spécialistes le disent? Allé, même 70, je suis beau jouers, une paille…combien de récupéré? 16 milliards, donc ils se branlent la nouille CQFD A non, grâce a tweeter et fesses de boucs on va s’en foutre plein les fouilles! et du coup on en a pas rien a faire de la vie du voisin, on est bien en ligne sur un compte public, on va donc voir si l’aspirateur de bercy va lui demander des comptes, non je déconne, ils vont bien se marrer.

Tu n’as pas l’air de te rendre compte de la difficulté de déceler et prouver la fraude fiscal :
-Tu as des pays qui volontairement cache tes citoyens (Luxembourg, Suisse même si ça s’amaliore mais reste le Panama et autre paradis fiscal)
-Le principe des holding et des prêtes-noms qui rend complexe d’identifier le propriétaire réel.
-Les flux d’argent massif dû à la bourse (High-Frequency-Trading)
-Les millions de sociétés à surveiller
-Les “petites fraudes” de comptabilité (passer la poussette et les couches du dernier dans les frais pro comme le faisaient les députés, comment tu le découvre sans passer la compta ligne par ligne ? Ca prend des jours, tu sais combien de note de frais font ce type de boulot ?)
-Toutes les fraudes aux donations (tu montes une asso par un prête-nom et tu fais des dons défiscalisés)
-Toutes les fraudes sur l’art (tableau à plusieurs millions qui vont de main en main, avec de la fiscalité avantageuse).

Au-delà du simple contrôle, il ne faut pas oublier que c’est le système fiscal même qui encourage/permet la “fraude”, qui est aussi un moyen pour les politiques de “rendre la pareille” à ceux qui les ont financés en faisant mine de lutter contre.
Comme pour l’optimisation fiscal, ça ne serait pas très compliqué de changer les règles du jeu pour la réduire drastiquement, mais ça serait un suicide financier/politique (regarde rien que la taxe GAFA avec les USA, alors que c’est une broutille par rapport à ce qu’ils devraient réellement payer).

Le 16/02/2021 à 10h 03

#7.1

Quand on veut on peut. C’est vrai que nous nous sommes les spécialistes pour créer moulte agences afin de bien diluer les effectifs pour une inefficacité maximale.
La dernière fois c’était quoi déjà? ah oui, une nouvelle cellule d’une 20aines de gus. C’est vrai que renforcer les diverses agences existante ça c’est pas bien des fois qu’ils deviennent enfin compétant.

La tu marques un super points, c’est comme tout au niveau administration.
mais on peut quand même remarquer que nous avons 10 000 agents pour la fraude fiscale et tadam, 4 000 pour la fraude sociale
Rapport de la cour des comptes de septembre 2019: 1 milliards d’euros de fraude aux prestations sociales (entre 8 et 10 serait plus réaliste mais c’est balot, en france on aime pas trop les outils de contrôle
Rapport de la cour des comptes de décembre 2019: 8.5 milliards d’euros de fraude aux cotisations sociales et 15 milliards pour la tva

La on parle des chiffres de la cour des comptes!!! Bon eux mêmes gueulent car nous n’avons aucun outils de suivi (mais bon on ne peut certainement pas les accuser d’être de dangereux gauchistes).

donc reprennons 15 + 8.5 qui nous font 23,5 milliards versus 1 milliard pour 10 000 agents versus 4 000

WHAT IS THE FOUQUE!!!

Le 16/02/2021 à 10h 37

lanoux a dit:

donc reprennons 15 + 8.5 qui nous font 23,5 milliards versus 1 milliard pour 10 000 agents versus 4 000

WHAT IS THE FOUQUE!!!

C’est difficilement comparable, vu que les montants sont pas du même ordre de grandeur.

C’est plus difficile (donc moins « rentable ») de détecter plein de petites fraudes, que de détecter quelques grosses fraudes.

Le 16/02/2021 à 22h 48

#8.1

23.5 versus 1 la on parle pas de petite fraude.
le 1 c’est de la petite fraude, le 23.5 c’est de la grosse donc au boulot les feignasses
dans ma boite on fait payer les grosses factures impayées, pas les petites CQFD

hellmut Abonné

Le 16/02/2021 à 17h 00

petit rappel: les commentaires sur NXI sont publics, ie accessibles sans compte ou mot de passe.

Le 16/02/2021 à 22h 49

#9.1

ouaipe c’est pour ça que je balance :). jusqu’a preuve du contraire ce sont mes et tes impôts
marrant de voir que les agents de bercy couvrent leurs potes de bercy fraudeur cf le canard enchainé du 4 décembre 2019

Le 17/02/2021 à 10h 06

#9.2

d’ailleurs, je me demande A QUOI peut servir ‘leur système de MdP.’
puisque TOUT ce qu’on écrit est visible par TOUS !!!

La CNIL refroidit l’appétit de Big Brother Bercy

Cyber Bercy