Le fisc se met au webscrapping, fuzzymatching et au datamining

Et à Bercy, c’est encore plus à la mode que le colrouling

Souffrant de baisses d’effectifs, le fisc mise sur les nouvelles technologies pour maintenir ses résultats. Il n’hésite pas à recourir au datamining, mais également au webscrapping de registres officiels britanniques, danois ou luxembourgeois, ainsi que de données des réseaux sociaux, comme le souligne un récent rapport parlementaire.

Un rapport sénatorial vient de se pencher sur la lutte contre la fraude et l’évasion fiscales. Pour le fisc, 2021 a été une bonne année : ces chiffres sont repartis à la hausse. 13,2 milliards d’euros de droits et pénalités ont été notifiés, et 10,7 milliards finalement recouvrés (il peut se passer plusieurs années entre la notification et l’éventuel encaissement des sommes). Des résultats qui interviennent alors que les montants notifiés étaient en baisse depuis le milieu des années 2010 (21,2 milliards d’euros en 2015).

Plusieurs éléments expliquent ces améliorations. D’abord, un effet rebond après une année 2020 marquée par la crise sanitaire. Ensuite, le fisc a amélioré le taux de recouvrement, qui est passé de 60 à 75 % entre 2018 et 2021 : une fois les droits notifiés, Bercy arrive plus facilement à récupérer l’argent. Enfin, le fisc met en avant les résultats du datamining.

Un appel aux technologies alors que les effectifs dédiés au contrôle fiscal ont diminué de 13 % entre 2015 et 2020, passant à 10 781 agents. Les sénateurs, qui dans un précédent rapport faisaient un bilan nuancé de cet apport, reviennent sur l’usage par Bercy des outils d’intelligence artificielle.

Datamining : Bercy glouton en datas

Depuis bientôt dix ans, Bercy a créé une « mission requêtes et valorisation » (MRV). De 14 agents en 2017, la cellule est passée à 31, avec des profils divers : « agents de la DGFiP ou en provenance de l’Insee, informaticiens, fiscalistes, doctorants ». Depuis 2021, la MRV est devenu le bureau « SJCF-1D ». Une dénomination comme l’administration française les aime.

Pour nourrir son datamining, Bercy utilise « l’ensemble des fichiers de données patrimoniales, foncières, professionnelles, personnelles des redevables disponibles à la DGFiP ». Mais le bureau a « également accès aux données de la Douane, de l’Urssaf Caisse nationale 1 ou encore du ministère de l’intérieur ». Les données proviennent aussi « d’autres sources telles que d’échanges automatiques internationaux, des réseaux sociaux, des déclarations par les tiers (ex. données des plateformes d’économie collaborative), des bases en open source (ex. Infogreffe, registre des bénéficiaires effectifs) ou encore d’acquisitions de bases de données privées (ex. pour la participation dans des entreprises étrangères) ».

Au total, cela représentait en 2021, 6,2 téraoctets de données utiles. Mais ce n’est pas suffisant : Bercy va profiter de la généralisation prochaine de la facturation électronique : quatre milliards de factures supplémentaires chaque mois qui pourront nourrir les algorithmes, notamment pour lutter contre la fraude « carrousel » à la TVA.

Le datamining représente aujourd’hui près de la moitié des contrôles faits par le fisc. Mais, il ne constitue qu’une part faible des droits recouvrés : 1,2 milliard d’euros en 2021 (sur 10,7). Pour les sénateurs, cela s’explique en partie par le décalage temporel : entre le contrôle et le recouvrement, il peut se passer plusieurs années. Ils souhaitent donc que Bercy publie plus de données sur les suites des contrôles « datamining ».

Par ailleurs, les outils de datamining ne sont pas utilisés que pour lutter contre la fraude. Le rapport cite plusieurs exemples : le « contrôle a priori des demandes d’aides au titre du fonds de solidarité durant la crise sanitaire (un million de demandes bloquées en 2020 et renvoyées à un examen individualisé) », l’identification des entreprises fragiles économiquement ou encore la sécurisation du remboursement de crédits de TVA.

Enfin, il faut noter que Bercy n’est pas le seul à dataminer ses données : comme l’indique une annexe au budget 2023 qui retrace la politique antifraude, l’ACOSS a déployé l’an dernier « un plan national datamining expérimental » de lutte contre la fraude sociale et les douaniers ont eux-aussi une cellule datamining qui oriente certains contrôles.

Le retour de #BigBrotherBercy

S’il n’évoque pas foncier innovant, le rapport sénatorial permet de faire le point sur un autre projet phare : #BigBrotherBercy dont nous avions beaucoup parlé.

Le but est de web-scrapper les données des réseaux sociaux pour repérer des distorsions entre ce que le contribuable déclare au fisc et ce qu’il affiche. « L’évaluation préliminaire montre qu’une quarantaine d’annonces potentiellement frauduleuses sont identifiées chaque semaine, sur trois plateformes ». Les sénateurs ont pu assister à une démonstration.

Parmi les annonces repérées, « une personne se présentant comme un "particulier" était par exemple à l’origine de dizaines d’annonces de voitures de luxe ». Problème, la loi n’évoque que les données « librement accessibles » en ligne. Ce qui exclu les réseaux sociaux comme Facebook ou Instagram, où il faut disposer d’un compte pour accéder aux données, même lorsque elles sont ensuite offertes à tous les membres du réseau social (même sans être « ami »). Les sénateurs veulent faire sauter cette barrière et préféreraient que la loi parle des données « publiquement » accessibles, plutôt que « librement ». Dans l’attente, ils veulent prolonger l’expérimentation.

Quand le fisc webscrappe les Britanniques et les Danois

Mais Facebook n’est pas la seule cible du webscrapping fiscal. Depuis plusieurs années, l’Europe a imposé la tenue de « registres des bénéficiaires effectifs » : les sociétés doivent dorénavant indiquer quelles sont les personnes physiques qui les possèdent (au moins 25 % du capital ou des droits de vote) ou qui les dirigent. Des informations que vous pouvez retrouver ici et qui intéressent le fisc.

L’administration française s’intéresse aussi aux données étrangères. Comme l’indique le rapport, le fisc travaille « avec un prestataire privé, chargé du développement de robots de webscrapping, qui doivent permettre de récupérer de façon automatique les données des registres de bénéficiaires effectifs d’autres États ». Ainsi, les « données du Luxembourg ont été récupérées, tandis que les registres du Royaume Uni et du Danemark seraient en cours de traitement ».

L’administration fiscale a ensuite recours à « des techniques de fuzzy matching pour associer aux personnes physiques, par un traitement automatisé de l’état civil des bénéficiaires effectifs, un identifiant fiscal français (SPI) ». Ainsi, il est plus facile d’analyser les données et trouver les anomalies fiscales.

Pour l’instant, le fisc n’utilise pas d’outil d’IA pour exploiter les données des registres de bénéficiaires effectifs. Le rapport sénatorial recommande de croiser les informations avec d’autres bases de données, par exemple avec le cadastre. Une démarche qui « pourrait être menée au niveau de l’Union européenne, afin de disposer de la base d’information la plus complète possible ». Toutefois, une étude croisée du registre français sur les bénéficiaires effectifs et du cadastre français menée par Transparency International et Anti-Corruption Data Consortium devrait être prochainement publiée.

Webscrapping, fuzzymatching et datamining sont plus que jamais l’avenir de l’administration.

Aux États-Unis, Threads sur le point de dépasser X (Twitter)

14:00 3

Snapdragon X : Qualcomm tricherait dans ses benchmarks

11:30 1

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

09:10 3

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

08:04 2

Ubuntu 24.04 LTS disponible en version finale

08:00 1

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

07:45 10

Commentaires (28)

Vin Diesel Abonné

Le 03/11/2022 à 10h 31

Si je lis bien entre les lignes, les optimiseurs / fraudeurs fiscaux ont des soucis à se faire.
Ou bien, s’agit-il juste d’un peu de comm’ pour faire abandonner au simple quidam toutes velléités de passer au travers des contrôles ?

patos Abonné

Le 03/11/2022 à 10h 51

(reply:2102465:Vin Diesel)

Les optimiseurs sont dans la loi, malgré leur amusement avec ses limites.
Les fraudeurs stupides ont du souci à se faire, ainsi que les mythomanes qui étalent leur pseudo-vie sur les réseaux sociaux.
Le vrai problème est la dérive de la part de l’Etat, pour les gens qui se pensent dans les clous. L’Etat changeant souvent ses règles, et en se cachant derrière le fameux “nul n’est censé ignorer la loi”, ça peut parfois être compliqué.

Shadowman_2k3

Le 03/11/2022 à 11h 08

#2.1

Les lois fiscales ont très peu changées … Tu es sensé déclaré ce que tu possèdes et ce que tes revenus (rente / salaire / honoraire / loyer / dividendes / plue values).

Le principe ici est de chercher l’argent qui ne circule pas via les banques, l’argent liquide remonte des anomalies.

Pour avoir travailler dans ce genre de systèmes, quand la loi va changer et l’accès fb/insta & co sera dispo ca va flamber sévère, et on ne parle même pas d’IA

Le 03/11/2022 à 14h 43

#2.2

Je le sais, mais les subtilités ont bien changé.
Quid des cryptomonnaies ?
Quid de la revente d’objets d’occasions pour ses propres besoins mais de manière intensive (j’en connais qui font de l’achat / revente sur vinted à grand rythme car elles adorent changer de fringues) ?
Quant aux règles pour les abris de jardins ?

De plus, le résultat des algorithmes du FISC vont-ils être exploitables par d’autres caisses ? Si oui, automatiquement ? Si oui, quels en seront les contrôles ? Etc…

Le problème est “comment cet algorithme va-t-il retourner les informations sans orienter le jugement de la personne en charge du contrôle”.

ps: je suis pour ce genre de système, tant qu’il est encadré.

Billye

Le 03/11/2022 à 14h 57

#2.3

patos

Les 3 cas que tu cites sont déjà prévu par la loi :

Les cryptos c’est 30% sur le bénéfice net

Les abris de jardins peuvent être taxés s’ils sont ancrés et d’une certaine taille (de mémoire)

La revente sur le net intensive aussi –> là l’analyse des datas publiques est primordiale.

pamputt Abonné

Très intéressant, sur le papier en tout cas. À voir si on arrive à attraper des gros poissons avec ce genre de technique car si on se concentre uniquement sur les « petits » fraudeurs, on aura du mal à défendre la justice fiscal.

N.Master Abonné

Le 03/11/2022 à 11h 13

le sous titre

L’état va encore taper sur les petits pour recupérer quelques millions alors qu’il y a des gros qui montent des ~~escroqueries~~ optimisations à quelques millards. Mais les gros ont des gros avocats alors on leur fout la paix…

Et si on est victime d’une erreur ou qu’on ne comprend rien à ce qui nous est reproché, on a personne en face parce que “vous comprenez c’est une IA qui a le contrôle”

Le 03/11/2022 à 11h 39

#4.1

Je me suis fait redresser parce que je déclarais très légitimement des frais de route (70km) avec comme seule réponse : “Z’avez qu’à déménager” ! C’était en ‘82, et ça a fait très mal. 3 ans plus tard je leur mettais sévère avec 50% de mon salaire en frais de déplacements, salaire déjà indécent même sans ces frais. Simple remboursement. Donc ils avaient pas besoin de tout ce merdier pour taxer les plus pauvres ( le 1er salaire était dérisoire, 1er boulot alimentaire trouvé sur l’autre trottoir! )

darkman13 Abonné

Le 03/11/2022 à 12h 16

#4.2

Déclarer plus de 40km est en effet assez encadré, et j’imagine qu’il y a plein de subtilités pour chaque catégories.
Après pour éviter ces situations, ils pourraient plafonner automatiquement à 40km le calcul si pas de justificatif, et à chacun de fournir ceux-ci pour débloquer le reste ? Car il est vrai qu’une erreur peut coûter bonbon après quelques années.

carbier Abonné

Le 03/11/2022 à 12h 21

(quote:2102475:N.Master)
Et si on est victime d’une erreur ou qu’on ne comprend rien à ce qui nous est reproché, on a personne en face parce que “vous comprenez c’est une IA qui a le contrôle”

L’IA ne controle rien: elle fait le tri et réoriente vers des agents les cas “problématiques”.

Le 03/11/2022 à 12h 43

#5.1

Je confirme, sur tous les algo développés pour les gestionnaires, c’est des présentations avec une orientation de décision pour leur faciliter le taf, le gestionnaire valide ou décide de bypass l’algo.

Il y a des règles de gestion mais les gestionnaires veulent pouvoir bypass à chaque étape du workflow.

Cette situation, je l’ai rencontrée en assurance (b2b / b2c), banque de détail / groupe ou finance de marché.

Ce sera exactement la même chose avec l’IA enfin si on peut appeler ça de l’IA pour ce type de traitement …

KooKiz Abonné

Le 03/11/2022 à 13h 34

Billye a dit:

Je me suis fait redresser parce que je déclarais très légitimement des frais de route (70km) avec comme seule réponse : “Z’avez qu’à déménager” ! C’était en ‘82, et ça a fait très mal. 3 ans plus tard je leur mettais sévère avec 50% de mon salaire en frais de déplacements, salaire déjà indécent même sans ces frais. Simple remboursement. Donc ils avaient pas besoin de tout ce merdier pour taxer les plus pauvres ( le 1er salaire était dérisoire, 1er boulot alimentaire trouvé sur l’autre trottoir! )

L’autre trottoir était à 70 km ?

(pardon )

Le 03/11/2022 à 14h 51

#6.1

Je clarifie un peu ma position : je ne suis en rien contre l’impôt au contraire même j’étais parmi ceux qui gueulaient quand la gauche a commencé à en faire un instrument politique, oui la gauche, sous Jospin les comptes étaient à l’équilibre pour le moins et on a commencé à parler baisse d’impôts … ( je n’ai pas de traces plus anciennes de ce genre de politique)

https://www.lesechos.fr/1998/07/lionel-jospin-redistribuera-12-milliards-de-francs-de-baisses-dimpots-lannee-prochaine-grace-aux-dividendes-de-la-croissance-796106

Car de bien entendu qui pâti en 1er de ces baisses lorsque les comptes sont plus tendus :
1 - Culture
2 - Education
3 - Santé (voir même 1)

coco74 Abonné

Le 03/11/2022 à 14h 27

La généralisation de la facture électronique ? Qu’est ce que c’est ?

vexal Abonné

Le 03/11/2022 à 14h 45

le fisc a amélioré le taux de recouvrement, qui est passé de 60 à 75 % entre 2018 et 2021

Ca choque personne ?

J’espère que je comprends mal. Quelqu’un peut m’expliquer ?

Le 03/11/2022 à 14h 52

#8.1

Je pense que le fisc n’arrive pas à faire rentrer 25% (un quart ! ) de ce qu’elle croie lui être dû …

PJanuel

Le 03/11/2022 à 19h 37

#8.2

vexal a dit:

Ca choque personne ?

J’espère que je comprends mal. Quelqu’un peut m’expliquer ?

C’est à dire ?
Ce taux est pas si mauvais, si on le compare aux amendes prononcées par la justice
https://www.dalloz-actualite.fr/flash/plus-de-moitie-du-montant-des-amendes-penales-reste-impaye

Le 04/11/2022 à 07h 36

#8.3

Merci pour le lien.
Je trouve que 25% non recouvré c’est énorme au vu de la somme totale !
Et quand on voit que pour certaines infractions c’est 85% NON recouvré, ça frise le scandale…

tifounon

Le 04/11/2022 à 07h 55

#8.4

vexal

Comme la CAF qui ne récupère jamais les montants fraudés (ou alors des miettes) parce que la justice est lente, incertaine et non constante dans ses décisions.

Le 03/11/2022 à 14h 58

(reply:2102531:Billye) J’oubliais la recherche

Le 03/11/2022 à 19h 36

#10

coco74 a dit:

La généralisation de la facture électronique ? Qu’est ce que c’est ?

D’ici 2024 à 2026, toutes les facturations entre assujettis à la TVA seront transmises électroniquement
https://www.economie.gouv.fr/generalisation-facturation-electronique-calendrier-reforme

brupala Abonné

Le 03/11/2022 à 22h 11

#11

Enfin,
bon en ce moment j’ai (j’avais) le souci qu’ils n’étaient pas foutus de synchroniser infos bancaires entre revenu et fonciers, alors qu’ils avaient toutes les infos.
A Bercy, il y a peut-etre des flèches mais dans les départements, il reste pas mal de boulets.

TroudhuK Abonné

Le 04/11/2022 à 02h 51

#12

Et avec tout ça, ils n’arrivent toujours pas à trouver la fortune de Macron.

bistouille

Le 04/11/2022 à 08h 48

#13

Dans le bouquin d’Antoine Peillon, “les 600 milliards qui manquent à la France”, en 2012, on parlait de 20 à 40 milliards par an d’évasion fiscale je crois, et depuis cette fourchette d’estimation basse n’a fait que grimper, dans les chiffres entendus en 2019 on se situerait plutôt autour de 80-100 milliards d’€ pour la France, soit plus que le déficit budgétaire de la France (voir le prochain film “La (Très) Grande Evasion” de Yannick Kergoat et Denis Robert, à sortir en décembre prochain)

Le 06/11/2022 à 05h 20

#13.1

Le rapport sénatorial évoque cette difficile évaluation de la fraude fiscale, avec des chiffres allant dans tous les sens. La seule fraude fiscale qui a été récemment évaluée, c’est celle à la TVA : 20 à 25 milliards https://www.insee.fr/fr/statistiques/6478533

fofo9012 Abonné

Le 04/11/2022 à 09h 50

#14

Concrètement, l’état va mettre en place un webservice de déclaration, et toute émission de facture devra être déclarée à l’état dans ce webservice : Le but est d’automatiser les déclarations de TVA notamment et de détecter les fausses factures / blanchiment d’argent…

Ça existe déjà au Brésil depuis 2008 https://sovos.com/fr/tva/regles-fiscales/brazil-e-invoicing/ eux vont plus loin encore :

l’état contrôle et valide en temps réel les demandes de facture (no de SIRET valable, bon taux de TVA…), si l’état ne valide pas la demande de facture, le client ne peut pas l’émettre

le client ne paie pas en direct son fournisseur, mais paye l’état qui règle ensuite le fournisseur.

traknar Abonné

Le 04/11/2022 à 20h 36

#15

C’est quand même dingue de devoir en passer par du scraping pour obtenir les données d’autres pays de l’UE…

Berbe Abonné

Le 06/11/2022 à 03h 23

#16

Billye a dit:

je leur mettais sévère

Pas “leur”, “nous la”.

Le fisc se met au webscrapping, fuzzymatching et au datamining

Et à Bercy, c’est encore plus à la mode que le colrouling

Datamining : Bercy glouton en datas

Le retour de #BigBrotherBercy

Quand le fisc webscrappe les Britanniques et les Danois

Tiens, en parlant de ça :

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Qui donnera du grain avarié à moudre aux nouvelles IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Artificial Ideology

Sommaire de l'article

Introduction

Datamining : Bercy glouton en datas

Le retour de #BigBrotherBercy

Quand le fisc webscrappe les Britanniques et les Danois

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Aux États-Unis, Threads sur le point de dépasser X (Twitter)

Snapdragon X : Qualcomm tricherait dans ses benchmarks

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

Ubuntu 24.04 LTS disponible en version finale

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

Commentaires (28)