Le fisc se met au webscrapping, fuzzymatching et au datamining

Le fisc se met au webscrapping, fuzzymatching et au datamining

Et à Bercy, c’est encore plus à la mode que le colrouling

Avatar de l'auteur
Pierre Januel

Publié dans

Droit

03/11/2022 7 minutes
28

Le fisc se met au webscrapping, fuzzymatching et au datamining

Souffrant de baisses d’effectifs, le fisc mise sur les nouvelles technologies pour maintenir ses résultats. Il n’hésite pas à recourir au datamining, mais également au webscrapping de registres officiels britanniques, danois ou luxembourgeois, ainsi que de données des réseaux sociaux, comme le souligne un récent rapport parlementaire.

Un rapport sénatorial vient de se pencher sur la lutte contre la fraude et l’évasion fiscales. Pour le fisc, 2021 a été une bonne année : ces chiffres sont repartis à la hausse. 13,2 milliards d’euros de droits et pénalités ont été notifiés, et 10,7 milliards finalement recouvrés (il peut se passer plusieurs années entre la notification et l’éventuel encaissement des sommes). Des résultats qui interviennent alors que les montants notifiés étaient en baisse depuis le milieu des années 2010 (21,2 milliards d’euros en 2015).

Plusieurs éléments expliquent ces améliorations. D’abord, un effet rebond après une année 2020 marquée par la crise sanitaire. Ensuite, le fisc a amélioré le taux de recouvrement, qui est passé de 60 à 75 % entre 2018 et 2021 : une fois les droits notifiés, Bercy arrive plus facilement à récupérer l’argent. Enfin, le fisc met en avant les résultats du datamining.

Un appel aux technologies alors que les effectifs dédiés au contrôle fiscal ont diminué de 13 % entre 2015 et 2020, passant à 10 781 agents. Les sénateurs, qui dans un précédent rapport faisaient un bilan nuancé de cet apport, reviennent sur l’usage par Bercy des outils d’intelligence artificielle.

Datamining : Bercy glouton en datas

Depuis bientôt dix ans, Bercy a créé une « mission requêtes et valorisation » (MRV). De 14 agents en 2017, la cellule est passée à 31, avec des profils divers : « agents de la DGFiP ou en provenance de l’Insee, informaticiens, fiscalistes, doctorants ». Depuis 2021, la MRV est devenu le bureau « SJCF-1D ». Une dénomination comme l’administration française les aime.

Pour nourrir son datamining, Bercy utilise « l’ensemble des fichiers de données patrimoniales, foncières, professionnelles, personnelles des redevables disponibles à la DGFiP ». Mais le bureau a « également accès aux données de la Douane, de l’Urssaf Caisse nationale 1 ou encore du ministère de l’intérieur ». Les données proviennent aussi « d’autres sources telles que d’échanges automatiques internationaux, des réseaux sociaux, des déclarations par les tiers (ex. données des plateformes d’économie collaborative), des bases en open source (ex. Infogreffe, registre des bénéficiaires effectifs) ou encore d’acquisitions de bases de données privées (ex. pour la participation dans des entreprises étrangères) ».

Au total, cela représentait en 2021, 6,2 téraoctets de données utiles. Mais ce n’est pas suffisant : Bercy va profiter de la généralisation prochaine de la facturation électronique : quatre milliards de factures supplémentaires chaque mois qui pourront nourrir les algorithmes, notamment pour lutter contre la fraude « carrousel » à la TVA.

Le datamining représente aujourd’hui près de la moitié des contrôles faits par le fisc. Mais, il ne constitue qu’une part faible des droits recouvrés : 1,2 milliard d’euros en 2021 (sur 10,7). Pour les sénateurs, cela s’explique en partie par le décalage temporel : entre le contrôle et le recouvrement, il peut se passer plusieurs années. Ils souhaitent donc que Bercy publie plus de données sur les suites des contrôles « datamining ».

Par ailleurs, les outils de datamining ne sont pas utilisés que pour lutter contre la fraude. Le rapport cite plusieurs exemples : le « contrôle a priori des demandes d’aides au titre du fonds de solidarité durant la crise sanitaire (un million de demandes bloquées en 2020 et renvoyées à un examen individualisé) », l’identification des entreprises fragiles économiquement ou encore la sécurisation du remboursement de crédits de TVA.

Enfin, il faut noter que Bercy n’est pas le seul à dataminer ses données : comme l’indique une annexe au budget 2023 qui retrace la politique antifraude, l’ACOSS a déployé l’an dernier « un plan national datamining expérimental » de lutte contre la fraude sociale et les douaniers ont eux-aussi une cellule datamining qui oriente certains contrôles.

Le retour de #BigBrotherBercy

S’il n’évoque pas foncier innovant, le rapport sénatorial permet de faire le point sur un autre projet phare : #BigBrotherBercy dont nous avions beaucoup parlé.

Le but est de web-scrapper les données des réseaux sociaux pour repérer des distorsions entre ce que le contribuable déclare au fisc et ce qu’il affiche. « L’évaluation préliminaire montre qu’une quarantaine d’annonces potentiellement frauduleuses sont identifiées chaque semaine, sur trois plateformes ». Les sénateurs ont pu assister à une démonstration.

Parmi les annonces repérées, « une personne se présentant comme un "particulier" était par exemple à l’origine de dizaines d’annonces de voitures de luxe ». Problème, la loi n’évoque que les données « librement accessibles » en ligne. Ce qui exclu les réseaux sociaux comme Facebook ou Instagram, où il faut disposer d’un compte pour accéder aux données, même lorsque elles sont ensuite offertes à tous les membres du réseau social (même sans être « ami »). Les sénateurs veulent faire sauter cette barrière et préféreraient que la loi parle des données « publiquement » accessibles, plutôt que « librement ». Dans l’attente, ils veulent prolonger l’expérimentation.

Quand le fisc webscrappe les Britanniques et les Danois

Mais Facebook n’est pas la seule cible du webscrapping fiscal. Depuis plusieurs années, l’Europe a imposé la tenue de « registres des bénéficiaires effectifs » : les sociétés doivent dorénavant indiquer quelles sont les personnes physiques qui les possèdent (au moins 25 % du capital ou des droits de vote) ou qui les dirigent. Des informations que vous pouvez retrouver ici et qui intéressent le fisc.

L’administration française s’intéresse aussi aux données étrangères. Comme l’indique le rapport, le fisc travaille « avec un prestataire privé, chargé du développement de robots de webscrapping, qui doivent permettre de récupérer de façon automatique les données des registres de bénéficiaires effectifs d’autres États ». Ainsi, les « données du Luxembourg ont été récupérées, tandis que les registres du Royaume Uni et du Danemark seraient en cours de traitement ».

L’administration fiscale a ensuite recours à « des techniques de fuzzy matching pour associer aux personnes physiques, par un traitement automatisé de l’état civil des bénéficiaires effectifs, un identifiant fiscal français (SPI) ». Ainsi, il est plus facile d’analyser les données et trouver les anomalies fiscales.

Pour l’instant, le fisc n’utilise pas d’outil d’IA pour exploiter les données des registres de bénéficiaires effectifs. Le rapport sénatorial recommande de croiser les informations avec d’autres bases de données, par exemple avec le cadastre. Une démarche qui « pourrait être menée au niveau de l’Union européenne, afin de disposer de la base d’information la plus complète possible ». Toutefois, une étude croisée du registre français sur les bénéficiaires effectifs et du cadastre français menée par Transparency International et Anti-Corruption Data Consortium devrait être prochainement publiée.

Webscrapping, fuzzymatching et datamining sont plus que jamais l’avenir de l’administration.

Écrit par Pierre Januel

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Datamining : Bercy glouton en datas

Le retour de #BigBrotherBercy

Quand le fisc webscrappe les Britanniques et les Danois

Fermer

Commentaires (28)


Si je lis bien entre les lignes, les optimiseurs / fraudeurs fiscaux ont des soucis à se faire.
Ou bien, s’agit-il juste d’un peu de comm’ pour faire abandonner au simple quidam toutes velléités de passer au travers des contrôles ?
:reflechis:



(reply:2102465:Vin Diesel)




Les optimiseurs sont dans la loi, malgré leur amusement avec ses limites.
Les fraudeurs stupides ont du souci à se faire, ainsi que les mythomanes qui étalent leur pseudo-vie sur les réseaux sociaux.
Le vrai problème est la dérive de la part de l’Etat, pour les gens qui se pensent dans les clous. L’Etat changeant souvent ses règles, et en se cachant derrière le fameux “nul n’est censé ignorer la loi”, ça peut parfois être compliqué.


Les lois fiscales ont très peu changées … Tu es sensé déclaré ce que tu possèdes et ce que tes revenus (rente / salaire / honoraire / loyer / dividendes / plue values).



Le principe ici est de chercher l’argent qui ne circule pas via les banques, l’argent liquide remonte des anomalies.



Pour avoir travailler dans ce genre de systèmes, quand la loi va changer et l’accès fb/insta & co sera dispo ca va flamber sévère, et on ne parle même pas d’IA :D


Shadowman_2k3

Les lois fiscales ont très peu changées … Tu es sensé déclaré ce que tu possèdes et ce que tes revenus (rente / salaire / honoraire / loyer / dividendes / plue values).



Le principe ici est de chercher l’argent qui ne circule pas via les banques, l’argent liquide remonte des anomalies.



Pour avoir travailler dans ce genre de systèmes, quand la loi va changer et l’accès fb/insta & co sera dispo ca va flamber sévère, et on ne parle même pas d’IA :D


Je le sais, mais les subtilités ont bien changé.
Quid des cryptomonnaies ?
Quid de la revente d’objets d’occasions pour ses propres besoins mais de manière intensive (j’en connais qui font de l’achat / revente sur vinted à grand rythme car elles adorent changer de fringues) ?
Quant aux règles pour les abris de jardins ?



De plus, le résultat des algorithmes du FISC vont-ils être exploitables par d’autres caisses ? Si oui, automatiquement ? Si oui, quels en seront les contrôles ? Etc…



Le problème est “comment cet algorithme va-t-il retourner les informations sans orienter le jugement de la personne en charge du contrôle”.



ps: je suis pour ce genre de système, tant qu’il est encadré.


patos

Je le sais, mais les subtilités ont bien changé.
Quid des cryptomonnaies ?
Quid de la revente d’objets d’occasions pour ses propres besoins mais de manière intensive (j’en connais qui font de l’achat / revente sur vinted à grand rythme car elles adorent changer de fringues) ?
Quant aux règles pour les abris de jardins ?



De plus, le résultat des algorithmes du FISC vont-ils être exploitables par d’autres caisses ? Si oui, automatiquement ? Si oui, quels en seront les contrôles ? Etc…



Le problème est “comment cet algorithme va-t-il retourner les informations sans orienter le jugement de la personne en charge du contrôle”.



ps: je suis pour ce genre de système, tant qu’il est encadré.


Les 3 cas que tu cites sont déjà prévu par la loi :




  • Les cryptos c’est 30% sur le bénéfice net

  • Les abris de jardins peuvent être taxés s’ils sont ancrés et d’une certaine taille (de mémoire)

  • La revente sur le net intensive aussi –> là l’analyse des datas publiques est primordiale.


Très intéressant, sur le papier en tout cas. À voir si on arrive à attraper des gros poissons avec ce genre de technique car si on se concentre uniquement sur les « petits » fraudeurs, on aura du mal à défendre la justice fiscal.


:mdr: le sous titre



L’état va encore taper sur les petits pour recupérer quelques millions alors qu’il y a des gros qui montent des escroqueries optimisations à quelques millards. Mais les gros ont des gros avocats alors on leur fout la paix…



Et si on est victime d’une erreur ou qu’on ne comprend rien à ce qui nous est reproché, on a personne en face parce que “vous comprenez c’est une IA qui a le contrôle”


Je me suis fait redresser parce que je déclarais très légitimement des frais de route (70km) avec comme seule réponse : “Z’avez qu’à déménager” ! C’était en ‘82, et ça a fait très mal. 3 ans plus tard je leur mettais sévère avec 50% de mon salaire en frais de déplacements, salaire déjà indécent même sans ces frais. Simple remboursement. Donc ils avaient pas besoin de tout ce merdier pour taxer les plus pauvres ( le 1er salaire était dérisoire, 1er boulot alimentaire trouvé sur l’autre trottoir! )


Billye

Je me suis fait redresser parce que je déclarais très légitimement des frais de route (70km) avec comme seule réponse : “Z’avez qu’à déménager” ! C’était en ‘82, et ça a fait très mal. 3 ans plus tard je leur mettais sévère avec 50% de mon salaire en frais de déplacements, salaire déjà indécent même sans ces frais. Simple remboursement. Donc ils avaient pas besoin de tout ce merdier pour taxer les plus pauvres ( le 1er salaire était dérisoire, 1er boulot alimentaire trouvé sur l’autre trottoir! )


Déclarer plus de 40km est en effet assez encadré, et j’imagine qu’il y a plein de subtilités pour chaque catégories.
Après pour éviter ces situations, ils pourraient plafonner automatiquement à 40km le calcul si pas de justificatif, et à chacun de fournir ceux-ci pour débloquer le reste ? Car il est vrai qu’une erreur peut coûter bonbon après quelques années.



(quote:2102475:N.Master)
Et si on est victime d’une erreur ou qu’on ne comprend rien à ce qui nous est reproché, on a personne en face parce que “vous comprenez c’est une IA qui a le contrôle”




L’IA ne controle rien: elle fait le tri et réoriente vers des agents les cas “problématiques”.


Je confirme, sur tous les algo développés pour les gestionnaires, c’est des présentations avec une orientation de décision pour leur faciliter le taf, le gestionnaire valide ou décide de bypass l’algo.



Il y a des règles de gestion mais les gestionnaires veulent pouvoir bypass à chaque étape du workflow.



Cette situation, je l’ai rencontrée en assurance (b2b / b2c), banque de détail / groupe ou finance de marché.



Ce sera exactement la même chose avec l’IA enfin si on peut appeler ça de l’IA pour ce type de traitement …



Billye a dit:


Je me suis fait redresser parce que je déclarais très légitimement des frais de route (70km) avec comme seule réponse : “Z’avez qu’à déménager” ! C’était en ‘82, et ça a fait très mal. 3 ans plus tard je leur mettais sévère avec 50% de mon salaire en frais de déplacements, salaire déjà indécent même sans ces frais. Simple remboursement. Donc ils avaient pas besoin de tout ce merdier pour taxer les plus pauvres ( le 1er salaire était dérisoire, 1er boulot alimentaire trouvé sur l’autre trottoir! )




L’autre trottoir était à 70 km ?



(pardon :transpi: )


Je clarifie un peu ma position : je ne suis en rien contre l’impôt au contraire même j’étais parmi ceux qui gueulaient quand la gauche a commencé à en faire un instrument politique, oui la gauche, sous Jospin les comptes étaient à l’équilibre pour le moins et on a commencé à parler baisse d’impôts … ( je n’ai pas de traces plus anciennes de ce genre de politique)



https://www.lesechos.fr/1998/07/lionel-jospin-redistribuera-12-milliards-de-francs-de-baisses-dimpots-lannee-prochaine-grace-aux-dividendes-de-la-croissance-796106



Car de bien entendu qui pâti en 1er de ces baisses lorsque les comptes sont plus tendus :
1 - Culture
2 - Education
3 - Santé (voir même 1)


La généralisation de la facture électronique ? Qu’est ce que c’est ?



le fisc a amélioré le taux de recouvrement, qui est passé de 60 à 75 % entre 2018 et 2021




Ca choque personne ?



J’espère que je comprends mal. Quelqu’un peut m’expliquer ?


Je pense que le fisc n’arrive pas à faire rentrer 25% (un quart ! ) de ce qu’elle croie lui être dû …



vexal a dit:


Ca choque personne ?



J’espère que je comprends mal. Quelqu’un peut m’expliquer ?




C’est à dire ?
Ce taux est pas si mauvais, si on le compare aux amendes prononcées par la justice
https://www.dalloz-actualite.fr/flash/plus-de-moitie-du-montant-des-amendes-penales-reste-impaye


PJanuel


vexal a dit:


Ca choque personne ?



J’espère que je comprends mal. Quelqu’un peut m’expliquer ?




C’est à dire ?
Ce taux est pas si mauvais, si on le compare aux amendes prononcées par la justice
https://www.dalloz-actualite.fr/flash/plus-de-moitie-du-montant-des-amendes-penales-reste-impaye


Merci pour le lien.
Je trouve que 25% non recouvré c’est énorme au vu de la somme totale !
Et quand on voit que pour certaines infractions c’est 85% NON recouvré, ça frise le scandale…


vexal

Merci pour le lien.
Je trouve que 25% non recouvré c’est énorme au vu de la somme totale !
Et quand on voit que pour certaines infractions c’est 85% NON recouvré, ça frise le scandale…


Comme la CAF qui ne récupère jamais les montants fraudés (ou alors des miettes) parce que la justice est lente, incertaine et non constante dans ses décisions.



(reply:2102531:Billye) J’oubliais la recherche




coco74 a dit:


La généralisation de la facture électronique ? Qu’est ce que c’est ?




D’ici 2024 à 2026, toutes les facturations entre assujettis à la TVA seront transmises électroniquement
https://www.economie.gouv.fr/generalisation-facturation-electronique-calendrier-reforme


Enfin,
bon en ce moment j’ai (j’avais) le souci qu’ils n’étaient pas foutus de synchroniser infos bancaires entre revenu et fonciers, alors qu’ils avaient toutes les infos.
A Bercy, il y a peut-etre des flèches mais dans les départements, il reste pas mal de boulets.


Et avec tout ça, ils n’arrivent toujours pas à trouver la fortune de Macron.


Dans le bouquin d’Antoine Peillon, “les 600 milliards qui manquent à la France”, en 2012, on parlait de 20 à 40 milliards par an d’évasion fiscale je crois, et depuis cette fourchette d’estimation basse n’a fait que grimper, dans les chiffres entendus en 2019 on se situerait plutôt autour de 80-100 milliards d’€ pour la France, soit plus que le déficit budgétaire de la France (voir le prochain film “La (Très) Grande Evasion” de Yannick Kergoat et Denis Robert, à sortir en décembre prochain)


Le rapport sénatorial évoque cette difficile évaluation de la fraude fiscale, avec des chiffres allant dans tous les sens. La seule fraude fiscale qui a été récemment évaluée, c’est celle à la TVA : 20 à 25 milliards https://www.insee.fr/fr/statistiques/6478533



coco74 a dit:


La généralisation de la facture électronique ? Qu’est ce que c’est ?




Concrètement, l’état va mettre en place un webservice de déclaration, et toute émission de facture devra être déclarée à l’état dans ce webservice : Le but est d’automatiser les déclarations de TVA notamment et de détecter les fausses factures / blanchiment d’argent…



Ça existe déjà au Brésil depuis 2008 https://sovos.com/fr/tva/regles-fiscales/brazil-e-invoicing/ eux vont plus loin encore :




  • l’état contrôle et valide en temps réel les demandes de facture (no de SIRET valable, bon taux de TVA…), si l’état ne valide pas la demande de facture, le client ne peut pas l’émettre

  • le client ne paie pas en direct son fournisseur, mais paye l’état qui règle ensuite le fournisseur.


C’est quand même dingue de devoir en passer par du scraping pour obtenir les données d’autres pays de l’UE…



Billye a dit:


je leur mettais sévère




Pas “leur”, “nous la”.