Souffrant de baisses d’effectifs, le fisc mise sur les nouvelles technologies pour maintenir ses résultats. Il n’hésite pas à recourir au datamining, mais également au webscrapping de registres officiels britanniques, danois ou luxembourgeois, ainsi que de données des réseaux sociaux, comme le souligne un récent rapport parlementaire.
Un rapport sénatorial vient de se pencher sur la lutte contre la fraude et l’évasion fiscales. Pour le fisc, 2021 a été une bonne année : ces chiffres sont repartis à la hausse. 13,2 milliards d’euros de droits et pénalités ont été notifiés, et 10,7 milliards finalement recouvrés (il peut se passer plusieurs années entre la notification et l’éventuel encaissement des sommes). Des résultats qui interviennent alors que les montants notifiés étaient en baisse depuis le milieu des années 2010 (21,2 milliards d’euros en 2015).
Plusieurs éléments expliquent ces améliorations. D’abord, un effet rebond après une année 2020 marquée par la crise sanitaire. Ensuite, le fisc a amélioré le taux de recouvrement, qui est passé de 60 à 75 % entre 2018 et 2021 : une fois les droits notifiés, Bercy arrive plus facilement à récupérer l’argent. Enfin, le fisc met en avant les résultats du datamining.
Un appel aux technologies alors que les effectifs dédiés au contrôle fiscal ont diminué de 13 % entre 2015 et 2020, passant à 10 781 agents. Les sénateurs, qui dans un précédent rapport faisaient un bilan nuancé de cet apport, reviennent sur l’usage par Bercy des outils d’intelligence artificielle.
Datamining : Bercy glouton en datas
Depuis bientôt dix ans, Bercy a créé une « mission requêtes et valorisation » (MRV). De 14 agents en 2017, la cellule est passée à 31, avec des profils divers : « agents de la DGFiP ou en provenance de l’Insee, informaticiens, fiscalistes, doctorants ». Depuis 2021, la MRV est devenu le bureau « SJCF-1D ». Une dénomination comme l’administration française les aime.
Pour nourrir son datamining, Bercy utilise « l’ensemble des fichiers de données patrimoniales, foncières, professionnelles, personnelles des redevables disponibles à la DGFiP ». Mais le bureau a « également accès aux données de la Douane, de l’Urssaf Caisse nationale 1 ou encore du ministère de l’intérieur ». Les données proviennent aussi « d’autres sources telles que d’échanges automatiques internationaux, des réseaux sociaux, des déclarations par les tiers (ex. données des plateformes d’économie collaborative), des bases en open source (ex. Infogreffe, registre des bénéficiaires effectifs) ou encore d’acquisitions de bases de données privées (ex. pour la participation dans des entreprises étrangères) ».
Au total, cela représentait en 2021, 6,2 téraoctets de données utiles. Mais ce n’est pas suffisant : Bercy va profiter de la généralisation prochaine de la facturation électronique : quatre milliards de factures supplémentaires chaque mois qui pourront nourrir les algorithmes, notamment pour lutter contre la fraude « carrousel » à la TVA.
Le datamining représente aujourd’hui près de la moitié des contrôles faits par le fisc. Mais, il ne constitue qu’une part faible des droits recouvrés : 1,2 milliard d’euros en 2021 (sur 10,7). Pour les sénateurs, cela s’explique en partie par le décalage temporel : entre le contrôle et le recouvrement, il peut se passer plusieurs années. Ils souhaitent donc que Bercy publie plus de données sur les suites des contrôles « datamining ».
Par ailleurs, les outils de datamining ne sont pas utilisés que pour lutter contre la fraude. Le rapport cite plusieurs exemples : le « contrôle a priori des demandes d’aides au titre du fonds de solidarité durant la crise sanitaire (un million de demandes bloquées en 2020 et renvoyées à un examen individualisé) », l’identification des entreprises fragiles économiquement ou encore la sécurisation du remboursement de crédits de TVA.
Enfin, il faut noter que Bercy n’est pas le seul à dataminer ses données : comme l’indique une annexe au budget 2023 qui retrace la politique antifraude, l’ACOSS a déployé l’an dernier « un plan national datamining expérimental » de lutte contre la fraude sociale et les douaniers ont eux-aussi une cellule datamining qui oriente certains contrôles.
Le retour de #BigBrotherBercy
S’il n’évoque pas foncier innovant, le rapport sénatorial permet de faire le point sur un autre projet phare : #BigBrotherBercy dont nous avions beaucoup parlé.
Le but est de web-scrapper les données des réseaux sociaux pour repérer des distorsions entre ce que le contribuable déclare au fisc et ce qu’il affiche. « L’évaluation préliminaire montre qu’une quarantaine d’annonces potentiellement frauduleuses sont identifiées chaque semaine, sur trois plateformes ». Les sénateurs ont pu assister à une démonstration.
Parmi les annonces repérées, « une personne se présentant comme un "particulier" était par exemple à l’origine de dizaines d’annonces de voitures de luxe ». Problème, la loi n’évoque que les données « librement accessibles » en ligne. Ce qui exclu les réseaux sociaux comme Facebook ou Instagram, où il faut disposer d’un compte pour accéder aux données, même lorsque elles sont ensuite offertes à tous les membres du réseau social (même sans être « ami »). Les sénateurs veulent faire sauter cette barrière et préféreraient que la loi parle des données « publiquement » accessibles, plutôt que « librement ». Dans l’attente, ils veulent prolonger l’expérimentation.
Quand le fisc webscrappe les Britanniques et les Danois
Mais Facebook n’est pas la seule cible du webscrapping fiscal. Depuis plusieurs années, l’Europe a imposé la tenue de « registres des bénéficiaires effectifs » : les sociétés doivent dorénavant indiquer quelles sont les personnes physiques qui les possèdent (au moins 25 % du capital ou des droits de vote) ou qui les dirigent. Des informations que vous pouvez retrouver ici et qui intéressent le fisc.
L’administration française s’intéresse aussi aux données étrangères. Comme l’indique le rapport, le fisc travaille « avec un prestataire privé, chargé du développement de robots de webscrapping, qui doivent permettre de récupérer de façon automatique les données des registres de bénéficiaires effectifs d’autres États ». Ainsi, les « données du Luxembourg ont été récupérées, tandis que les registres du Royaume Uni et du Danemark seraient en cours de traitement ».
L’administration fiscale a ensuite recours à « des techniques de fuzzy matching pour associer aux personnes physiques, par un traitement automatisé de l’état civil des bénéficiaires effectifs, un identifiant fiscal français (SPI) ». Ainsi, il est plus facile d’analyser les données et trouver les anomalies fiscales.
Pour l’instant, le fisc n’utilise pas d’outil d’IA pour exploiter les données des registres de bénéficiaires effectifs. Le rapport sénatorial recommande de croiser les informations avec d’autres bases de données, par exemple avec le cadastre. Une démarche qui « pourrait être menée au niveau de l’Union européenne, afin de disposer de la base d’information la plus complète possible ». Toutefois, une étude croisée du registre français sur les bénéficiaires effectifs et du cadastre français menée par Transparency International et Anti-Corruption Data Consortium devrait être prochainement publiée.
Webscrapping, fuzzymatching et datamining sont plus que jamais l’avenir de l’administration.