Le choix du datamining et des algorithmes implique d'amasser de plus en plus de données personnelles. Bercy promet des résultats importants dans la lutte contre la fraude fiscale. Selon un rapport de la commission des finances du Sénat, toutefois, le bilan est pour l’instant très mitigé.
À chaque fois qu’ils s’expriment sur la fraude fiscale, les ministres du Budget mettent en avant leurs résultats, forcément bons, en noyant le public sous une pluie de chiffres. En 2019, les montants recouvrés grâce au contrôle fiscal s’élevaient à 11,3 milliards d'euros. Une hausse de 30 % par rapport à 2018.
Ce chiffre de 12 milliards (Gérald Darmanin ayant ajouté les 500 millions payés par Google à ces 11,3 milliards) a été abondamment repris par la presse en début juin. Mais pour les sénateurs Claude Nougein (LR) et Thierry Carcenac (PS), qui ont conduit une mission sur ce sujet, « ces chiffres doivent être pris avec précaution, tant dans l'appréciation de leur montant que dans leur évolution sur le long-terme. »
Les données 2019 viennent juste enrayer une baisse importante depuis 2015. Pire, depuis deux ans le ministre du Budget ne met en avant que les montants encaissés et plus les droits et pénalités notifiés par le fisc. Or, entre le contrôle, la notification des droits et pénalités au contrôlé, les éventuels recours, et l’encaissement, il peut y avoir parfois des années.
Et si l'on regarde le montant des droits et pénalités notifiés (c’est-à-dire avant les éventuels recours et avant leur paiement), les résultats s’effondrent : -35 % en quatre ans. Ce chiffre médiocre était mis sous le tapis avant la publication de ce rapport parlementaire.

Si les pénalités notifiées poursuivent leur baisse, les encaissements risquent de suivre dans les prochaines années. D’autant que la hausse en 2019 de ces derniers est en partie due à la nouvelle loi Essoc, qui encourage le fraudeur à régler rapidement, à l’amiable, les pénalités. Un « effet d’aubaine » qui ne se reproduira pas. Avec les crises sanitaires et économiques, les chiffres 2020 du contrôle fiscal devraient plonger.
Autre problème, le taux du recouvrement par le fisc stagne depuis plusieurs années à 68 %, même si une nouvelle procédure de « saisie administrative à tiers détenteur » suscite beaucoup d’espoirs à Bercy.
Fouiller nos données pour repérer les fraudeurs
Pour pallier ces mauvais résultats, Bercy a depuis plusieurs années une réponse magique : le datamining. Les nouvelles technologies, les échanges d’information au niveau international, l’accès de plus en plus simplifié à des bases de données, l’obligation qu’ont de nombreux professionnels de signaler toute suspicion de fraude, rendent possibles des croisements qui n’étaient pas envisageables avant.
Pour gérer ces téraoctets de données, le ministère a créé en 2013 une « mission requêtes et valorisation » (MRV), d’abord consacrée aux entreprises, élargie depuis aux particuliers.
La MRV modélise les comportements frauduleux en s'appuyant sur des exemples de fraude avérée : « le but est d'identifier, par des méthodes statistiques ou mathématiques, les critères caractérisant une personne fraudeuse afin d'établir un profil type qui sera ensuite appliqué à une population cible, pour déceler des comportements similaires. »
Une méthode apprenante, qui s’enrichit grâce à des nouvelles bases de données. La MRV déploie aussi des modèles dits « non supervisés », qui détectent des groupes de personnes au comportement atypique, susceptible d'être assimilé, après analyse, à de la fraude et fait aussi des analyses de réseaux, pour faire ressortir des entités ayant une forte proximité avec des fraudeurs.
Selon les sénateurs, les techniques d'analyse de données qu’utilise la MRV « sont sans cesse étendues. En plus du datamining et du recours à l'intelligence artificielle, la mission développe le textmining, soit le traitement de données non structurées [textes ou images]. En parallèle, une expérimentation est menée dans plusieurs départements afin de croiser les déclarations des contribuables, les vues aériennes et les plans cadastraux pour traquer les erreurs, intentionnelles ou non, de déclaration des contribuables. Pour ce faire, la DGFiP s'appuie sur un logiciel développé par la société Accenture, dont le coût est estimé à près de 20 millions d'euros. »
Cette MRV traite aujourd'hui plus de 200 téraoctets de données. Un chiffre qui ne cesse de gonfler, Bercy étant toujours vorace pour accéder à des nouvelles bases. La DGFiP a déjà accès à des données des administrations sociales, du monde foncier ou même des réseaux sociaux.
Une stratégie d’élargissement des bases rarement débattue, mis à part cet automne lors des débats parlementaires qui ont permis au fisc de pomper les données publiques mises en ligne sur Facebook et Instagram (le projet #BigBrotherBercy).
La MRV devrait compter 30 agents d’ici la fin de l’année. Une équipe sous-dimensionnée selon Vincent Drezet du syndicat Solidaires finances publiques que nous avons interrogé.
Les résultats décevants des algorithmes
Mais les résultats du datamining sont pour l’instant décevants. En 2019, 22 % des contrôles des entreprises et 11 % des contrôles particuliers trouvaient leur origine dans les algorithmes de la MRV. Un taux qui doit fortement augmenter d’ici 2022 : la moitié des contrôles devront trouver leurs sources dans les listes fournies par la MRV. Problème : si elle est à la base de 22 % des contrôles, la MRV n’était à l’origine que de 6 % des droits mis en recouvrement.
Pour les sénateurs, « en donnant la priorité à la programmation centralisée des contrôles, [Bercy] risque de remettre en cause les initiatives des brigades locales, qui connaissent bien le tissu fiscal de leur territoire. »
« Cela alimente le sentiment selon lequel le datamining, en dépit des affirmations du Gouvernement, tarde à produire ses effets et cela conduit également à s'interroger sur le ciblage des dossiers par la MRV. » En bref, l’intelligence artificielle est pour l’instant moins bonne que les humains pour cibler les entreprises à contrôler.
Parmi les raisons soulevées par les parlementaires, « les logiciels de datamining, d'intelligence artificielle et de textmining actuellement développés ont du mal à isoler et à détecter les cas de fraude complexe. »
Pour Vincent Drezet, de Solidaires finances publiques, la centralisation des contrôles se fait au détriment des contrôleurs et vérificateurs de terrain qui connaissent leurs territoires. Par ailleurs, Bercy taille depuis des années dans les effectifs, et cela va se poursuivre. Malgré les promesses de sanctuariser les personnels dédiés au contrôle, ceux-ci ont baissé de 7,8 % entre 2014 et 2018, même si cette baisse a moins affecté les emplois les plus qualifiés. Difficile de lutter contre la fraude quand, sur le terrain, le nombre d’agents diminue.

Et maintenant la fraude sociale
Parallèlement, l’Assemblée nationale conduit une commission d’enquête sur la fraude sociale, présidée par le député Patrick Hetzel (LR) et rapportée par Pascal Brindeau (UDI). Elle auditionne un à un l’ensemble des directeurs des caisses de sécurité sociale. Chacun vient souligner l’importance que prend le datamining pour lutter contre la fraude.
Parmi les plus avancées, la Caisse nationale des allocations familiales, Ainsi, Vincent Mazauric, son directeur général, a expliqué aux députés que la CNAF s’est mise au datamining en 2012. Par exemple, elle repère les déclarations trimestrielles de ressources faites depuis une adresse IP située hors de France.
En 2019, 9 000 contrôles conduits à ce titre ont permis le rappel de 55 millions d'euros d’indus, dont un peu plus de 50 % correspondaient à des situations frauduleuses. Reste que le datamining représente moins de 10 % des 324 millions d'euros fraudés repérés par la CNAF l’an dernier.
Même discours pour l’assurance-chômage. Comme l’ont expliqué des représentants de Pôle emploi à la commission d’enquête, une dizaine de personnes consacrent déjà une partie de leur activité au croisement des données et aux algorithmes.
L’organisme est encore en rodage, mais souhaite « créer des algorithmes de plus en plus puissants, qui se fondent davantage sur le comportement des personnes. La fraude n’est pas liée à des caractéristiques individuelles, mais à des comportements – la soudaine présentation d’une attestation de période de travail par un demandeur d’emploi arrivant en fin de droit, par exemple. »
Autre exemple, l’assurance maladie qui effectue des contrôles sur les prestations médicales si un médecin délivre trop de prescriptions d’un médicament ou d’arrêts maladie.
Les alertes du Défenseur des droits
Des outils algorithmiques qui engendrent pourtant des discriminations. Auditionné par la commission d’enquête, l’ancien Défenseur des droits Jacques Toubon a souligné qu’en 2014, « parmi la population contrôlée, la proportion d’allocataires percevant le RSA était de 40 % supérieure à celle de l’ensemble des allocataires de la branche "famille". Autrement dit, non seulement on vise la nationalité, mais on suspecte les plus précaires d’être les plus portés à frauder. »
Ces ciblages discriminatoires anti-étrangers et anti-pauvres, « quelle que soit la technologie employée, ne font que relayer préjugés et stéréotypes, conduisant à une surreprésentation de ces populations parmi les fraudeurs. Autrement dit, on finit par démontrer ce que l’on voulait démontrer ! Or les réalités statistiques ne démontrent pas ces préjugés. Si l’on identifie un nombre d’indus plus élevé parmi les bénéficiaires des minimas sociaux, c’est précisément parce qu’ils font l’objet de contrôles plus nombreux. »