Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Bercy généralise l'utilisation du datamining

All your base are belong to usE
Droit 7 min
Bercy généralise l'utilisation du datamining
Crédits : "P11701340" by OpenMinTeD CC BY 2.0

Il n'y a pas que #BigBrotherBercy au Minefi. Non contente d'être le pays qui a échangé « le plus de renseignements » au sujet de ses contribuables avec ses partenaires européens, la France commence à tirer les fruits de la généralisation du datamining en matière de lutte contre la fraude, « à l'origine de 14 % des opérations de contrôle » en 2018.

Dans l'introduction à son rapport sur « les grandes tendances du bilan 2018 de la lutte contre la fraude aux finances publiques », qui vient d'être rendu public, la Délégation nationale à la lutte contre la fraude (DNLF) se félicite que « de forts investissements réalisés en matière numérique et de science des données par de nombreux partenaires ont contribué à une meilleure identification des risques de fraude et à un meilleur ciblage des contrôles ».

« La France s’est fortement impliquée dans le développement des échanges automatiques au niveau multilatéral », se félicite ainsi la DNLF en guise de préambule. Au point que « concernant l’échange automatique sur les revenus, au niveau européen, la France est le pays qui a envoyé le plus de renseignements (sur 1,8 million de contribuables) et qui en a reçu le plus (sur presque 1 million de contribuables) ».

Une chose est d'échanger ou de collecter les données, une autre est de les traiter. En matière d'analyse du risque, la Direction générale des finances publiques (DGFIP) a de son côté « entrepris de généraliser l'utilisation du datamining et de l'analyse-risque » au point qu'« en 2018, les productions issues du service centralisé d'analyse de données ont été à l'origine de 14 % des opérations de contrôle ».

« Une cinquantaine de requêtes reposant sur des techniques d'apprentissage automatique ou d'analyse risque » ont été développées à cet effet, de sorte que l’application de ces requêtes et modèles statistiques puisse couvrir une grande partie des risques fiscaux, « dont une quinzaine relatifs à des fraudes en matière de TVA » et de déterminer, automatiquement et pour chaque entreprise, une « cotation traduisant le niveau de son risque fiscal ».

Plus de 24 000 dossiers, dont 12 700 comportant au moins une problématique en matière de TVA, ont ainsi été envoyés aux services de contrôle en 2018.

Du datamining pour lutter contre les biais de sélection

Suivant les recommandations d'un rapport du Conseil national de l’information statistique (CNIS) de juin 2017 consacré à « la mesure du travail dissimulé et ses impacts en termes de finances publiques », la DNLF a également engagé des travaux de recherche pour contribuer à la mesure et à l’évaluation du travail dissimulé. 

Le rapport du CNIS estimait en effet que « malgré les efforts faits par les comptables nationaux, les estimations de fraude qu’ils retiennent en se fondant sur l’analyse des résultats des contrôles fiscaux ne tiennent qu’imparfaitement compte du biais de sélection lié au fait que les services fiscaux ciblent leurs contrôles sur les entreprises qu’ils jugent les plus susceptibles de frauder ».

Il appelait dès lors au développement de « méthodes de ciblage permettant la correction du biais de sélection dans l’évaluation de la dissimulation (« data mining ») », à mesure que le fait de « mieux identifier les critères motivant un contrôle fiscal (notamment si la DGFiP développe des contrôles fondés sur le datamining) permettrait d’obtenir des estimations plus fiables de la fraude ».

Le CNIS estimait par ailleurs « essentiel de mener des travaux statistiques de type datamining sur la population des particuliers-employeurs afin de favoriser l'identification des situations à risques ». En matière d'économie collaborative, il prônait une « mobilisation accrue des traces numériques laissées par les transactions en ligne, ce qui suppose de mettre en œuvre des techniques de type big data », notamment au sujet des micro-entrepreneurs.

Mais c'est du côté de l'agriculture que la DNLF s'est penchée, avec la signature d'un premier contrat de recherche, mobilisant les compétences d’un économètre, pour l’exploitation des données de contrôle de la Caisse centrale de la mutualité sociale agricole (CCMSA).

Le projet « repose sur la mobilisation des outils de data science, en vue d’une modélisation économétrique des pratiques de ciblage des contrôles et de détection des comportements des cotisants ». Pour autant, « des améliorations notamment méthodologiques (correction de biais et processus d’estimation) restent à apporter pour mieux cerner les comportements frauduleux à l’œuvre ». Les résultats sont attendus fin 2019.

7 heures pour se former à la data science et apprendre à programmer en R

La DNLF organise par ailleurs régulièrement des partages d'expériences avec d'autres administrations (le service d'analyse de risque et de ciblage (SARC) de la douane, Pôle emploi, organismes sociaux ...) sur des points techniques (algorithmes, outils), ou plus généraux (pilotage, modalités de diffusion et appropriation des productions, problématiques RH).

Elle propose également un stage de sensibilisation et d'initiation à la Data science censé permettre, en 7 heures et sans pré-requis, de « distinguer les 4 volets de la Data science : la statistique (volet descriptif), l’exploration des données (volet explicatif ou data mining), l’extrapolation des données (volet prédictif ou scoring, ainsi que le volet prescriptif) ». L'objectif est aussi de « savoir programmer les principaux modèles d’estimation et de détection » sous R Studio, l'environnement de développement du langage de programmation statistique R.

Le plan national 2016-2018 de lutte contre la fraude aux finances publiques ayant fait de l’amélioration de l’effectivité du recouvrement un de ses axes prioritaires, la DNLF a décidé d'y consacrer l'un de ses deux rencontres, intitulée « La science des données : quelles utilisations pour le recouvrement et la prévention de la défaillance ? ».

Après un panorama international par l'OCDE de l'utilisation de la data science pour optimiser le recouvrement fiscal, les finances publiques belges et françaises y ont « présenté leurs travaux sur la création de modèles de datamining pour mieux anticiper le risque de non-recouvrement », le rapport ne précisant pas combien de pays procèdent eux aussi de la sorte.

Chômage : +10 % d'affaires « présumées frauduleuses », +14% de chômeurs fraudeurs

La DNLF impute par ailleurs au « meilleur ciblage des contrôles grâce aux techniques de datamining » le fait qu'en 2018, et alors que le nombre de cas de fraudes enregistrés par la Caisse nationale d’allocations familiales (CNAF) a baissé (de 45 100 en 2017 à 44 897 en 2018), le préjudice financier identifié a dans le même temps augmenté (de 291,1 à 304,6 M€).

Rapportés aux 12,8 millions d’allocataires, les cas de fraudes représentent environ 0,35 % de la population, et un préjudice moyen subi par les CAF de 6 785 €, contre 6 455 en 2017. L'an passé, le directeur général de la CNAF tenait à préciser que « l’immense majorité des personnes qui se trompent ne sont pas des fraudeurs », que près de 2 millions d’allocataires avaient certes dû rembourser un trop-perçu suite à des erreurs involontaires, mais que seules 8,5 % des fraudes détectées reposaient sur des faux et usages de faux.

Du côté de l'assurance chômage, « le montant total du préjudice global (préjudice subi et évité) pour l’année 2018 s’établit à 206,35 M€ (dont 125,31 M€), soit une hausse de 11,5 % par rapport à l’année 2017 », chiffres obtenus grâce à « l’exploitation du big data (requêtes et outil de datamining), les travaux réalisés au niveau national sur la certification de l’identité (et) la fiabilité des données recueillies auprès des employeurs (obtention directe des attestations sous forme dématérialisée) ».

De plus, « l’évolution constante du montant des préjudices s’accompagne d’une augmentation de la volumétrie des affaires qualifiées "présumées frauduleuses" (+10%), ainsi que du nombre de demandeurs d’emploi mis en cause (+14%) ». Cette augmentation ne relèverait pas tant du datamining que du « fort investissement de Pôle emploi dans la lutte contre la fraude tant au niveau de la direction générale (offre de services métier) qu’au niveau des régions avec les directeurs maîtrise des risques et leur responsable fraude ».

À titre de comparaison, le total des montants de la fraude détectée en matière fiscale et sociale a atteint 5,73 milliards d'euros en 2018, dont seulement 715 millions au titre des prestations sociales, et 656 des cotisations sociales, contre 4,05 (soit 71%) en matière fiscale. La DNLF ne précise pas ce que le datamining aurait permis au fisc d'identifier.

17 commentaires
Avatar de Z-os INpactien
Avatar de Z-osZ-os- 07/01/20 à 17:27:03

A mon humble avis, rien que pour un cours correct sur les stats qui n'entre pas trop dans les détails il faudrait au bas mot 2 semaines pour que les notions soient comprises. De là à les utiliser convenablement, il y a encore un cap à franchir.

Avatar de Idiogène Abonné
Avatar de IdiogèneIdiogène- 07/01/20 à 17:43:45

C'est la simplification administrative. :mad2:

Avatar de Arkeen Abonné
Avatar de ArkeenArkeen- 07/01/20 à 18:35:06

7h pour apprendre à programmer et devenir data scientist ? Damned,  si j'avais su, j'aurais surement pas fait autant d'études ...
Sinon, je trouve la dernière phrase édifiante : 
 

La DNLF ne précise pas ce que le datamining aurait permis au fisc d'identifier.  

C'est un peu admettre sans détour qu'ils ne savent pas trop ce qu'ils font non ? Ou qu'ils savent que c'est inutile mais ne l'assument pas ?
Je me demande quand même quand est-ce qu'on attendra enfin le « pic des attentes exagérées » concernant l’utilisation du machine learning, du "Big Data", etc.

Avatar de Macarie Abonné
Avatar de MacarieMacarie- 07/01/20 à 18:39:28

donc après 4 ans de formation pour être un développer de base (sans rien connaitre au data science).

Et bas ils ont pas froids au yeux, pourquoi pas 7 minutes tant qu'on y est une vidéo youtube et hop on est data scientist

Avatar de carbier INpactien
Avatar de carbiercarbier- 07/01/20 à 19:59:16

Arkeen a écrit :

7h pour apprendre à programmer et devenir data scientist ? Damned,  si j'avais su, j'aurais surement pas fait autant d'études ...

Cela tombe bien le titre de la formation c'est initiation et sensibilisation

Macarie a écrit :

donc après 4 ans de formation pour être un développer de base (sans rien connaitre au data science).

Et bas ils ont pas froids au yeux, pourquoi pas 7 minutes tant qu'on y est une vidéo youtube et hop on est data scientist

Cela tombe bien ce n'est pas ce qui est dit: si tu avais lu le sommaire de la formation, tu aurais vu qu'il ne s'agit pas de développer mais d'utiliser des outils/logiciels directement via R Studio.

Avatar de Idiogène Abonné
Avatar de IdiogèneIdiogène- 07/01/20 à 20:08:30

Arkeen a écrit :

...

A observer la Silicon Valley, je pense qu'on peut raisonnablement dire qu'on a passé le pic et qu'on est sur la pente du rétablissement. On ne pourra pas aller plus bas...

Macarie a écrit :

...

Oui, et c'est pour cette raison qu'il est nécessaire d'arrêter avec la simplification administrative et embaucher les bonnes personnes pour former plutôt que de rester au stade incantatoire.
Quitte à débaucher dans les banques. Ce ne serait pas totalement idiot vu le peu d’intérêt porté à une sauvegarde efficace de l'état en la matière.
Seulement la réalité de la situation est qu'au choix : un informaticien est fonctionnaire de fait, soit il est trop gentil pour saisir le piège et être écouté donc bon... c'est d'abord les conditions de travail des fonctionnaires qui sont à revoir. Et une partie de leurs missions certainement peu compatibles avec au choix : l'article 40 du code pénal ou encore la visibilité de ces questions qui en rebuterait plus d'un à l'entrée si tout était clair dès le départ.

Nous ne sommes pas nombreux à soutenir réellement le principe d'une numérisation de l'état, il serait bon de ne pas oublier ces quelques règles élémentaires avant d'expérimenter pour un résultat déjà connu : un accroissement de la fracture entre gouvernants et gouvernés.

Avatar de Macarie Abonné
Avatar de MacarieMacarie- 07/01/20 à 20:27:33

Idiogène a écrit :

Oui, et c'est pour cette raison qu'il est nécessaire d'arrêter avec la simplification administrative et embaucher les bonnes personnes pour former plutôt que de rester au stade incantatoire.
Quitte à débaucher dans les banques. Ce ne serait pas totalement idiot vu le peu d’intérêt porté à une sauvegarde efficace de l'état en la matière.
Seulement la réalité de la situation est qu'au choix : un informaticien est fonctionnaire de fait, soit il est trop gentil pour saisir le piège et être écouté donc bon... c'est d'abord les conditions de travail des fonctionnaires qui sont à revoir. Et une partie de leurs missions certainement peu compatibles avec au choix : l'article 40 du code pénal ou encore la visibilité de ces questions qui en rebuterait plus d'un à l'entrée si tout était clair dès le départ.

Nous ne sommes pas nombreux à soutenir réellement le principe d'une numérisation de l'état, il serait bon de ne pas oublier ces quelques règles élémentaires avant d'expérimenter pour un résultat déjà connu : un accroissement de la fracture entre gouvernants et gouvernés.

Ce que je sousentendais (visiblement je m'y suis mal prise vu que mon message n'a pas été compris), c'est qu'on met n'importe qui non formé n'importe ou (suffi de voir des commune (mairie chez vous)), ou ils ont masse machine tous branché sur une salade de switch auto géré, puis ils se plaigne quand un switch tombe et fait tous tombé en meme temps.

Donc pour en finir avec ma métaphore, on va encore sous estimer le temps de formation, prendre des gens sous formé, qui vont faire n'importe quoi (du a leur méconnaissance profonde du domaine), puis se plaindre que le pays a un retard techologique monumentale.

Avatar de Idiogène Abonné
Avatar de IdiogèneIdiogène- 07/01/20 à 21:30:56

Faire n'importe quoi ou ne rien faire est le principe du droit fiscal. Jusque là personne n'est en retard technologique sur ce principe lorsque il est question d'argent.

C'est déjà bien de sensibiliser des agents à ces questions avec un support qui n'a pas l'air déconnant, et plus simple qu'avec des agents de Police. Les faits le démontre en France. :roll:

Avatar de Mimoza Abonné
Avatar de MimozaMimoza- 07/01/20 à 21:53:46

Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c'est pas le chômeur :fumer: mais là on passe du coté politique de la chose :dors:

Avatar de Patch INpactien
Avatar de PatchPatch- 07/01/20 à 22:10:24

Mimoza a écrit :

Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c'est pas le chômeur :fumer: mais là on passe du coté politique de la chose :dors:

Point n°1 : on ne touche pas aux copains.
Point n°2 : on ne touche pas à ceux qui pourraient nous donner un poste en or dans le privé dans qques années.

Édité par Patch le 07/01/2020 à 22:10
Il n'est plus possible de commenter cette actualité.
Page 1 / 2