20 M€ investis dans le datamining pour lutter contre la fraude fiscale

Le ministre de l’Action et des Comptes publics a présenté son projet de loi pour renforcer la lutte contre la fraude fiscale, le 28 mars. Il se rendait aujourd’hui à la Direction des vérifications nationales et internationales (DVNI) à Pantin pour assister à une démonstration de l’utilisation du datamining dans cette lutte. Le gouvernement va investir 20 millions d’euros dans cette technologie développée, au sein de la DGFiP, par la mission Requêtes et valorisation.

Interrogé sur les demandes de l’OCDE en matière de transparence des données, le ministre Gérald Darmanin estime que « rendre tout public alors que d’autres ne le font pas ne rendrait pas service aux entreprises ». (Crédit : NC)

La mission Requêtes et valorisation est un service plutôt méconnu au sein de la Direction générale des finances publiques (DGFiP). Il est pourtant chargé de développer des techniques d’apprentissage automatique, d’analyse politique dans le domaine du ciblage des opérations de contrôle fiscal. Et il va être l’un des bénéficiaires principaux du projet de loi sur la lutte contre la fraude fiscale présentée le 28 mars en conseil des ministres par Gerald Darmanin. Le ministre de l’Action et des Comptes publics va en effet débloquer 20 millions d’euros dans le datamining.

Le ministre assistait ce matin à une présentation de ce que va permettre cet investissement dans les enquêtes de la DGFiP. L’équipe de la mission Requêtes et valorisation, représentée par son responsable Philippe Schall, va tripler ses effectifs. Aujourd’hui composée d’une dizaine de personnes, elle devrait atteindre la trentaine d’employés fin 2018. Cette équipe à la particularité de faire collaborer des fiscalistes et des informaticiens avec des datascientists extérieurs à la DGFiP. A terme, chaque profession devrait être représentée dans le service par une dizaine de personnes. Un partenariat avec le CNRS vient également d’être créé. Un chercheur d’un laboratoire spécialisé dans l’informatique de fraude va faire une thèse sur ce service pour identifier les algorithmes les plus adaptés par type de fraude.

Doubler le stockage et décloisonner les données

Pour que ces algorithmes soient plus puissants, l’équipe de datamining va pouvoir avoir accès et utiliser deux fois plus de données que jusqu’alors. D’une part, les données de la DGFiP, dont 37 millions de déclarations d’impôts sur le revenu, 21 millions de déclarations de la TVA, 3 millions de déclarations des résultats professionnels des entreprises et des sociétés, l’historique des contrôles fiscaux et d’autres impositions. D’autre part, des données issues d’échanges d’informations avec plus de 110 pays étrangers (les comptes bancaires détenus par les résidents français à l’étranger par exemple), des données foncières ainsi que celles d’autres administrations françaises. Et pour faciliter le stockage et les calculs, ces données seront décloisonnées.

Côté stockage, justement Philippe Schall veut plus que doubler son nombre actuel de baies. Et à terme, changer totalement sa plateforme informatique. Notamment en intégrant l’ensemble des travaux de contrôle fiscal dans une seule application. Actuellement les différents services utilisent des applications séparées les unes des autres. Cette unification permettra notamment de faciliter et accélérer les opérations de contrôle fiscal. Les premiers développements commenceront à la fin de l’année et il faudra plus de deux ans pour arriver à terme d’après le responsable du service datamining. Ce dernier compte développer des solutions d’analyse sémantique et de textmining pour exploiter des données non-structurées (emails, etc.). Le service compte notamment travailler avec Dataïku et sa plateforme de datascience collaborative. L’équipe s’appuie aussi sur la Dinsic ou Etalab, qui ont déjà fait de la veille technologique, pour les aider à choisir des solutions ainsi que sur d’autres admin qui utilisent déjà des outils.

Mise en application

« Le fait d’avoir accès à plus de données, qui viennent d’autres administrations, c’est quelque chose qui va améliorer nos travaux » explique Philippe Schall, qui a présenté rapidement au ministre quelques mises en application du datamining dans l’aide aux contrôles fiscaux. Depuis la création du service en 2014, le service utilise des algorithmes de machine learning de plus en plus puissants pour détecter les fraudes. D’abord ciblés sur les fraudes à la TVA, les méthodes sont aujourd’hui élargies à l’ensemble des fraudes et des personnes physiques ou morales.

Grâce à une méthodologie d’apprentissage supervisée, le service de datamining va pouvoir intégrer l’expérience passée de la DGFiP en matière de contrôle fiscal de manière beaucoup plus puissante. « Jusqu’à maintenant, on demandait à des vérificateurs de donner des critères de fraudes (rechercher des entreprises où les charges n’évoluent pas de la même façon que les recettes) pour essayer de dénicher les fraudeurs » explique Philippe Schall. Aujourd’hui, les analyses vont pouvoir porter sur les dizaines de milliers de contrôles et l’expérience de plusieurs milliers de vérificateurs de la DGFiP. Par exemple, sur une population x, les datascientists vont isolés les personnes contrôlées précédemment par l’administration. Et selon les critères de fraudes donnés, ils vont pouvoir isoler une population à risque et dresser un portrait-robot des personnes susceptibles de frauder. Cette zone de risque est ensuite reportée à la population non contrôlée par la DGFiP. La liste de ces personnes comprises dans cette zone rouge est ensuite transmise aux services de contrôles qui prennent la décision ou non d’engager une procédure.

« Le fait d’avoir accès à plus de données, qui viennent d’autres administrations, c’est quelque chose qui va améliorer nos travaux » explique Philippe Schall, responsable de la mission Requêtes et valorisation de la DGFiP. (Crédit : NC)

Une autre méthode qui va être accélérée avec le décloisonnement des données est l’analyse des réseaux frauduleux. Ce lac de données va permettre de relier des entreprises à des personnes physiques, ce qui n’est pas possible pour le moment puisque les applications sont cloisonnées. Le service va pouvoir visualiser le réseau entourant une entreprise X : son dirigeant et d’autres personnes (comptable, conseiller fiscal, etc.) ou informations (compte bancaire, participations dans d’autres entreprises), etc. En ciblant un de ces liens, le dirigeant par exemple, les analystes auront accès à un deuxième niveau où ils pourront voir le réseau personnel de cette personne (s’il dirige d’autres entreprises, etc.). L’identification des réseaux frauduleux va être considérablement accélérée. « Par exemple, si une entreprise demande un remboursement de crédit de TVA et qu’un analyste relève que ce crédit de TVA est frauduleux, il va être capable de se voir si cette même personne possède plusieurs entreprises qui déposent dans d’autres départements ou régions des crédits de TVA frauduleux et si elle est en lien avec d’autres personnes physiques qui ont tendance à avoir de mauvaises pratiques » a souligné Philippe Schall.