Comment la Data Science réinvente la détection de fraude

Cet article présente la data science et le machine learning pour la détection de fraude, analysant les données passées et identifiant de nouveaux schémas. Les entreprises doivent analyser les menaces, collecter et analyser les données pour construire des modèles efficaces de détection de fraude.

Elise Andro Profile Picture
Elise Andro Data Scientist

Selon l’Association des Professionnels et Directeurs de Comptabilité et gestion (APDC) la fraude interne coûte aux entreprises françaises 5 % de leur chiffre d’affaire.

Au même titre que la fraude externe, telles les cyberattaques, les entreprises sont encore peu équipées pour faire face au risque de fraude interne : 6 entreprises sur 10 n’ont pas alloué de budget spécifique pour lutter contre la fraude (étude Euler Hermes et DFCG de 2020). 

Comment les entreprises peuvent-elles se prémunir de cette menace ?

Commençons par le commencement, 

 

D’où vient la fraude ? Ou, pourquoi un individu fraude-t-il ?

Dans les années 60, le criminologue américain Donald Cressey  invente la théorie du «  Triangle de la fraude ». Si l’on suit sa théorie, un employé, un manager ou un directeur peuvent être poussé à la fraude pour trois raisons : 

  • la pression : souvent financière, comme un train de vie trop élevé ou des addictions, mais parfois venant de l’entreprise via des objectifs inatteignables par exemple.
  • l’opportunité : des failles du contrôle interne de l’entreprise.
  • la rationalisation : une réflexion justifiant et rendant acceptable l’acte de fraude (« tout le monde le fait », « le montant est ridicule par rapport aux revenus de l’entreprise », …) 

Face à cela, la première réaction des entreprises : la prévention

Pour faire face au risque de fraude, la première défense est bien sûr la prévention

La première des mesures préventives est de cartographier les menaces et de dresser un plan d’actions clair qui sera relayé au sein de l’entreprise. Le point essentiel pour qu’une politique de prévention fonctionne est d’obtenir la participation du plus grand nombre et de distiller ses pratiques dans la culture de l’entreprise.

Pour autant, cela ne suffit pas

La prévention doit s’accompagner de contrôles et audits internes ainsi que de systèmes d’alerte. Pourtant, les contrôles manuels sont longs et souvent inefficaces : un manager approbateur aura tendance à survoler des validations de notes de frais ou de petites opérations par exemple, ces tâches étant loin d’être dans ses priorités du quotidien. Quant aux audits, l’analyse de milliers de lignes de données par des équipes d’auditeurs est très longues et surtout coûteuse

C’est là que la data science intervient

La data science, et particulièrement le machine learning, sont déjà aujourd’hui largement utilisés pour des problématiques telles que la détection de spams, le diagnostic médical ou encore la recommandation de contenu média. Le machine learning consiste en l’analyse des données afin de comprendre, prédire et classer l’information. Cette technologie est donc idéale pour la détection de fraude.

En effet elle permet d’analyser les fraudes passées, identifier leur origine et l’environnement dans lequel elles sont commises. Ainsi, les équipes peuvent prendre des mesures et appliquer de nouveaux contrôles automatiques ou des points de vigilance à rappeler aux employés dans le cadre du plan de prévention.

Concrètement, comment ça marche?

Il existe deux grandes familles d’algorithme de machine learning : les modèles supervisés et les modèles non-supervisés. Avant d’aller plus loin, il est bon de préciser que l’application de l’une ou l’autre de ces familles de modèles ne donne pas une réponse ferme à la présence ou non d’une fraude mais apporte une probabilité de faire face à une fraude (‘Cette opération a 86% de chance d’être une opération frauduleuse’ par exemple). 

Les modèles supervisés apprennent sur la base de données dites ‘labellisées’, c’est-à-dire contenant le résultat attendu. Par exemple, un jeu de données d’opérations comptables avec la mention frauduleuse ou non pour chaque ligne. Le modèle apprend alors à reconnaître les situations frauduleuses similaires à celle qu’on lui a montrée. Cette méthode est efficace pour détecter les fraudes identiques à des situations passées. 

La limite de cette solution est la créativité du fraudeur. En effet, quand il s’agit de fraude, l’adaptation et le renouvellement des techniques sont primordiaux. 

On utilise alors les modèles non supervisés. Dans ce cas, le modèle est entraîné avec un jeu de données sans labels. Il va alors devoir rechercher par lui-même des similitudes ou des comportements hors normes au sein des données. Ainsi le modèle non supervisé permettra de découvrir de nouveaux types de fraudes en décryptant de larges volumes d’informations impossible à analyser manuellement. 

En combinant les deux, il est alors possible de surveiller et remonter en continu les risques de fraudes référencées tout en détectant les nouvelles sources de menaces au sein de l’organisation. 

D’autres techniques peuvent bien sur venir compléter ces méthodes : des contrôles automatiques des opérations sur la base de règles métier, un système de scoring de risque des équipes ou des services pour prioriser les actions de prévention et de contrôle, un échantillonnage des données pour limiter le contrôle manuel aux opérations les plus à risque, …

Par où commencer pour mon entreprise ?

  1. Analyser les menaces et cartographier les risques. 
  2. Vous pourrez ainsi déceler les zones blanches et mettre au point un plan de prévention.
  3. Vos données : RECOLTEZ, STRUCTUREZ et ANALYSEZ-LES

A partir de là, vous pourrez construire des modèles efficaces pour :

  • Détecter rapidement les fraudes commises
  • Identifier les sources de menaces
  • Anticiper et prendre les mesures adéquates

 

A voir absolument

Les articles les plus appréciés

Vous avez un projet de transfomation ? Parlons-en !