Lutte contre la fraude : du Big au Fast Data


Dans la categorie - Analytics

La fraude à la carte bancaire est le type de fraude le plus visible du grand public : en effet, selon The Nilson Report, le préjudice mondial causé par la fraude à la carte bancaire s’élevait à 21 milliards de dollars (18,4 milliards d’euros) en 2015. Moins connues du grand public, les fraudes aux virements (cf https://blog.ercom.fr/lingenierie-sociale-et-ses-consequences/) suscitent l’intérêt des banques, qui cherchent à protéger leurs clients contre ces attaques dont le montant peut s’élever jusqu’à plusieurs millions pour une seule fraude. Il est important d’avoir conscience que la gestion des virements est un système critique pour le bon fonctionnement de l’économie d’un pays, système qui ne saurait donc tolérer de faille technique majeure.

Les méthodes traditionnelles de protection impliquent la mise en place de règles expertes et de contrôle manuels afin d’identifier et de vérifier les traitements les plus suspects, mais réduisent la fluidité du parcours client. Le Machine Learning est un bon candidat pour améliorer le niveau de protection tout en réduisant la friction et le traitement manuel dans ce parcours.

En phase d’étude, la création des modèles nécessite l’analyse à froid des données, notamment pour construire et choisir des variables qui vont permettre de révéler les phénomènes spécifiques à la fraude. L’apprentissage du modèle est réalisé sur l’historique des données et cette étape repose donc sur l’utilisation de technologies spécifiques aux traitements froids (batch).

Si cette partie d’étude à froid est essentielle, il est également nécessaire d’envisager au plus tôt la façon dont le modèle de Machine Learning créé va être déployé pour pouvoir être utilisé opérationnellement, sur des données « chaudes ». Pour être efficaces, les outils de lutte contre la fraude doivent en effet être mis en place à la fois sur des flux importants de données mais également être en mesure de réduire au maximum le temps de traitement de chaque virement. En effet, les nouvelles directives liées à l’Instant Payment augmentent encore les contraintes liées à la rapidité de traitement (moins de 20 secondes pour traiter entièrement le virement[1] et quelques centaines de millisecondes pour la détection de fraude). C’est dans ce contexte que les systèmes de détection de fraude doivent opérer, ce qui nécessite donc la conception d’une architecture spécifique, appuyée par des technologies adaptées.

L’enjeu principal de la mise en pilote d’un système de détection de fraude est la capacité opérationnelle à gérer le flux de virements, et en particulier les pics. Un système de détection de fraude doit donc répondre a minima aux contraintes suivantes :

  • Respecter des contraintes de temps par virement ainsi que de débit
  • En cas de panne, débrayer sur un deuxième système (règles simples ou acceptation automatique) pour ne pas bloquer la chaîne complète
  • Ne pas corrompre l’intégrité de la chaîne d’émission de virements (ni doublons, ni virements manquants)

Le schéma ci-dessous propose une vision macro de la chaîne de traitement à mettre en place pour le scoring des virements.

 

En cible, la chaîne de traitement en rouge doit donc pouvoir s’exécuter en moins de 20 secondes. Pour garantir ce temps de traitement, certains calculs doivent être exécutés en différés.

  1. Mobilisation de l’historique: Les variables qui permettent d’identifier la fraude doivent aider à distinguer un virement « sain » d’un virement frauduleux. Ces variables sont en particulier celles qui permettent d’identifier les habitudes d’un client, les historiques, ancien et récent, sont donc souvent sollicités. L’historique ancien peut généralement être pré-calculé puisqu’il s’agit de phénomènes observés sur de longues périodes de temps, et qui varient peu. L’historique récent doit parfois être calculé à la volée, en fonction de l’échelle de temps observée.
  2. Appel au modèle pré-entraîné: Le temps nécessaire pour la prédiction est généralement négligeable par rapport au temps d’entraînement du modèle sur les données. Cet entraînement est donc également réalisé en amont.
  3. Interprétation: L’aide à l’analyse et à la décision constitue un élément essentiel d’un système de détection de fraude efficace. En effet, un appel de contrôle efficace se caractérise par des indications précises données au client, car le risque est réel de laisser passer une fraude pourtant détectée. L’usurpation d’identité utilisée dans les cas d’ingénierie sociale place parfois le donneur d’ordre dans une situation de confiance (fournisseur habituel, ordre provenant de la direction), y compris lorsque l’alerte est donnée.

Pour implémenter cette chaîne de traitement, les besoins en technologies streaming (Fast Data) s’ajoutent aux besoins Big Data déjà existants. Il y a un véritable challenge technologique à proposer des outils qui permettent à la fois de répondre aux contraintes de fiabilité exigées par le secteur bancaire et de supporter les innovations récentes du domaine, comme l’Instant Payment. Notre prochain article de blog se penchera plus en détail sur ces technologies !

[1] https://www.europeanpaymentscouncil.eu/what-we-do/sepa-instant-credit-transfer