milliards d’euros Par exemple, l’Union Européenne estime la fraude à la TVA à près de 150 milliards d’euros, dont 21 milliards en France • Le rapprochement de données et l’analyse des réseaux ouvrent de nouvelles possibilités dans la lutte contre la fraude Ainsi, la solution analytique de détection de fraude au "Carrousel TVA" mise en œuvre en Belgique en 2012 permet aujourd'hui de détecter 98% des fraudes de ce type ( > 1 milliard d'euros récupérés chaque année)
entités (personnes, organisations, comptes bancaires, etc.) joue un rôle crucial dans la détection de réseaux de fraude. • D’où l’idée de stocker et analyser les données sous forme d’un « graphe de connaissance » ou knowledge graph, une représentation sémantiquement riche où les connexions sont aussi importantes que les entités. • Le défi consiste à construire, visualiser et analyser un tel graphe pour détecter des schémas de fraude (connus ou nouveaux) à partir de données hétérogènes (structurées et textuelles).
œuvre des méthodes d’apprentissage (supervisé et/ou non supervisé) pour la construction du graphe et pour son analyse Analyse de données textuelles et extraction d’information (entités, relations) Analyse de réseaux et détection de fraude • Un data engineer / développeur chargé de l’intégration des données et de la restitution des analyses Mise en correspondance de différentes sources de données Développement d’applications pour la visualisation des données et des graphes, ainsi que pour l’aide à la décision Langages / outils : . Python, Hive, Spark, ElasticSearch, JanusGraph . Dataiku Science Studio, machine/deep learning (scikit-learn, TensorFlow), traitement du langage naturel (nltk, gensim, spaCy) . Javascript : d3.js, jQuery, vue.js NB: Les candidats retenus feront l’objet d’une habilitation « Confidentiel Défense »
data science, avec un environnement technologique à l’état de l’art • Un cadre opérationnel permettant un dialogue au quotidien avec des enquêteurs, selon une démarche agile • Un enjeu d’importance majeure