Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pitch Adler - Défi EIG3

Pitch Adler - Défi EIG3

Pitch présenté lors de la session d'information du 3 octobre 2018, en présence de mentors et potentiels candidats à l'appel à candidatures.

Transcript

  1. ADLER Détection de comportements financiers illicites à l’aide d’un graphe

    de connaissances Ministère de l’Action et des Comptes Publics Delphine Lê
  2. La fraude financière • Des enjeux qui se chiffrent en

    milliards d’euros  Par exemple, l’Union Européenne estime la fraude à la TVA à près de 150 milliards d’euros, dont 21 milliards en France • Le rapprochement de données et l’analyse des réseaux ouvrent de nouvelles possibilités dans la lutte contre la fraude  Ainsi, la solution analytique de détection de fraude au "Carrousel TVA" mise en œuvre en Belgique en 2012 permet aujourd'hui de détecter 98% des fraudes de ce type ( > 1 milliard d'euros récupérés chaque année)
  3. Le défi • L’identification de liens de toute nature entre

    entités (personnes, organisations, comptes bancaires, etc.) joue un rôle crucial dans la détection de réseaux de fraude. • D’où l’idée de stocker et analyser les données sous forme d’un « graphe de connaissance » ou knowledge graph, une représentation sémantiquement riche où les connexions sont aussi importantes que les entités. • Le défi consiste à construire, visualiser et analyser un tel graphe pour détecter des schémas de fraude (connus ou nouveaux) à partir de données hétérogènes (structurées et textuelles).
  4. Les EIG • Un data scientist chargé de mettre en

    œuvre des méthodes d’apprentissage (supervisé et/ou non supervisé) pour la construction du graphe et pour son analyse  Analyse de données textuelles et extraction d’information (entités, relations)  Analyse de réseaux et détection de fraude • Un data engineer / développeur chargé de l’intégration des données et de la restitution des analyses  Mise en correspondance de différentes sources de données  Développement d’applications pour la visualisation des données et des graphes, ainsi que pour l’aide à la décision Langages / outils : . Python, Hive, Spark, ElasticSearch, JanusGraph . Dataiku Science Studio, machine/deep learning (scikit-learn, TensorFlow), traitement du langage naturel (nltk, gensim, spaCy) . Javascript : d3.js, jQuery, vue.js NB: Les candidats retenus feront l’objet d’une habilitation « Confidentiel Défense »
  5. Pourquoi nous rejoindre? • Un service pilote en termes de

    data science, avec un environnement technologique à l’état de l’art • Un cadre opérationnel permettant un dialogue au quotidien avec des enquêteurs, selon une démarche agile • Un enjeu d’importance majeure