Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Défi EIG DataESR : bilan à mi-parcours

Défi EIG DataESR : bilan à mi-parcours

Sami Moustachir, Ambre Arnaud et Maxime Pierrot présentent les réalisations du défi DataESR à mi-parcours.

https://entrepreneur-interet-general.etalab.gouv.fr/defi/2017/09/26/dataesr/

More Decks by Entrepreneurs d'intérêt général

Other Decks in Technology

Transcript

  1. Projet : #dataESR Ministère de l’Enseignement Supérieure, de la recherche

    et de l’innovation Mentors : Emmanuel Weisenburger, Yann Caradec EIG : Sami Moustachir, Ambre Arnaud, Maxime Pierrot
  2. Mettre en place les premiers socles techniques permettant l’analyse d’un

    gros volume de données Construire un outil qui permet d’extraire à partir des sources transformées, des indicateurs scientifiques. Sélectionner l’ensemble des sources de données intéressantes et à considérer pour le projet. Exploitez cette outil d’enrichissement dans le cadre d’un projet d’analyse du financement des projets Chronologie
  3. • Document 1 • Document 2 • Document 3 Tableau

    de bord Enrichissement Ex : Financement des projets de recherche Européens
  4. dataESR Aggregator Tagged Documents nlp pipeline Scientific Tagger Tokenize POS

    Tag lemma Word Embd. container MElt container Fast Text data pretrain models ! /" " ! MElt : Preprocessing for French content FastText : Library for word representations spaCy : Python library for text processing ETL Airflow dataESR
  5. Dans scanR, on a une aggregation de donnée de différentes

    sources, chaque source est lié à un ou plusieurs champs disciplinaires. On se retrouve donc avec plein de nomenclatures qui ne communique pas avec les autres. scanR est un outil pour aider à trouver les structures, il faut donc rationaliser l’ensemble des données agrégés de manière à faciliter la recherche. D’où l’idée de proposer une meta-nomenclature Ex sur la radicalisation avant les attentats.