Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20200924_datadrink_opendatascience

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
September 24, 2020
31

 20200924_datadrink_opendatascience

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

September 24, 2020
Tweet

Transcript

  1. DataDrink - Open Data Science Florian LABORDE Direction interministérielle du

    numérique Etalab
  2. Open Data Science Montrer comment les data sciences peuvent contribuer

    à améliorer l'action publique en matière de circulation de la donnée publique ˆ La donnée doit être active, vivante ˆ Qu'est-ce qui va la rendre prête à fournir des services ? ˆ Rendre la donnée disponible et accessible Concrètement ˆ Trouver une représentation, vectoriser les jeux de données ˆ Proposer des jdd (jeux de données) similaires et améliorer la recherche de jdd 1
  3. Qu'est-ce qu'un dataset ? Contexte Le contexte est constitué des

    éléments sous forme de texte qui englobe un dataset. Sur data.gouv.fr cela s'articule autour des catégories suivantes : ˆ Titre du jeu de données ˆ Description qui peut être plus ou moins longue, précise et parfois très générale. ˆ Nom du Producteur de données qui peut produire des jeux de données variés. ˆ Tags plus ou moins précis et pertinents ˆ Date, Localisation et autres ltres Données ˆ Fichiers à diérents formats : CSV, JSON, ZIP ... qui contiennent les données à proprement dites. 2
  4. Exemple d'un jeu de données Figure 1: Extrait d'une page

    d'un jeu de données sur data.gouv.fr 3
  5. Interêt de la vectorisation On représente chaque jdd par un

    vecteur. On peut donc positionner dans l'espace chaque jdd et rechercher ses voisins les plus proches (distance cosinus). Cela permet de trouver des jdd similaires ou de répondre à une nouvelle requête. Figure 2: Chaque point bleu est un jeu de données, le point rouge est le mot 'association' et les points verts sont les 10 jdd les plus proches du mot 'association'. 4
  6. Compréhension sémantique des phrases et textes longs Comment faire pour

    générer des vecteurs qui soient les plus pertinents possibles au sens du contenus des description/recherche utilisateurs ? - Transformer Networks (SBERT) ˆ Compréhension beaucoup plus ne de la langue. ˆ Mieux gérer les synonymes, les paraphrases et les liens logiques dans le texte. ˆ La brique technologique majeure de ces dernières années (2018-2019) est l'attention layer et les transformers networks. En France, ces modèles de réseaux de neurones sont connus sous le nom de CamemBERT et FlauBERT. 5
  7. Exemple Comparé 1 Figure 3: Exemple 'Piscines' 6

  8. Exemple Comparé 2 Figure 4: Exemple 'Vacances Scolaires' 7

  9. Exemple du mécanisme d'attention Figure 5: Exemple : Attention Head

    [ ?] Mécanisme d'attention : Chaque Attention head est une couleur. Essaye de déterminer si it concerne la rue ou l'animal. 8
  10. Exemple Comparé 3 Figure 6: Exemple 'Prix du gasoil' 9

  11. Exemple Comparé 4 Figure 7: Exemple 'Covid-19' 10

  12. Modèles et jeux de données : une dépendance à la

    langue Jeux de données francophones ˆ Wikipédia ˆ Common Crawl (OSCAR, CCNet) ˆ Piaf [? ] Datasets anglophones ˆ Wikipedia ˆ Common Crawl ˆ BooksCorpus ˆ SQuAD, SQuAD v2 ˆ SNLI, MultiNLI ˆ QNLI, CoLA, STS-B, RTE, MRPC, SST-2, QQP ....... Modèles pré-entrainés [FR] ˆ CamemBERT [? ] ˆ FlauBERT [? ] ˆ Très peu de ne-tuning existants Modèles [EN] ˆ BERT ˆ SBERT ˆ Multitude de versions ne-tunées 11
  13. Sentence-BERT pour la recherche de similarité : Embedding résolu Caractéristiques

    principales ˆ Retour à une nalité d'embedding : chaque phrase correspond à un vecteur ˆ Changement d'architecture (réseau Siamois) ˆ Entraînement sur des jeux de données avec une interaction globale entre les phrases ˆ Pas de jeu de données français pour ré-entrainer l'ensemble Figure 8: Réseau Siamois de SBERT [ ?] 12
  14. SBERT Multilingue : Problème de langue contourné Jeux de données

    multilingues ˆ Europarl ˆ OpenSubtitles ˆ UNPC ˆ TED2020 Le principe de l'approche multilingue est d'utiliser l'apprentissage sur des jeux de données annotés monolingues, puis de se servir de textes dont la traduction existe (sans aucune contrainte sur ces textes et sans annotation nécessaire) pour transposer l'apprentissage d'une langue à une autre. Figure 9: Knowledge Distillation - Teacher/Student [ ?] 13
  15. Application : Recherche de document - Dash On considère la

    phrase de recherche comme un document et on retrouve ceux qui sont `les plus similaires'. Figure 10: Vue de l'application Dash 14
  16. Application : Chatbot - Rasa An d'utiliser au mieux la

    puissance de SBERT on peut proposer à l'utilisateur un format instinctivement sous forme de phrase, une recherche 'conversationelle'. Figure 11: Exemple d'échange avec le chatbot 15