20200924_datadrink_opendatascience

DataDrink - Open Data Science Florian LABORDE Direction interministérielle du
numérique Etalab

Open Data Science Montrer comment les data sciences peuvent contribuer
à améliorer l'action publique en matière de circulation de la donnée publique La donnée doit être active, vivante Qu'est-ce qui va la rendre prête à fournir des services ? Rendre la donnée disponible et accessible Concrètement Trouver une représentation, vectoriser les jeux de données Proposer des jdd (jeux de données) similaires et améliorer la recherche de jdd 1

Qu'est-ce qu'un dataset ? Contexte Le contexte est constitué des
éléments sous forme de texte qui englobe un dataset. Sur data.gouv.fr cela s'articule autour des catégories suivantes : Titre du jeu de données Description qui peut être plus ou moins longue, précise et parfois très générale. Nom du Producteur de données qui peut produire des jeux de données variés. Tags plus ou moins précis et pertinents Date, Localisation et autres ltres Données Fichiers à diérents formats : CSV, JSON, ZIP ... qui contiennent les données à proprement dites. 2

Exemple d'un jeu de données Figure 1: Extrait d'une page
d'un jeu de données sur data.gouv.fr 3

Interêt de la vectorisation On représente chaque jdd par un
vecteur. On peut donc positionner dans l'espace chaque jdd et rechercher ses voisins les plus proches (distance cosinus). Cela permet de trouver des jdd similaires ou de répondre à une nouvelle requête. Figure 2: Chaque point bleu est un jeu de données, le point rouge est le mot 'association' et les points verts sont les 10 jdd les plus proches du mot 'association'. 4

Compréhension sémantique des phrases et textes longs Comment faire pour
générer des vecteurs qui soient les plus pertinents possibles au sens du contenus des description/recherche utilisateurs ? - Transformer Networks (SBERT) Compréhension beaucoup plus ne de la langue. Mieux gérer les synonymes, les paraphrases et les liens logiques dans le texte. La brique technologique majeure de ces dernières années (2018-2019) est l'attention layer et les transformers networks. En France, ces modèles de réseaux de neurones sont connus sous le nom de CamemBERT et FlauBERT. 5

Exemple Comparé 1 Figure 3: Exemple 'Piscines' 6

Exemple Comparé 2 Figure 4: Exemple 'Vacances Scolaires' 7

Exemple du mécanisme d'attention Figure 5: Exemple : Attention Head
[ ?] Mécanisme d'attention : Chaque Attention head est une couleur. Essaye de déterminer si it concerne la rue ou l'animal. 8

Exemple Comparé 3 Figure 6: Exemple 'Prix du gasoil' 9

Exemple Comparé 4 Figure 7: Exemple 'Covid-19' 10

Modèles et jeux de données : une dépendance à la
langue Jeux de données francophones Wikipédia Common Crawl (OSCAR, CCNet) Piaf [? ] Datasets anglophones Wikipedia Common Crawl BooksCorpus SQuAD, SQuAD v2 SNLI, MultiNLI QNLI, CoLA, STS-B, RTE, MRPC, SST-2, QQP ....... Modèles pré-entrainés [FR] CamemBERT [? ] FlauBERT [? ] Très peu de ne-tuning existants Modèles [EN] BERT SBERT Multitude de versions ne-tunées 11

Sentence-BERT pour la recherche de similarité : Embedding résolu Caractéristiques
principales Retour à une nalité d'embedding : chaque phrase correspond à un vecteur Changement d'architecture (réseau Siamois) Entraînement sur des jeux de données avec une interaction globale entre les phrases Pas de jeu de données français pour ré-entrainer l'ensemble Figure 8: Réseau Siamois de SBERT [ ?] 12

SBERT Multilingue : Problème de langue contourné Jeux de données
multilingues Europarl OpenSubtitles UNPC TED2020 Le principe de l'approche multilingue est d'utiliser l'apprentissage sur des jeux de données annotés monolingues, puis de se servir de textes dont la traduction existe (sans aucune contrainte sur ces textes et sans annotation nécessaire) pour transposer l'apprentissage d'une langue à une autre. Figure 9: Knowledge Distillation - Teacher/Student [ ?] 13

Application : Recherche de document - Dash On considère la
phrase de recherche comme un document et on retrouve ceux qui sont `les plus similaires'. Figure 10: Vue de l'application Dash 14

Application : Chatbot - Rasa An d'utiliser au mieux la
puissance de SBERT on peut proposer à l'utilisateur un format instinctivement sous forme de phrase, une recherche 'conversationelle'. Figure 11: Exemple d'échange avec le chatbot 15

20200924_datadrink_opendatascience

20200924_datadrink_opendatascience

etalab-ia

More Decks by etalab-ia

Featured

Transcript

DataDrink - Open Data Science Florian LABORDE Direction interministérielle du

Open Data Science Montrer comment les data sciences peuvent contribuer

Qu'est-ce qu'un dataset ? Contexte Le contexte est constitué des

Exemple d'un jeu de données Figure 1: Extrait d'une page

Interêt de la vectorisation On représente chaque jdd par un

Compréhension sémantique des phrases et textes longs Comment faire pour

Exemple Comparé 1 Figure 3: Exemple 'Piscines' 6

Exemple Comparé 2 Figure 4: Exemple 'Vacances Scolaires' 7

Exemple du mécanisme d'attention Figure 5: Exemple : Attention Head

Exemple Comparé 3 Figure 6: Exemple 'Prix du gasoil' 9

Exemple Comparé 4 Figure 7: Exemple 'Covid-19' 10

Modèles et jeux de données : une dépendance à la

Sentence-BERT pour la recherche de similarité : Embedding résolu Caractéristiques

SBERT Multilingue : Problème de langue contourné Jeux de données

Application : Recherche de document - Dash On considère la

Application : Chatbot - Rasa An d'utiliser au mieux la