20210527-datadrink-DGML-LabIA

DGML: Machine Learning et donnée ouverte Giulia Santarsieri, Pavel Soriano-Morales
27 Mai 2021 Datadrink du Lab IA Lab IA – Etalab

Les missions d’Etalab autour de la donnée ouverte 1

Sommaire 1. La sous-exploitation de la donnée ouverte dans le
Machine Learning 2. Notre méthodologie pour un catalogue de la donnée ouverte pour le Machine Learning 3. DGML: Data Gouv pour le Machine Learning 2

La sous-exploitation de la donnée ouverte dans le Machine Learning

Quelles données pour le Machine Learning ? Un petit échantillon
de jeux de données bien connu est souvent utilisé1 dans la recherche et les applications en Machine Learning. 1Núria Macià et al. “Learner excellence biased by data set selection: A case for data characterisation and artificial data sets”. In: Pattern Recognition 46.3 (2013), pp. 1054–1066. 4

Quelles données pour le Machine Learning ? Ces jeux de
données ne reflètent pas toujours les défis et la variété de la donnée ouverte: Code AGB Nom du produit Score environmental 19580 Abricot au sirop léger, appertisé, égoutté 2.46 NAN Abricot au sirop léger, appertisé, non égoutté NAN 21508 Abricot, dénoyauté, cru 2.5 36780 NAN 2.46 25263 Yaourt, lait fermenté ou spécialité laitière, aux fruits 3.61 NAN Yaourt, lait fermenté ou spécialité laitière, aux fruits 2.5 90768 Agneau, collier, cru 2.1 5

Le potentiel de la donnée ouverte Évaluer les algorithmes de
Machine Learning Machine Learning pour le business Machine Learning pour l’éducation et la recherche Machine Learning pour les administrations 6

Pourquoi la donnée ouverte est-elle négligée? Manque de données de
qualité • Format des données • Contenu des données • Besoin important de pre-traitement Manque de communication sur les plateformes de donnée ouverte Manque de catalogues spécialisés en Machine Learning 7

Notre méthodologie pour un catalogue de la donnée ouverte pour
le Machine Learning

DGML: Data Gouv pour le Machine Learning 8

DGML: Data Gouv pour le Machine Learning

Qu’est-ce qu’on trouve dans DGML? 60 jeux de données :
10 sélectionnes | 50 automatiques 9

Meta-features et performance des algorithmes • Qu’est-ce qui rend un
jeu de données un adapté au ML ? • Régression Linéaire sur les meta-features de 60 jeux de données • Variable réponse: métriques des algorithmes 10

Perspectives - Travaux futurs Continuer à rechercher les caractéristiques d’un
jeu de données pour le Machine Learning Tester des applications existantes (telles que les exemples scikit-learn) sur la donnée ouverte Augmenter le nombre de jeux de données disponibles Renforcer le lien avec la communauté data.gouv.fr Généraliser notre méthodologie à d’autres plateformes de données ouvertes 11

Perspectives - Call to action Testez notre application Retours sur
l’application et la séléction des données Proposez des applications Machine Learning 12

Key takeaways La donnée ouverte est sous-exploitée dans les applications
et la recherche en Machine Learning Nous proposons une méthodologie pour identifier les jeux de données adaptés au Machine Learning Nous avons développé DGML, Data Gouv pour le Machine Learning : un catalogue centralisé pour le ML avec la donnée ouverte de data.gouv.fr Merci ! [email protected] [email protected] https://datascience.etalab.studio/dgml/ etalab-ia/DGML 13

20210527-datadrink-DGML-LabIA

20210527-datadrink-DGML-LabIA

etalab-ia

More Decks by etalab-ia

Featured

Transcript

DGML: Machine Learning et donnée ouverte Giulia Santarsieri, Pavel Soriano-Morales

Les missions d’Etalab autour de la donnée ouverte 1

Sommaire 1. La sous-exploitation de la donnée ouverte dans le

La sous-exploitation de la donnée ouverte dans le Machine Learning

3

Quelles données pour le Machine Learning ? Un petit échantillon

Quelles données pour le Machine Learning ? Ces jeux de

Le potentiel de la donnée ouverte Évaluer les algorithmes de

Pourquoi la donnée ouverte est-elle négligée? Manque de données de

Notre méthodologie pour un catalogue de la donnée ouverte pour

DGML: Data Gouv pour le Machine Learning 8

DGML: Data Gouv pour le Machine Learning

Qu’est-ce qu’on trouve dans DGML? 60 jeux de données :

Meta-features et performance des algorithmes • Qu’est-ce qui rend un

Perspectives - Travaux futurs Continuer à rechercher les caractéristiques d’un

Perspectives - Call to action Testez notre application Retours sur

Key takeaways La donnée ouverte est sous-exploitée dans les applications