Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20210527-datadrink-DGML-LabIA

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
May 27, 2021
63

 20210527-datadrink-DGML-LabIA

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

May 27, 2021
Tweet

Transcript

  1. DGML: Machine Learning et donnée ouverte Giulia Santarsieri, Pavel Soriano-Morales

    27 Mai 2021 Datadrink du Lab IA Lab IA – Etalab
  2. Les missions d’Etalab autour de la donnée ouverte 1

  3. Sommaire 1. La sous-exploitation de la donnée ouverte dans le

    Machine Learning 2. Notre méthodologie pour un catalogue de la donnée ouverte pour le Machine Learning 3. DGML: Data Gouv pour le Machine Learning 2
  4. La sous-exploitation de la donnée ouverte dans le Machine Learning

  5. 3

  6. Quelles données pour le Machine Learning ? Un petit échantillon

    de jeux de données bien connu est souvent utilisé1 dans la recherche et les applications en Machine Learning. 1Núria Macià et al. “Learner excellence biased by data set selection: A case for data characterisation and artificial data sets”. In: Pattern Recognition 46.3 (2013), pp. 1054–1066. 4
  7. Quelles données pour le Machine Learning ? Ces jeux de

    données ne reflètent pas toujours les défis et la variété de la donnée ouverte: Code AGB Nom du produit Score environmental 19580 Abricot au sirop léger, appertisé, égoutté 2.46 NAN Abricot au sirop léger, appertisé, non égoutté NAN 21508 Abricot, dénoyauté, cru 2.5 36780 NAN 2.46 25263 Yaourt, lait fermenté ou spécialité laitière, aux fruits 3.61 NAN Yaourt, lait fermenté ou spécialité laitière, aux fruits 2.5 90768 Agneau, collier, cru 2.1 5
  8. Le potentiel de la donnée ouverte Évaluer les algorithmes de

    Machine Learning Machine Learning pour le business Machine Learning pour l’éducation et la recherche Machine Learning pour les administrations 6
  9. Pourquoi la donnée ouverte est-elle négligée? Manque de données de

    qualité • Format des données • Contenu des données • Besoin important de pre-traitement Manque de communication sur les plateformes de donnée ouverte Manque de catalogues spécialisés en Machine Learning 7
  10. Notre méthodologie pour un catalogue de la donnée ouverte pour

    le Machine Learning
  11. DGML: Data Gouv pour le Machine Learning 8

  12. DGML: Data Gouv pour le Machine Learning

  13. Qu’est-ce qu’on trouve dans DGML? 60 jeux de données :

    10 sélectionnes | 50 automatiques 9
  14. Meta-features et performance des algorithmes • Qu’est-ce qui rend un

    jeu de données un adapté au ML ? • Régression Linéaire sur les meta-features de 60 jeux de données • Variable réponse: métriques des algorithmes 10
  15. Perspectives - Travaux futurs Continuer à rechercher les caractéristiques d’un

    jeu de données pour le Machine Learning Tester des applications existantes (telles que les exemples scikit-learn) sur la donnée ouverte Augmenter le nombre de jeux de données disponibles Renforcer le lien avec la communauté data.gouv.fr Généraliser notre méthodologie à d’autres plateformes de données ouvertes 11
  16. Perspectives - Call to action Testez notre application Retours sur

    l’application et la séléction des données Proposez des applications Machine Learning 12
  17. Key takeaways La donnée ouverte est sous-exploitée dans les applications

    et la recherche en Machine Learning Nous proposons une méthodologie pour identifier les jeux de données adaptés au Machine Learning Nous avons développé DGML, Data Gouv pour le Machine Learning : un catalogue centralisé pour le ML avec la donnée ouverte de data.gouv.fr Merci ! giulia.santarsieri@data.gouv.fr pavel.soriano@data.gouv.fr https://datascience.etalab.studio/dgml/ etalab-ia/DGML 13