Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20210527-datadrink-DGML-LabIA

etalab-ia
May 27, 2021
280

 20210527-datadrink-DGML-LabIA

etalab-ia

May 27, 2021
Tweet

Transcript

  1. Sommaire 1. La sous-exploitation de la donnée ouverte dans le

    Machine Learning 2. Notre méthodologie pour un catalogue de la donnée ouverte pour le Machine Learning 3. DGML: Data Gouv pour le Machine Learning 2
  2. 3

  3. Quelles données pour le Machine Learning ? Un petit échantillon

    de jeux de données bien connu est souvent utilisé1 dans la recherche et les applications en Machine Learning. 1Núria Macià et al. “Learner excellence biased by data set selection: A case for data characterisation and artificial data sets”. In: Pattern Recognition 46.3 (2013), pp. 1054–1066. 4
  4. Quelles données pour le Machine Learning ? Ces jeux de

    données ne reflètent pas toujours les défis et la variété de la donnée ouverte: Code AGB Nom du produit Score environmental 19580 Abricot au sirop léger, appertisé, égoutté 2.46 NAN Abricot au sirop léger, appertisé, non égoutté NAN 21508 Abricot, dénoyauté, cru 2.5 36780 NAN 2.46 25263 Yaourt, lait fermenté ou spécialité laitière, aux fruits 3.61 NAN Yaourt, lait fermenté ou spécialité laitière, aux fruits 2.5 90768 Agneau, collier, cru 2.1 5
  5. Le potentiel de la donnée ouverte Évaluer les algorithmes de

    Machine Learning Machine Learning pour le business Machine Learning pour l’éducation et la recherche Machine Learning pour les administrations 6
  6. Pourquoi la donnée ouverte est-elle négligée? Manque de données de

    qualité • Format des données • Contenu des données • Besoin important de pre-traitement Manque de communication sur les plateformes de donnée ouverte Manque de catalogues spécialisés en Machine Learning 7
  7. Meta-features et performance des algorithmes • Qu’est-ce qui rend un

    jeu de données un adapté au ML ? • Régression Linéaire sur les meta-features de 60 jeux de données • Variable réponse: métriques des algorithmes 10
  8. Perspectives - Travaux futurs Continuer à rechercher les caractéristiques d’un

    jeu de données pour le Machine Learning Tester des applications existantes (telles que les exemples scikit-learn) sur la donnée ouverte Augmenter le nombre de jeux de données disponibles Renforcer le lien avec la communauté data.gouv.fr Généraliser notre méthodologie à d’autres plateformes de données ouvertes 11
  9. Perspectives - Call to action Testez notre application Retours sur

    l’application et la séléction des données Proposez des applications Machine Learning 12
  10. Key takeaways La donnée ouverte est sous-exploitée dans les applications

    et la recherche en Machine Learning Nous proposons une méthodologie pour identifier les jeux de données adaptés au Machine Learning Nous avons développé DGML, Data Gouv pour le Machine Learning : un catalogue centralisé pour le ML avec la donnée ouverte de data.gouv.fr Merci ! [email protected] [email protected] https://datascience.etalab.studio/dgml/ etalab-ia/DGML 13