Upgrade to PRO for Only $50/Year—Limited-Time Offer! đŸ”„

20210527-datadrink-DGML-LabIA

Avatar for etalab-ia etalab-ia
May 27, 2021
330

 20210527-datadrink-DGML-LabIA

Avatar for etalab-ia

etalab-ia

May 27, 2021
Tweet

Transcript

  1. Sommaire 1. La sous-exploitation de la donnée ouverte dans le

    Machine Learning 2. Notre méthodologie pour un catalogue de la donnée ouverte pour le Machine Learning 3. DGML: Data Gouv pour le Machine Learning 2
  2. 3

  3. Quelles données pour le Machine Learning ? Un petit échantillon

    de jeux de donnĂ©es bien connu est souvent utilisĂ©1 dans la recherche et les applications en Machine Learning. 1NĂșria MaciĂ  et al. “Learner excellence biased by data set selection: A case for data characterisation and artificial data sets”. In: Pattern Recognition 46.3 (2013), pp. 1054–1066. 4
  4. Quelles données pour le Machine Learning ? Ces jeux de

    données ne reflÚtent pas toujours les défis et la variété de la donnée ouverte: Code AGB Nom du produit Score environmental 19580 Abricot au sirop léger, appertisé, égoutté 2.46 NAN Abricot au sirop léger, appertisé, non égoutté NAN 21508 Abricot, dénoyauté, cru 2.5 36780 NAN 2.46 25263 Yaourt, lait fermenté ou spécialité laitiÚre, aux fruits 3.61 NAN Yaourt, lait fermenté ou spécialité laitiÚre, aux fruits 2.5 90768 Agneau, collier, cru 2.1 5
  5. Le potentiel de la donnĂ©e ouverte Évaluer les algorithmes de

    Machine Learning Machine Learning pour le business Machine Learning pour l’éducation et la recherche Machine Learning pour les administrations 6
  6. Pourquoi la donnée ouverte est-elle négligée? Manque de données de

    qualitĂ© ‱ Format des donnĂ©es ‱ Contenu des donnĂ©es ‱ Besoin important de pre-traitement Manque de communication sur les plateformes de donnĂ©e ouverte Manque de catalogues spĂ©cialisĂ©s en Machine Learning 7
  7. Meta-features et performance des algorithmes ‱ Qu’est-ce qui rend un

    jeu de donnĂ©es un adaptĂ© au ML ? ‱ RĂ©gression LinĂ©aire sur les meta-features de 60 jeux de donnĂ©es ‱ Variable rĂ©ponse: mĂ©triques des algorithmes 10
  8. Perspectives - Travaux futurs Continuer Ă  rechercher les caractĂ©ristiques d’un

    jeu de donnĂ©es pour le Machine Learning Tester des applications existantes (telles que les exemples scikit-learn) sur la donnĂ©e ouverte Augmenter le nombre de jeux de donnĂ©es disponibles Renforcer le lien avec la communautĂ© data.gouv.fr GĂ©nĂ©raliser notre mĂ©thodologie Ă  d’autres plateformes de donnĂ©es ouvertes 11
  9. Perspectives - Call to action Testez notre application Retours sur

    l’application et la sĂ©lĂ©ction des donnĂ©es Proposez des applications Machine Learning 12
  10. Key takeaways La donnée ouverte est sous-exploitée dans les applications

    et la recherche en Machine Learning Nous proposons une mĂ©thodologie pour identifier les jeux de donnĂ©es adaptĂ©s au Machine Learning Nous avons dĂ©veloppĂ© DGML, Data Gouv pour le Machine Learning : un catalogue centralisĂ© pour le ML avec la donnĂ©e ouverte de data.gouv.fr Merci ! [email protected] [email protected] https://datascience.etalab.studio/dgml/ etalab-ia/DGML 13