Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Le baromètre de la science ouverte (Mesri/Unive...

etalab-ia
April 19, 2022
400

Le baromètre de la science ouverte (Mesri/Université de Lorraine)

L'objectif du baromètre de la science ouverte est de proposer des indicateurs d’ouverture sur les publications scientifiques et sur les données de la recherche et les logiciels

etalab-ia

April 19, 2022
Tweet

Transcript

  1. Le Baromètre Science Ouverte données et codes Laetitia Bracco (Université

    de Lorraine) Anne L’Hôte (MESRI) LabIA - Data Drink 14/04/22
  2. Un peu de contexte… La Science Ouverte ? • Diffusion

    sans entrave des connaissances et produits de la recherche • Enjeux scientifiques, politiques et économiques, levier pour l’intégrité scientifique et la confiance des citoyens envers la science • Priorité politique avec le Plan National de la Science Ouverte
  3. Un peu de contexte… Mesurer une politique publique ? •

    2018-2019 : premier Baromètre Science Ouverte publications (MESRI) • 2019-2020 : premier Baromètre local (Université de Lorraine) • 2020-2021 : deuxième Baromètre approfondi dans le domaine de la santé (MESRI) • 2021-2023 : troisième Baromètre avec les données et codes logiciels de la recherche (MESRI, Université de Lorraine, Inria) dans le cadre du plan de relance
  4. L’équipe Une équipe projet tripartite et complémentaire : Un comité

    de pilotage : Marin Dacos et Isabelle Blanc Un comité technique et d’usage :
  5. Les objectifs du projet • Constituer un corpus de métadonnées

    sur les jeux de données et logiciels produits par les chercheurs français: les repérer dans les publications et hors des publications (entrepôts) • Analyser les résultats obtenus pour créer des indicateurs de suivi et de pilotage • Exposer les données et les résultats pour garantir la transparence et faciliter les réutilisations
  6. Les critères de succès du projet 1. Détection des jeux

    de données et des mentions logicielles (F1 score de 80%) 2. Identification d’un corpus de jeux de données et de logiciels (moissonnage de 50 entrepôts) 3. Analyse des affiliations de ces entrepôts (F1 score de 80%) 4. Facilité de réutilisation (10 déclinaisons locales) © Wikimedia Commons - Precisionrecall by Walber
  7. Quels bénéfices attendus pour l’équipe projet ? • Pour le

    MESRI : mesurer l’impact de la politique publique de Science Ouverte, consolider les capacités d’analyse • Pour l’Université de Lorraine : piloter la performance de son entrepôt DOREL et de la politique d’accompagnement des chercheurs • Pour l’Inria : augmenter la visibilité, les réutilisations et les capacités du logiciel GROBID (détection des mentions de données et logiciels dans les PDF)
  8. Quelles retombées pour la communauté ? • Créer de nouveaux

    services à partir des données déposées en open data • Piloter une politique Science Ouverte d’établissement grâce aux déclinaisons locales • Mesurer la portée des positions des financeurs de la recherche • Amélioration de la visibilité de la production scientifique française • Améliorer les possibilités de bibliométrie avec des métadonnées ouvertes
  9. Focus sur l’effet incitatif des mandats Même effet sur des

    études menées à l’ étranger concernant les publications Pas n’existe pas encore d’étude concernant les données et les codes logiciels Analyse de l’effet en France depuis le premier BSO : croissance de 24 points en 3 ans
  10. Focus sur les déclinaisons par établissement L’Université de Lorraine publie

    la déclinaison locale du Baromètre publications au printemps 2020... 12 Deux ans plus tard, une quinzaine d’établissements ont publié le leur (et d’autres sont en cours de réalisation) :
  11. Concrètement, quel plan de travail pour le projet ? Publication

    Downloader (WP 3) - télécharge, stocke les publications brutes (pdfs) - Sources : BSO1, abonnements GROBID / SOFTCITE (WP 4) - extrait les métadonnées à partir des pdf - détecte les références aux données de recherche et code logiciel Annotation tooling (WP 2) - estimation de la précision et du rappel des différents algorithmes de détection - constitution de bases d’apprentissages pour WP3 et WP4 Publication Analyzer (WP3) - transforme les outputs GROBID - enrichit les méta-données (affiliation et disciplines scientifiques) - calcule KPI d’analyse Scientific tagger (BSO 2) API d’inférence de disciplines scientifiques à partir de méta - données (NLP / ML) Affiliation matcher (BSO 2) API d’alignement d’affiliation sur plusieurs référentiels nationaux et internationaux Repository harvesters (WP3) - moissonne des répertoires de données / code logiciel - spécificités d’implémentation pour chaque répertoire Repository Analyzer (WP3) - transforme les outputs du harvester - enrichit les méta-données (affiliation et disciplines scientifiques) - calcule KPI d’analyse Reconciliation (WP3) - agrège et réconcilie les KPIs liés aux publications et aux entrepôts - expose une API ouverte pour le front Web User Interface (WP5)
  12. Quel calendrier ? • Démarrage en septembre 2021, finalisation en

    septembre 2023 • Jusqu’à présent : ◦ Téléchargement en masse des PDFs ◦ Premières estimations de détections de codes logiciel sur un échantillon de 10 000 publications • Prochaines étapes : ◦ Industrialiser le processus de détection de codes logiciel ◦ Mise en place du processus de détection de jeux de données et moissonnage des entrepôts de données • Mise en place d’un club utilisateurs du Baromètre Science Ouverte