Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Le baromètre de la science ouverte (Mesri/Université de Lorraine)

etalab-ia
April 19, 2022
300

Le baromètre de la science ouverte (Mesri/Université de Lorraine)

L'objectif du baromètre de la science ouverte est de proposer des indicateurs d’ouverture sur les publications scientifiques et sur les données de la recherche et les logiciels

etalab-ia

April 19, 2022
Tweet

Transcript

  1. Le Baromètre Science Ouverte
    données et codes
    Laetitia Bracco (Université de Lorraine)
    Anne L’Hôte (MESRI)
    LabIA - Data Drink 14/04/22

    View full-size slide

  2. Un peu de contexte… La Science Ouverte ?
    ● Diffusion sans entrave des
    connaissances et produits de la
    recherche
    ● Enjeux scientifiques, politiques
    et économiques, levier pour
    l’intégrité scientifique et la
    confiance des citoyens envers la
    science
    ● Priorité politique avec le Plan
    National de la Science Ouverte

    View full-size slide

  3. Un peu de contexte… Mesurer une politique publique ?
    ● 2018-2019 : premier Baromètre
    Science Ouverte publications
    (MESRI)
    ● 2019-2020 : premier Baromètre
    local (Université de Lorraine)
    ● 2020-2021 : deuxième Baromètre
    approfondi dans le domaine de la
    santé (MESRI)
    ● 2021-2023 : troisième Baromètre
    avec les données et codes
    logiciels de la recherche (MESRI,
    Université de Lorraine, Inria)
    dans le cadre du plan de relance

    View full-size slide

  4. L’équipe
    Une équipe projet tripartite et complémentaire :
    Un comité de pilotage : Marin Dacos et Isabelle Blanc
    Un comité technique et d’usage :

    View full-size slide

  5. Les objectifs du projet
    ● Constituer un corpus de métadonnées sur
    les jeux de données et logiciels
    produits par les chercheurs français:
    les repérer dans les publications et
    hors des publications (entrepôts)
    ● Analyser les résultats obtenus pour
    créer des indicateurs de suivi et de
    pilotage
    ● Exposer les données et les résultats
    pour garantir la transparence et
    faciliter les réutilisations

    View full-size slide

  6. Les critères de succès du projet
    1. Détection des jeux de données et des
    mentions logicielles (F1 score de 80%)
    2. Identification d’un corpus de jeux de
    données et de logiciels (moissonnage de
    50 entrepôts)
    3. Analyse des affiliations de ces
    entrepôts (F1 score de 80%)
    4. Facilité de réutilisation (10
    déclinaisons locales)
    © Wikimedia Commons - Precisionrecall by Walber

    View full-size slide

  7. Quels bénéfices attendus pour l’équipe projet ?
    ● Pour le MESRI : mesurer l’impact de la politique publique
    de Science Ouverte, consolider les capacités d’analyse
    ● Pour l’Université de Lorraine : piloter la performance de
    son entrepôt DOREL et de la politique d’accompagnement
    des chercheurs
    ● Pour l’Inria : augmenter la visibilité, les
    réutilisations et les capacités du logiciel GROBID
    (détection des mentions de données et logiciels dans les
    PDF)

    View full-size slide

  8. Quelles retombées pour la communauté ?
    ● Créer de nouveaux services à partir des données déposées
    en open data
    ● Piloter une politique Science Ouverte d’établissement
    grâce aux déclinaisons locales
    ● Mesurer la portée des positions des financeurs de la
    recherche
    ● Amélioration de la visibilité de la production
    scientifique française
    ● Améliorer les possibilités de bibliométrie avec des
    métadonnées ouvertes

    View full-size slide

  9. Focus sur l’effet incitatif des mandats
    Même effet sur des études menées à l’
    étranger concernant les publications
    Pas n’existe pas encore d’étude
    concernant les données et les codes
    logiciels
    Analyse de l’effet en France depuis
    le premier BSO : croissance de 24
    points en 3 ans

    View full-size slide

  10. Focus sur les déclinaisons par établissement
    L’Université de Lorraine publie la déclinaison locale du
    Baromètre publications au printemps 2020...
    12
    Deux ans plus tard, une quinzaine d’établissements ont
    publié le leur (et d’autres sont en cours de réalisation) :

    View full-size slide

  11. Concrètement, quel plan de travail pour le projet ?
    Publication Downloader
    (WP 3)
    - télécharge, stocke les
    publications brutes (pdfs)
    - Sources : BSO1, abonnements
    GROBID / SOFTCITE (WP 4)
    - extrait les métadonnées à partir des
    pdf
    - détecte les références aux données
    de recherche et code logiciel
    Annotation tooling (WP 2)
    - estimation de la précision et du rappel
    des différents algorithmes de détection
    - constitution de bases d’apprentissages
    pour WP3 et WP4
    Publication Analyzer
    (WP3)
    - transforme les outputs
    GROBID
    - enrichit les méta-données
    (affiliation et disciplines
    scientifiques)
    - calcule KPI d’analyse
    Scientific tagger (BSO 2)
    API d’inférence de disciplines
    scientifiques à partir de méta -
    données (NLP / ML)
    Affiliation matcher (BSO 2)
    API d’alignement d’affiliation sur
    plusieurs référentiels nationaux et
    internationaux
    Repository harvesters
    (WP3)
    - moissonne des répertoires de
    données / code logiciel
    - spécificités d’implémentation
    pour chaque répertoire
    Repository Analyzer
    (WP3)
    - transforme les outputs
    du harvester
    - enrichit les méta-données
    (affiliation et disciplines
    scientifiques)
    - calcule KPI d’analyse
    Reconciliation (WP3)
    - agrège et réconcilie les
    KPIs liés aux publications
    et aux entrepôts
    - expose une API ouverte
    pour le front
    Web User Interface
    (WP5)

    View full-size slide

  12. Quel calendrier ?
    ● Démarrage en septembre 2021, finalisation en septembre
    2023
    ● Jusqu’à présent :
    ○ Téléchargement en masse des PDFs
    ○ Premières estimations de détections de codes logiciel sur un
    échantillon de 10 000 publications
    ● Prochaines étapes :
    ○ Industrialiser le processus de détection de codes logiciel
    ○ Mise en place du processus de détection de jeux de données et
    moissonnage des entrepôts de données
    ● Mise en place d’un club utilisateurs du Baromètre Science
    Ouverte

    View full-size slide

  13. Merci pour votre
    attention !
    [email protected]
    [email protected]
    Illustrations : Pixabay, Stories by Freepik

    View full-size slide