Slide 1

Slide 1 text

Le Baromètre Science Ouverte données et codes Laetitia Bracco (Université de Lorraine) Anne L’Hôte (MESRI) LabIA - Data Drink 14/04/22

Slide 2

Slide 2 text

Contexte

Slide 3

Slide 3 text

Un peu de contexte… La Science Ouverte ? ● Diffusion sans entrave des connaissances et produits de la recherche ● Enjeux scientifiques, politiques et économiques, levier pour l’intégrité scientifique et la confiance des citoyens envers la science ● Priorité politique avec le Plan National de la Science Ouverte

Slide 4

Slide 4 text

Un peu de contexte… Mesurer une politique publique ? ● 2018-2019 : premier Baromètre Science Ouverte publications (MESRI) ● 2019-2020 : premier Baromètre local (Université de Lorraine) ● 2020-2021 : deuxième Baromètre approfondi dans le domaine de la santé (MESRI) ● 2021-2023 : troisième Baromètre avec les données et codes logiciels de la recherche (MESRI, Université de Lorraine, Inria) dans le cadre du plan de relance

Slide 5

Slide 5 text

Le projet

Slide 6

Slide 6 text

L’équipe Une équipe projet tripartite et complémentaire : Un comité de pilotage : Marin Dacos et Isabelle Blanc Un comité technique et d’usage :

Slide 7

Slide 7 text

Les objectifs du projet ● Constituer un corpus de métadonnées sur les jeux de données et logiciels produits par les chercheurs français: les repérer dans les publications et hors des publications (entrepôts) ● Analyser les résultats obtenus pour créer des indicateurs de suivi et de pilotage ● Exposer les données et les résultats pour garantir la transparence et faciliter les réutilisations

Slide 8

Slide 8 text

Les critères de succès du projet 1. Détection des jeux de données et des mentions logicielles (F1 score de 80%) 2. Identification d’un corpus de jeux de données et de logiciels (moissonnage de 50 entrepôts) 3. Analyse des affiliations de ces entrepôts (F1 score de 80%) 4. Facilité de réutilisation (10 déclinaisons locales) © Wikimedia Commons - Precisionrecall by Walber

Slide 9

Slide 9 text

Quels bénéfices attendus pour l’équipe projet ? ● Pour le MESRI : mesurer l’impact de la politique publique de Science Ouverte, consolider les capacités d’analyse ● Pour l’Université de Lorraine : piloter la performance de son entrepôt DOREL et de la politique d’accompagnement des chercheurs ● Pour l’Inria : augmenter la visibilité, les réutilisations et les capacités du logiciel GROBID (détection des mentions de données et logiciels dans les PDF)

Slide 10

Slide 10 text

Quelles retombées pour la communauté ? ● Créer de nouveaux services à partir des données déposées en open data ● Piloter une politique Science Ouverte d’établissement grâce aux déclinaisons locales ● Mesurer la portée des positions des financeurs de la recherche ● Amélioration de la visibilité de la production scientifique française ● Améliorer les possibilités de bibliométrie avec des métadonnées ouvertes

Slide 11

Slide 11 text

Focus sur l’effet incitatif des mandats Même effet sur des études menées à l’ étranger concernant les publications Pas n’existe pas encore d’étude concernant les données et les codes logiciels Analyse de l’effet en France depuis le premier BSO : croissance de 24 points en 3 ans

Slide 12

Slide 12 text

Focus sur les déclinaisons par établissement L’Université de Lorraine publie la déclinaison locale du Baromètre publications au printemps 2020... 12 Deux ans plus tard, une quinzaine d’établissements ont publié le leur (et d’autres sont en cours de réalisation) :

Slide 13

Slide 13 text

Concrètement, quel plan de travail pour le projet ? Publication Downloader (WP 3) - télécharge, stocke les publications brutes (pdfs) - Sources : BSO1, abonnements GROBID / SOFTCITE (WP 4) - extrait les métadonnées à partir des pdf - détecte les références aux données de recherche et code logiciel Annotation tooling (WP 2) - estimation de la précision et du rappel des différents algorithmes de détection - constitution de bases d’apprentissages pour WP3 et WP4 Publication Analyzer (WP3) - transforme les outputs GROBID - enrichit les méta-données (affiliation et disciplines scientifiques) - calcule KPI d’analyse Scientific tagger (BSO 2) API d’inférence de disciplines scientifiques à partir de méta - données (NLP / ML) Affiliation matcher (BSO 2) API d’alignement d’affiliation sur plusieurs référentiels nationaux et internationaux Repository harvesters (WP3) - moissonne des répertoires de données / code logiciel - spécificités d’implémentation pour chaque répertoire Repository Analyzer (WP3) - transforme les outputs du harvester - enrichit les méta-données (affiliation et disciplines scientifiques) - calcule KPI d’analyse Reconciliation (WP3) - agrège et réconcilie les KPIs liés aux publications et aux entrepôts - expose une API ouverte pour le front Web User Interface (WP5)

Slide 14

Slide 14 text

Quel calendrier ? ● Démarrage en septembre 2021, finalisation en septembre 2023 ● Jusqu’à présent : ○ Téléchargement en masse des PDFs ○ Premières estimations de détections de codes logiciel sur un échantillon de 10 000 publications ● Prochaines étapes : ○ Industrialiser le processus de détection de codes logiciel ○ Mise en place du processus de détection de jeux de données et moissonnage des entrepôts de données ● Mise en place d’un club utilisateurs du Baromètre Science Ouverte

Slide 15

Slide 15 text

Merci pour votre attention ! [email protected] [email protected] Illustrations : Pixabay, Stories by Freepik