Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GROBID : Mieux digérer les publications savantes pour muscler les communautés open source scientifiques

BlueHats
November 08, 2022

GROBID : Mieux digérer les publications savantes pour muscler les communautés open source scientifiques

Support de l'intervention d'Anne L'Hôte lors de la journée #BlueHats 2022.

Voir https://communs.numerique.gouv.fr/rencontres/.

BlueHats

November 08, 2022
Tweet

More Decks by BlueHats

Other Decks in Technology

Transcript

  1. GROBID Mieux digérer les publications savantes pour muscler les communautés

    open source scientifiques 1 Département des outils d’aide à la décision Anne L’Hôte
  2. GROBID pour exploiter le gisement des publications scientifiques • une

    gigantesque source de données sur les activités de recherche ⇒ gisement naturel à exploiter pour le Ministère de l'Enseignement Supérieur et de la Recherche (MESR). • Du texte structuré pour les humains (titre, auteurs, abstract etc …) mais disponible (quasi) uniquement en PDF ⇒ une quantité importante de données peut-être perdue lors de l’exploitation automatique 2 Département des outils d’aide à la décision
  3. GROBID pour exploiter le gisement des publications scientifiques GROBID (GeneRation

    Of BIbliographic Data) vise à proposer • une solution à ce défi de manière fiable, rapide, et pouvant passer à l'échelle • en s'appuyant sur les dernières avancées d'apprentissage automatique. 3 Département des outils d’aide à la décision
  4. GROBID pour exploiter gisement des publications scientifiques GROBID (GeneRation Of

    BIbliographic Data) vise à proposer • une solution à ce défi de manière fiable, rapide, et pouvant passer à l'échelle • en s'appuyant sur les dernières avancées d'apprentissage automatique. 4 Département des outils d’aide à la décision
  5. De nombreux utilisateurs publics et privés • nombreux fournisseurs de

    services d'information scientifique à grande échelle • des chercheurs et des start-up pour extraire des métadonnées structurées ou enrichir le contenu textuel. • GROBID a un impact sur des millions d'utilisateurs chaque année. • faciliter d’utilisation (docker) 5 Département des outils d’aide à la décision
  6. GROBID au MESR pour aider au pilotage de politique publique

    • Le MESR développe le Baromètre de la Science Ouverte pour suivre l’ouverture des productions scientifiques et piloter son politique publique • GROBID couplé à des techniques d’analyse sémantique du full-text permet de repérer les mentions de jeux de données et de logiciels dans le texte des publications 6 Département des outils d’aide à la décision
  7. GROBID au MESR pour aider au pilotage de politique publique

    7 Département des outils d’aide à la décision
  8. GROBID au MESR pour aider au pilotage de politique publique

    • Le MESR développe le Baromètre de la Science Ouverte pour suivre l’ouverture des productions scientifiques et piloter son politique publique • GROBID couplé à des techniques d’analyse sémantique du full-text permet de repérer les mentions de jeux de données et de logiciels dans le texte des publications 8 Département des outils d’aide à la décision
  9. GROBID au MESR pour aider au pilotage de politique publique

    9 Département des outils d’aide à la décision Données non définitives
  10. GROBID un catalyseur de l'open source ? • GROBID un

    outil pour aider à renforcer des communautés trans-disciplinaire en détectant des usages communs de logiciels open source • GROBID pour aider à repérer des vulnérabilités de certaines communautés vis à vis de logiciels open source fragiles, dans le même esprit que le récent "Securing Open Source Software Act" du sénat américain adopté en réponse à la faille sur log4j. 10 Département des outils d’aide à la décision