Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GROBID : Mieux digérer les publications savante...

Avatar for BlueHats BlueHats
November 08, 2022

GROBID : Mieux digérer les publications savantes pour muscler les communautés open source scientifiques

Support de l'intervention d'Anne L'Hôte lors de la journée #BlueHats 2022.

Voir https://communs.numerique.gouv.fr/rencontres/.

Avatar for BlueHats

BlueHats

November 08, 2022
Tweet

More Decks by BlueHats

Other Decks in Technology

Transcript

  1. GROBID Mieux digérer les publications savantes pour muscler les communautés

    open source scientifiques 1 Département des outils d’aide à la décision Anne L’Hôte
  2. GROBID pour exploiter le gisement des publications scientifiques • une

    gigantesque source de données sur les activités de recherche ⇒ gisement naturel à exploiter pour le Ministère de l'Enseignement Supérieur et de la Recherche (MESR). • Du texte structuré pour les humains (titre, auteurs, abstract etc …) mais disponible (quasi) uniquement en PDF ⇒ une quantité importante de données peut-être perdue lors de l’exploitation automatique 2 Département des outils d’aide à la décision
  3. GROBID pour exploiter le gisement des publications scientifiques GROBID (GeneRation

    Of BIbliographic Data) vise à proposer • une solution à ce défi de manière fiable, rapide, et pouvant passer à l'échelle • en s'appuyant sur les dernières avancées d'apprentissage automatique. 3 Département des outils d’aide à la décision
  4. GROBID pour exploiter gisement des publications scientifiques GROBID (GeneRation Of

    BIbliographic Data) vise à proposer • une solution à ce défi de manière fiable, rapide, et pouvant passer à l'échelle • en s'appuyant sur les dernières avancées d'apprentissage automatique. 4 Département des outils d’aide à la décision
  5. De nombreux utilisateurs publics et privés • nombreux fournisseurs de

    services d'information scientifique à grande échelle • des chercheurs et des start-up pour extraire des métadonnées structurées ou enrichir le contenu textuel. • GROBID a un impact sur des millions d'utilisateurs chaque année. • faciliter d’utilisation (docker) 5 Département des outils d’aide à la décision
  6. GROBID au MESR pour aider au pilotage de politique publique

    • Le MESR développe le Baromètre de la Science Ouverte pour suivre l’ouverture des productions scientifiques et piloter son politique publique • GROBID couplé à des techniques d’analyse sémantique du full-text permet de repérer les mentions de jeux de données et de logiciels dans le texte des publications 6 Département des outils d’aide à la décision
  7. GROBID au MESR pour aider au pilotage de politique publique

    7 Département des outils d’aide à la décision
  8. GROBID au MESR pour aider au pilotage de politique publique

    • Le MESR développe le Baromètre de la Science Ouverte pour suivre l’ouverture des productions scientifiques et piloter son politique publique • GROBID couplé à des techniques d’analyse sémantique du full-text permet de repérer les mentions de jeux de données et de logiciels dans le texte des publications 8 Département des outils d’aide à la décision
  9. GROBID au MESR pour aider au pilotage de politique publique

    9 Département des outils d’aide à la décision Données non définitives
  10. GROBID un catalyseur de l'open source ? • GROBID un

    outil pour aider à renforcer des communautés trans-disciplinaire en détectant des usages communs de logiciels open source • GROBID pour aider à repérer des vulnérabilités de certaines communautés vis à vis de logiciels open source fragiles, dans le même esprit que le récent "Securing Open Source Software Act" du sénat américain adopté en réponse à la faille sur log4j. 10 Département des outils d’aide à la décision