Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ANF RNBM : Présentation de la plateforme ISTEX

ANF RNBM : Présentation de la plateforme ISTEX

A l'occasion de l'ANF organisée par le RNBM à Marseille sur le thème des "Bibliothèques de mathématiques de demain"

Stéphane Gully

November 16, 2015
Tweet

More Decks by Stéphane Gully

Other Decks in Research

Transcript

  1. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX
    INITIATIVE D’EXCELLENCE
    EN
    INFORMATION SCIENTIFIQUE ET TECHNIQUE
    LA PLATEFORME ISTEX

    View Slide

  2. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    Les chargements des données dans la plateforme
    Usage 1 : Outils de découvertes
    Usage 2 : Portails doc, CMS, ENT
    Enrichissements des données ISTEX
    Usage 3 : Extraction de corpus pour la recherche
    Le tout parsemé de démos
    DÉROULEMENT DE LA PRÉSENTATION

    View Slide

  3. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]






    • €
    QUELQUES RAPPELS

    View Slide

  4. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    CARTOGRAPHIE DES PROJETS
    Le
    SOCLE
    Reconstruction
    de Réf. citées
    Indexation
    automatique
    Extraction
    d’entités
    nommées
    Extraction
    terminologique
    ISTEX-R
    LOREXPLOR
    CELLO
    Chantiers d’
    usage
    HUB
    De
    Métadonnés

    View Slide

  5. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    ISTEX ARCHITECTURE
    Labos

    View Slide

  6. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ORGANISATION POUR
    CONSTRUIRE LA PLATEFORME
    ISTEX

    View Slide

  7. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    PÉRIMÈTRES DES ÉQUIPES INIST
    Labos
    ISTEX DATA ISTEX RD
    ISTEX API

    View Slide

  8. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ARTICULATION ENTRE LES ÉQUIPES
    ISTEX
    DATA
    ISTEX API
    ISTEX RD
    ABES
    Éditeurs ESR
    (meta) + ft
    meta + ft meta + ft
    m
    eta
    enrichissements
    Unités de
    recherche

    View Slide

  9. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    CADRE ORGANISATIONNEL : SCRUM
    Vision du produit
    « cadre de travail permettant de répondre à des
    problèmes complexes et changeants tout en
    livrant de manière productive et créative des
    produits de la plus grande valeur possible »
    Ken Schwaber & Jeff Sutherland
    sources wikipedia

    View Slide

  10. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]




    VALEURS AGILES, ÉTAT D’ESPRIT

    View Slide

  11. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    LES CHARGEMENTS DES DONNÉES
    DANS LA PLATEFORME

    View Slide

  12. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX L’INGESTION





    ❖ …



    View Slide

  13. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX CHARGEMENTS









    View Slide

  14. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    USAGE 1
    OUTILS DE DÉCOUVERTES

    View Slide

  15. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    Labos
    ISTEX ARCHITECTURE

    View Slide

  16. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    PRINCIPE D’UN DT
    formulaire de recherche
    click au choix sur un des
    moyens d’accéder à l’article
    étape pouvant être transparente en
    fonction de la configuration
    click sur “Aller au texte
    intégral” d’un article
    discovery tool
    outil de découverte
    link solver
    résolveur de lien

    View Slide

  17. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX DIFFUSION VIA LES DT
    Premier test avec EBSCO

    View Slide

  18. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    USAGE 2
    PORTAILS DOC, CMS, ENT

    View Slide

  19. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    Labos
    ISTEX ARCHITECTURE

    View Slide

  20. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    API ISTEX : ARCHITECTURE
    API ISTEX
    https://api.istex.fr
    PDF
    PDF
    PDF
    PDF
    PDF
    indexation
    GET /corpus/ GET /?q=nobel
    ex: revues et
    articles
    scientifiques

    View Slide

  21. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    API ISTEX : DOCUMENTATION

    View Slide

  22. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    API ISTEX : DOCUMENTATION
    API ISTEX
    ENT de l’UL
    Menu de navigation
    de l’ENT


    Ressources ISTEX


    ...
    AJAX ou
    JSONP
    http(s)://widgets.istex.fr/
    src="...”
    href="...”
    script.min.js
    style.min.css
    images.png
    http://ent.univ-lorraine.fr/
    https://api.istex.fr/

    View Slide

  23. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX DIFFUSION VIA WIDGETS
    Merci à Guillaume COLSON, Thomas FRANTZ et Julien Marchal
    de l’Université de Lorraine

    View Slide

  24. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ISTEX ELÉMENTS TECHNIQUES






    <br/>var istexConfig = {<br/>proxyApi: "https://api.istex.fr",<br/>};<br/>[<br/>"https://widgets.istex.fr/bower_components/bootstrap/dist/css/bootstrap.min.css",<br/>"https://widgets.istex.fr/bower_components/bootstrap/dist/css/bootstrap-theme.min.css",<br/>"https://widgets.istex.fr/slider/rzslider.css",<br/>"https://widgets.istex.fr/style.min.css"<br/>].forEach(function (href) {<br/>var link = document.createElement("link");<br/>link.href = href;<br/>link.rel = "stylesheet";<br/>document.head.appendChild(link);<br/>});<br/>




    Plus de détails et le code complet
    sur github

    View Slide

  25. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    INTÉGRATION VIA WIDGET DANS ENT

    View Slide

  26. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    Merci à Dominique ROUGER
    de l’ Université de Saint Etienne
    INTÉGRATION VIA API DANS ENT

    View Slide

  27. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    INTÉGRATION VIA API DANS DRUPAL
    Merci à Julien SICOT
    de l’Université de Rennes 2

    View Slide

  28. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    INTÉGRATION VIA API DANS DRUPAL
    Module Drupal – version 7 – Non encore publié

    View Slide

  29. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    ENRICHISSEMENTS
    DES DONNÉES ISTEX

    View Slide

  30. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    Labos
    ISTEX ARCHITECTURE

    View Slide

  31. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]



    JohnstoneI/persName>
    SilvermanB/persName>

    Ebayesthresh : R programs for empiracal bayse thresholding
    Journal of Statistical Software
    12
    8
    2005
    1-38

    REFERENCE RECOGNITION : GOAL
    Localisation
    Identification
    Structuration
    Cross-linking between documents
    Co-citation & Cited-by analysis

    View Slide

  32. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    3 tools
    Training corpus
    Training cycle
    Metrics
    REFERENCE RECOGNITION : METHOD

    View Slide

  33. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    EXTRACTION D’ENTITÉ NOMMÉE (1)
    Person: Albert EINSTEIN
    Marie CURIE
    Localisation: Paris
    Organisations: CNRS
    Funded_by ANR
    Date: 1905
    URL: www.istex.fr
    Refine by category
    Search in unstructured full-text

    View Slide

  34. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    EXTRACTION D’ENTITÉ NOMMÉE (2)

    View Slide

  35. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    TERMINOLOGY EXTRACTION: GOAL
    Refine by category
    Increase index quality

    View Slide

  36. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    TERMINOLOGY EXTRACTION: METHOD

    View Slide

  37. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    USAGE 3
    EXTRACTION DE CORPUS POUR LA
    RECHERCHE

    View Slide

  38. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    WILEY loader
    Stockage
    Standardisation
    (Mods+TEI)
    Indexation
    INGESTION
    Canaux Usages
    NORMALIZATION
    and
    ENRICHISSEMENTS
    DIFFUSION et SERVICES
    ( Reformatage )
    OAI PMH
    SPARQL ENDPOINT
    API Web
    REST/JSON
    METS, DC, PREMIS
    WIDGET
    S
    Portails
    ENT
    CMS
    ElasticSearch Discovery tools
    Projets de
    Recherche
    Archivage
    pérenne
    Enrichissements ISTEX
    Utilisateurs
    Labos
    Labos
    ISTEX ARCHITECTURE

    View Slide

  39. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    -
    npm install -g istex-api-harvester
    -
    istex-api-harvester -u [email protected] \
    -q '* AND categories.wos:("MATHEMATICS")' \
    --fulltext pdf \
    --size 10
    -
    POUR COMMENCER,
    EXTRACTION D’UN CORPUS

    View Slide

  40. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    CLASSIFICATION
    Automatically build on the results list by clustering

    View Slide

  41. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    Split
    Disappear
    Arrival
    Stable
    Period #1 Period #2
    DIACHRONIC MAPS CONSTRUCTION

    View Slide

  42. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    LOREXPLOR: PUTTING ISTEX IN THE HEART
    OF THE RESEARCH PRACTICES

    View Slide

  43. ANR-10-IDEX-0004-02 – 18 Novembre 2015 – CIRM2015 – MARSEILLE – Stéphane Gully – [email protected]
    [email protected]
    [email protected]
    [email protected]
    [email protected]
    @Projet_ISTEX or @istexdev
    http://www.istex.fr
    https://api.istex.fr
    http://demo.istex.fr

    View Slide