Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Formation ENSSIB - Le projet ezPAARSE

Formation ENSSIB - Le projet ezPAARSE

Support de formation pour le stage sur les "Statistiques d'utilisation des ressources documentaires électroniques : recueil, analyse, interprétation".

Présentation du projet ezPAARSE - AnalogIST.

Stéphane Gully

January 22, 2014
Tweet

More Decks by Stéphane Gully

Other Decks in Technology

Transcript

  1. Formation ENSSIB - 22 janvier 2014
    Le projet
    ezPAARSE / AnalogIST

    View Slide

  2. Formation ENSSIB - 22 janvier 2014

    Stéphane Gully


    Cécilia Fabry


    Thomas Porquet

    Qui sommes nous ?

    View Slide

  3. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Plan

    View Slide

  4. Formation ENSSIB - 22 janvier 2014
    Rappel du besoin
    Cf : JRES 2013, Quantifier les accès à la
    documentation numérique payante : un panorama des
    enjeux
    (Monique Joly, Grégory Colcanap, Thomas Porquet)
    ● 70 millions € ESR en 2013
    ● 4 leaders se partagent 50 % du marché
    ● baisse de budget de 9% des bib en 2013
    ● coût en Augmentation de 3,5 % par an
    ● besoin de lier usage et usager sans donner l’information
    aux éditeurs.

    View Slide

  5. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Plan

    View Slide

  6. Formation ENSSIB - 22 janvier 2014
    Portails INIST

    View Slide

  7. Formation ENSSIB - 22 janvier 2014
    Éditeur
    Chercheur
    Des revues
    lui sont présentées.
    Portails INIST

    View Slide

  8. Formation ENSSIB - 22 janvier 2014
    Fonctionnement d'EZProxy
    Client EZproxy
    HTTP HTTP
    HTML*
    PDF
    Éditeur
    Réécriture
    transparente des
    URL
    HTML
    PDF

    View Slide

  9. Formation ENSSIB - 22 janvier 2014
    Historique (2006-2009)

    L’INIST (en tant qu’opérateur technique des
    portails) dispose :

    De logs de consultations grâce au reverse proxy

    Des identifications des unités utilisatrices

    NUM_STAT :

    Création en 2009 (suite de portail_stat)

    Base des logs traités par les parseurs écrits en PHP

    petits programmes qui déchiffrent les logs bruts pour en sortir les informations
    importantes : plateformes; revues; issn; type de consultation; date; unité qui consulte

    1 table en base de données par année et par portail

    View Slide

  10. Formation ENSSIB - 22 janvier 2014

    Les indicateurs produits à partir de NUM_STAT
    font envie à tous les gestionnaires de ressources
    électroniques lors des présentations externes

    La solution statistiques locales est viable

    Il n'existe pas de logiciel qui réponde complètement
    à ce besoin spécifique

    La maintenance de l'applicatif au niveau INIST-
    CNRS est très lourde : souvent dans le rouge
    Constats
    NUM_STAT (2009-2012)

    View Slide

  11. Formation ENSSIB - 22 janvier 2014
    Démarche projet

    Historique

    Démarche projet

    Présentation d’ezpaarse/analogist

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE

    View Slide

  12. Formation ENSSIB - 22 janvier 2014
    Initiation du projet ezPAARSE / AnalogIST
    Vision du produit
    "ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des
    logs d’accès collectés localement aux ressources électroniques
    proposées par les plate-formes Web des éditeurs.
    Les utilisateurs d’ezPAARSE sont les services de documentation de l’
    enseignement supérieur et de la recherche (ESR). Les premiers
    utilisateurs seront l’INIST-CNRS et la direction de la
    documentation et de l'édition de l’Université de Lorraine en
    partenariat avec COUPERIN.
    ezPAARSE répond aux besoins suivants :
    ● ...."
    Liste des fonctionnalités
    Product Backlog d'ezPAARSE (EPIC)
    1- Instance nationale publique ezPAARSE
    2- Organisation fonctionnelle du réseau ezPAARSE
    3- Instance locale ezPAARSE
    4- Recommandations COUNTER
    5 - Interopérabilité avec MESURE
    6- Reconnaissance du format de la ligne de log ....
    Priorisées
    Estimées
    Mai 2012

    View Slide

  13. Formation ENSSIB - 22 janvier 2014
    La méthode agile de développement
    SCRUM

    View Slide

  14. Formation ENSSIB - 22 janvier 2014
    Les versions 0.x d'ezPAARSE
    En méthode agile, à chaque sprint peut correspondre
    une version du produit,
    En voici la liste qui a conduit à la version 1.0 d’ezPAARSE :
    ● ezPAARSE 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable
    ● 0.2 du 10/12/2012 au 20/12/2012 - Installation générique
    ● 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs
    ● 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage
    ● 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE
    ● 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme
    ● 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur
    ● 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs
    ● ezPAARSE 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC

    View Slide

  15. Formation ENSSIB - 22 janvier 2014
    Les versions 1.x d'ezPAARSE
    ...et tout est planifié
    En voici la liste qui conduira à la version 2.0 d’ezPAARSE :
    ● ezPAARSE 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB
    ● 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation
    ● 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme
    ● 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER
    ● 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer
    ● 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer
    ● 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer
    ● 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer
    ● et enfin : 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer

    View Slide

  16. Formation ENSSIB - 22 janvier 2014
    Produit minimal viable

    View Slide

  17. Formation ENSSIB - 22 janvier 2014
    Version en cours

    View Slide

  18. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Présentation d’ezPAARSE/AnalogIST

    View Slide

  19. Formation ENSSIB - 22 janvier 2014

    ezPAARSE : le logiciel
    (ez : easy / PAARSE : Progiciel d'Analyse des Accès
    aux RessourceS Electroniques)

    - en version locale : in situ

    - en version globale : SaaS

    AnalogIST : le portail collaboratif
    (Analyse des Logs de l'IST) national, lieu de
    publication des analyses de plateforme, synchronisable
    avec les instances locales, installées au sein des
    institutions intéressées
    ezPAARSE et AnalogIST

    View Slide

  20. Formation ENSSIB - 22 janvier 2014
    AnalogIST vs ezPAARSE
    Univ 1
    Univ 2
    ...
    AnalogIST
    instances
    locales
    instance nationale
    +
    espace collaboratif

    View Slide

  21. Formation ENSSIB - 22 janvier 2014
    Exemple d’utilisation d’ezPAARSE

    View Slide

  22. Formation ENSSIB - 22 janvier 2014
    Limites de la fédération d’identités
    Pas de logs locales car
    ezproxy court circuité

    View Slide

  23. Formation ENSSIB - 22 janvier 2014
    Limites de la fédération d’identités
    Ok, logs locales via
    ezproxy

    View Slide

  24. Formation ENSSIB - 22 janvier 2014
    Architecture d’ezPAARSE
    POST sur /ws
    fichier log
    utilisation d'un
    formulaire d'envoi de
    fichier
    EC partie
    web
    EC partie
    URL
    EC partie
    utilisateur
    Evénement de Consultation (EC) complet
    Référentiel
    utilisateurs
    parseurs des
    URL des
    plateformes
    URL
    EC url
    Login utilisateur
    EC utilisateur
    Evénements de
    Consultations
    lignes de log
    HTML
    API
    Base de connaissance
    éditeurs
    cairn.csv
    cairn.json
    identifiant
    éditeur
    identifiant
    normalisé
    Filtrage des lignes non
    significatives
    JS, JPG, PNG, ...
    Découpage
    EC résultats fichier
    CSV

    View Slide

  25. Formation ENSSIB - 22 janvier 2014
    Une interface ou des traitements planifiés
    VIA un formulaire Web En ligne de commande (cURL)

    View Slide

  26. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Coeur d’ezPAARSE : les parseurs

    View Slide

  27. Formation ENSSIB - 22 janvier 2014
    Un fichier de log
    145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HTTP/1.1" 200 1689
    "http://www.google.fr/?q=logiciel+libre" "IE6"
    66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HTTP/1.1" 200
    1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0"
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HTTP/1.1" 404 0 "http:
    //monsite.domaine.fr/data/page1.html" "Chrome"
    45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http:
    //monsite.domaine.fr/data/page2.html" "Safari/3.0"
    SG
    15/11/2012 Carrefour de l'IST

    View Slide

  28. Formation ENSSIB - 22 janvier 2014
    Détail d’une ligne de log
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    IP machine
    utilisateur

    View Slide

  29. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Login
    utilisateur
    IP machine
    utilisateur
    Détail d’une ligne de log

    View Slide

  30. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Détail d’une ligne de log

    View Slide

  31. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Détail d’une ligne de log

    View Slide

  32. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Code retour
    HTTP
    Détail d’une ligne de log

    View Slide

  33. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Code retour
    HTTP
    Taille de la
    requête
    Détail d’une ligne de log

    View Slide

  34. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Code retour
    HTTP
    Taille de la
    requête
    Site référent
    Détail d’une ligne de log

    View Slide

  35. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Code retour
    HTTP
    Taille de la
    requête
    Site référent
    Version de
    navigateur
    Détail d’une ligne de log

    View Slide

  36. Formation ENSSIB - 22 janvier 2014
    SG
    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200
    1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0"
    Date de la
    requête
    Login
    utilisateur
    IP machine
    utilisateur
    Page consultée
    Code retour
    HTTP
    Taille de la
    requête
    Site référent
    Version de
    navigateur
    Où sont les informations documentaires ?

    View Slide

  37. Formation ENSSIB - 22 janvier 2014
    Structure d'une URL
    http://pdn.sciencedirect.com/science?
    _ob=MiamiImageURL&_cid=271664&_user=4046
    427&_pii=S0001457512000747&_check=y&_origi
    n=browse&_zone=rslt_list_item&_coverDate=201
    2-07-31&wchp=dGLbVlt-
    zSkWb&md5=f5d8d157ccda6d597cb466af123dbff
    3/1-s2.0-S0001457512000747-main.pdf

    View Slide

  38. Formation ENSSIB - 22 janvier 2014
    http://pdn.sciencedirect.com/science?
    _ob=MiamiImageURL&_cid=271664&_user=4046
    427&_pii=S0001457512000747&_check=y&_origi
    n=browse&_zone=rslt_list_item&_coverDate=201
    2-07-31&wchp=dGLbVlt-
    zSkWb&md5=f5d8d157ccda6d597cb466af123dbff
    3/1-s2.0-S0001457512000747-main.pdf
    ISSN & type du fichier consulté
    Structure d'une URL

    View Slide

  39. Formation ENSSIB - 22 janvier 2014
    http://www.sciencedirect.com/science/journal/00014575
    ISSN
    En essayant l'URL manuellement on voit
    que c'est un sommaire HTML
    Structure d'une URL

    View Slide

  40. Formation ENSSIB - 22 janvier 2014
    http://www.cairn.info/load_pdf.php?
    ID_ARTICLE=RFG_218_0009
    Code éditeur ISSN
    RFG 0338-4551
    LMS 0027-2671
    ...
    Type PDF & ID éditeur
    Nécessite une table de correspondance
    pour décoder.
    Structure d'une URL

    View Slide

  41. Formation ENSSIB - 22 janvier 2014
    http://pdn.sciencedirect.com/science?
    _ob=MiamiImageURL&_cid=271664&_user=4046
    427&_pii=S0001457512000747&_check=y&_origi
    n=browse&_zone=rslt_list_item&_coverDate=201
    2-07-31&wchp=dGLbVlt-
    zSkWb&md5=f5d8d157ccda6d597cb466af123dbff
    3/1-s2.0-S0001457512000747-main.pdf
    /_pii=S([0-9]{0,7}[0-9X])/i
    Découper l’URL

    View Slide

  42. Formation ENSSIB - 22 janvier 2014
    ●Sciencedirect = une structure d'URL
    ●Cairn = une structure d'URL
    ●…
    ●Chaque plate-forme possède sa structure d'URL
    ●Écriture d'un parseur par plate-forme
    Une structure d’URL par plate-forme

    View Slide

  43. Formation ENSSIB - 22 janvier 2014
    Exemple chez Springer :
    http://www.springerlink.
    com/content/j5q872410p510m63/fulltext.pdf
    Exemple chez Cairn :
    http://www.cairn.info/load_pdf.php?
    ID_ARTICLE=RFG_218_0009
    URL opaques (session, cryptages)
    Bases de connaissances à compléter
    manuellement
    Limites de l’analyse des URLs

    View Slide

  44. Formation ENSSIB - 22 janvier 2014
    ●Réalisable par un documentaliste
    ●Optimale si multi-établissements
    ●Fortement mutualisable
    ●~ 5 jours par plateforme
    L’analyse des plateformes éditeur
    L’étape d’analyse des plateformes est très
    importante pour que le projet vive.

    View Slide

  45. Formation ENSSIB - 22 janvier 2014
    Code source d’un parseur

    View Slide

  46. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Exploitation des résultats

    View Slide

  47. Formation ENSSIB - 22 janvier 2014
    ezPAARSE : exploitation des résultats

    View Slide

  48. Formation ENSSIB - 22 janvier 2014
    Exploitation des résultats
    copie(s) écran visokio et/ou render excel

    View Slide

  49. Formation ENSSIB - 22 janvier 2014
    Exploitation des résultats

    View Slide

  50. Formation ENSSIB - 22 janvier 2014

    Historique

    Démarche projet

    Présentation d’ezPAARSE/AnalogIST

    Coeur d’ezPAARSE : les parseurs

    Exploitation des résultats

    Écosystème d’ezPAARSE
    Écosystème d’ezPAARSE

    View Slide

  51. Formation ENSSIB - 22 janvier 2014
    ● Métiers
    ○ Informaticiens
    ○ Documentalistes
    ○ Négociateurs
    ● Interactions
    ○ Analyses des plateformes (D)
    ○ Développement des parsers (I)
    ○ Production d’indicateurs (N)
    Métiers et interactions

    View Slide

  52. Formation ENSSIB - 22 janvier 2014
    ● Développement collaboratif (multi-métiers)
    ● Maintenance (prévisible donc doit être facilitée)
    ● Mutualisation (échelle internationale)
    ● Quelques réponses :
    ○ Méthode agile
    ○ Logiciel libre
    ○ Qualité logicielle
    Besoins d’organisations

    View Slide

  53. Formation ENSSIB - 22 janvier 2014
    Qualité logicielle

    Multi-plateformes (Linux, MacOSX, Windows)

    Règles de codage (jshint)

    TDD, + 60 tests (mocha)

    Documentation intégrée (beautiful docs)

    Intégration continue (travis-ci)

    Scrum board (pivotal tracker)

    View Slide

  54. Formation ENSSIB - 22 janvier 2014
    Conclusion

    ezPAARSE est un logiciel libre

    Facile à installer et multi-plateforme

    Utilisant des technologies innovantes

    AnalogIST c’est le réseau des ezPAARSE facilitant

    Les liens entre informaticiens et documentalistes

    Les contributions multi-métiers

    Tout ceci répond à un besoin des bibliothèques :

    Mesurer les usages de ressources numériques très
    coûteuses

    View Slide

  55. Formation ENSSIB - 22 janvier 2014
    ezPAARSE / AnalogIST
    http://ezpaarse.couperin.org
    https://twitter.com/ezpaarse
    Des questions
    avant le TP ?

    View Slide