Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Formation ENSSIB - Le projet ezPAARSE

Formation ENSSIB - Le projet ezPAARSE

Support de formation pour le stage sur les "Statistiques d'utilisation des ressources documentaires électroniques : recueil, analyse, interprétation".

Présentation du projet ezPAARSE - AnalogIST.

Stéphane Gully

January 22, 2014
Tweet

More Decks by Stéphane Gully

Other Decks in Technology

Transcript

  1. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Plan
  2. Formation ENSSIB - 22 janvier 2014 Rappel du besoin Cf

    : JRES 2013, Quantifier les accès à la documentation numérique payante : un panorama des enjeux (Monique Joly, Grégory Colcanap, Thomas Porquet) • 70 millions € ESR en 2013 • 4 leaders se partagent 50 % du marché • baisse de budget de 9% des bib en 2013 • coût en Augmentation de 3,5 % par an • besoin de lier usage et usager sans donner l’information aux éditeurs.
  3. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Plan
  4. Formation ENSSIB - 22 janvier 2014 Fonctionnement d'EZProxy Client EZproxy

    HTTP HTTP HTML* PDF Éditeur Réécriture transparente des URL HTML PDF
  5. Formation ENSSIB - 22 janvier 2014 Historique (2006-2009) • L’INIST

    (en tant qu’opérateur technique des portails) dispose : • De logs de consultations grâce au reverse proxy • Des identifications des unités utilisatrices • NUM_STAT : • Création en 2009 (suite de portail_stat) • Base des logs traités par les parseurs écrits en PHP • petits programmes qui déchiffrent les logs bruts pour en sortir les informations importantes : plateformes; revues; issn; type de consultation; date; unité qui consulte • 1 table en base de données par année et par portail
  6. Formation ENSSIB - 22 janvier 2014 • Les indicateurs produits

    à partir de NUM_STAT font envie à tous les gestionnaires de ressources électroniques lors des présentations externes • La solution statistiques locales est viable • Il n'existe pas de logiciel qui réponde complètement à ce besoin spécifique • La maintenance de l'applicatif au niveau INIST- CNRS est très lourde : souvent dans le rouge Constats NUM_STAT (2009-2012)
  7. Formation ENSSIB - 22 janvier 2014 Démarche projet • Historique

    • Démarche projet • Présentation d’ezpaarse/analogist • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE
  8. Formation ENSSIB - 22 janvier 2014 Initiation du projet ezPAARSE

    / AnalogIST Vision du produit "ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des logs d’accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs. Les utilisateurs d’ezPAARSE sont les services de documentation de l’ enseignement supérieur et de la recherche (ESR). Les premiers utilisateurs seront l’INIST-CNRS et la direction de la documentation et de l'édition de l’Université de Lorraine en partenariat avec COUPERIN. ezPAARSE répond aux besoins suivants : • ...." Liste des fonctionnalités Product Backlog d'ezPAARSE (EPIC) 1- Instance nationale publique ezPAARSE 2- Organisation fonctionnelle du réseau ezPAARSE 3- Instance locale ezPAARSE 4- Recommandations COUNTER 5 - Interopérabilité avec MESURE 6- Reconnaissance du format de la ligne de log .... Priorisées Estimées Mai 2012
  9. Formation ENSSIB - 22 janvier 2014 Les versions 0.x d'ezPAARSE

    En méthode agile, à chaque sprint peut correspondre une version du produit, En voici la liste qui a conduit à la version 1.0 d’ezPAARSE : • ezPAARSE 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable • 0.2 du 10/12/2012 au 20/12/2012 - Installation générique • 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs • 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage • 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE • 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme • 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur • 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs • ezPAARSE 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC
  10. Formation ENSSIB - 22 janvier 2014 Les versions 1.x d'ezPAARSE

    ...et tout est planifié En voici la liste qui conduira à la version 2.0 d’ezPAARSE : • ezPAARSE 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB • 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation • 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme • 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER • 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer • 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer • 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer • 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer • et enfin : 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer
  11. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Présentation d’ezPAARSE/AnalogIST
  12. Formation ENSSIB - 22 janvier 2014 • ezPAARSE : le

    logiciel (ez : easy / PAARSE : Progiciel d'Analyse des Accès aux RessourceS Electroniques) ◦ - en version locale : in situ ◦ - en version globale : SaaS • AnalogIST : le portail collaboratif (Analyse des Logs de l'IST) national, lieu de publication des analyses de plateforme, synchronisable avec les instances locales, installées au sein des institutions intéressées ezPAARSE et AnalogIST
  13. Formation ENSSIB - 22 janvier 2014 AnalogIST vs ezPAARSE Univ

    1 Univ 2 ... AnalogIST instances locales instance nationale + espace collaboratif
  14. Formation ENSSIB - 22 janvier 2014 Limites de la fédération

    d’identités Pas de logs locales car ezproxy court circuité
  15. Formation ENSSIB - 22 janvier 2014 Limites de la fédération

    d’identités Ok, logs locales via ezproxy
  16. Formation ENSSIB - 22 janvier 2014 Architecture d’ezPAARSE POST sur

    /ws fichier log utilisation d'un formulaire d'envoi de fichier EC partie web EC partie URL EC partie utilisateur Evénement de Consultation (EC) complet Référentiel utilisateurs parseurs des URL des plateformes URL EC url Login utilisateur EC utilisateur Evénements de Consultations lignes de log HTML API Base de connaissance éditeurs cairn.csv cairn.json identifiant éditeur identifiant normalisé Filtrage des lignes non significatives JS, JPG, PNG, ... Découpage EC résultats fichier CSV
  17. Formation ENSSIB - 22 janvier 2014 Une interface ou des

    traitements planifiés VIA un formulaire Web En ligne de commande (cURL)
  18. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Coeur d’ezPAARSE : les parseurs
  19. Formation ENSSIB - 22 janvier 2014 Un fichier de log

    145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HTTP/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HTTP/1.1" 404 0 "http: //monsite.domaine.fr/data/page1.html" "Chrome" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http: //monsite.domaine.fr/data/page2.html" "Safari/3.0" SG 15/11/2012 Carrefour de l'IST
  20. Formation ENSSIB - 22 janvier 2014 Détail d’une ligne de

    log SG 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur
  21. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Login utilisateur IP machine utilisateur Détail d’une ligne de log
  22. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Détail d’une ligne de log
  23. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Détail d’une ligne de log
  24. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Détail d’une ligne de log
  25. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Détail d’une ligne de log
  26. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Détail d’une ligne de log
  27. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Version de navigateur Détail d’une ligne de log
  28. Formation ENSSIB - 22 janvier 2014 SG 66.130.77.181 - username

    [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Version de navigateur Où sont les informations documentaires ?
  29. Formation ENSSIB - 22 janvier 2014 Structure d'une URL http://pdn.sciencedirect.com/science?

    _ob=MiamiImageURL&_cid=271664&_user=4046 427&_pii=S0001457512000747&_check=y&_origi n=browse&_zone=rslt_list_item&_coverDate=201 2-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123dbff 3/1-s2.0-S0001457512000747-main.pdf
  30. Formation ENSSIB - 22 janvier 2014 http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=4046 427&_pii=S0001457512000747&_check=y&_origi n=browse&_zone=rslt_list_item&_coverDate=201

    2-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123dbff 3/1-s2.0-S0001457512000747-main.pdf ISSN & type du fichier consulté Structure d'une URL
  31. Formation ENSSIB - 22 janvier 2014 http://www.sciencedirect.com/science/journal/00014575 ISSN En essayant

    l'URL manuellement on voit que c'est un sommaire HTML Structure d'une URL
  32. Formation ENSSIB - 22 janvier 2014 http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 Code éditeur

    ISSN RFG 0338-4551 LMS 0027-2671 ... Type PDF & ID éditeur Nécessite une table de correspondance pour décoder. Structure d'une URL
  33. Formation ENSSIB - 22 janvier 2014 http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=4046 427&_pii=S0001457512000747&_check=y&_origi n=browse&_zone=rslt_list_item&_coverDate=201

    2-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123dbff 3/1-s2.0-S0001457512000747-main.pdf /_pii=S([0-9]{0,7}[0-9X])/i Découper l’URL
  34. Formation ENSSIB - 22 janvier 2014 •Sciencedirect = une structure

    d'URL •Cairn = une structure d'URL •… •Chaque plate-forme possède sa structure d'URL •Écriture d'un parseur par plate-forme Une structure d’URL par plate-forme
  35. Formation ENSSIB - 22 janvier 2014 Exemple chez Springer :

    http://www.springerlink. com/content/j5q872410p510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement Limites de l’analyse des URLs
  36. Formation ENSSIB - 22 janvier 2014 •Réalisable par un documentaliste

    •Optimale si multi-établissements •Fortement mutualisable •~ 5 jours par plateforme L’analyse des plateformes éditeur L’étape d’analyse des plateformes est très importante pour que le projet vive.
  37. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Exploitation des résultats
  38. Formation ENSSIB - 22 janvier 2014 • Historique • Démarche

    projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Écosystème d’ezPAARSE
  39. Formation ENSSIB - 22 janvier 2014 • Métiers ◦ Informaticiens

    ◦ Documentalistes ◦ Négociateurs • Interactions ◦ Analyses des plateformes (D) ◦ Développement des parsers (I) ◦ Production d’indicateurs (N) Métiers et interactions
  40. Formation ENSSIB - 22 janvier 2014 • Développement collaboratif (multi-métiers)

    • Maintenance (prévisible donc doit être facilitée) • Mutualisation (échelle internationale) • Quelques réponses : ◦ Méthode agile ◦ Logiciel libre ◦ Qualité logicielle Besoins d’organisations
  41. Formation ENSSIB - 22 janvier 2014 Qualité logicielle • Multi-plateformes

    (Linux, MacOSX, Windows) • Règles de codage (jshint) • TDD, + 60 tests (mocha) • Documentation intégrée (beautiful docs) • Intégration continue (travis-ci) • Scrum board (pivotal tracker)
  42. Formation ENSSIB - 22 janvier 2014 Conclusion • ezPAARSE est

    un logiciel libre ◦ Facile à installer et multi-plateforme ◦ Utilisant des technologies innovantes • AnalogIST c’est le réseau des ezPAARSE facilitant ◦ Les liens entre informaticiens et documentalistes ◦ Les contributions multi-métiers • Tout ceci répond à un besoin des bibliothèques : ◦ Mesurer les usages de ressources numériques très coûteuses
  43. Formation ENSSIB - 22 janvier 2014 ezPAARSE / AnalogIST http://ezpaarse.couperin.org

    https://twitter.com/ezpaarse Des questions avant le TP ?