Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ezPAARSE - Outil d'évaluation de l'usage des ressources numériques

ezPAARSE - Outil d'évaluation de l'usage des ressources numériques

Le duo AnalogIST / ezPAARSE permet d'évaluer l’usage des ressources numériques en exploitant une des caractéristiques techniques de la mise à disposition des ressources numériques : le contrôle d’accès via des proxies.

AnalogIST (http://analogist.couperin.org) a pour objectif de décrire et coordonner le travail d’analyse des fichiers de logs générés au sein des établissements par les proxies. Le progiciel libre ezPAARSE (développé à l’INIST-CNRS et écrit entièrement en javascript) y est d’ores et déjà en ligne et fonctionnel.

Le point de départ de ce travail est la présence d’informations précises et exploitables dans ces fichiers de logs bruts, telles que :
- le login, pour l'identification de l'institution et la discipline scientifique de l’utilisateur,
- l'URL du PDF de l'article téléchargé par le login en question, pour l'identification de la revue consultée.

Le travail d’ezPAARSE consiste à extraire ces informations et les enrichir au sein d’événements de consultation puis de les délivrer sous forme d’un fichier “propre” au format texte CSV qui servira de base à la réalisation de statistiques d’usages locales et maîtrisées au niveau de détail voulu.

Nous souhaitons mutualiser le travail d'analyse des logs : les utilisateurs peuvent déployer ezPAARSE au sein de leur établissement et réaliser leurs propres analyses. Les programmes, appelés "parseurs", chargés de découper les URL imposent une maintenance régulière qui nécessite des compétences documentalistes (analyse des plateformes éditeurs) et informatiques (implantation des programmes).

Stéphane Gully

December 12, 2013
Tweet

More Decks by Stéphane Gully

Other Decks in Technology

Transcript

  1. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Plan
  2. JRES - Montpellier - 12/12/2013 Rappel du besoin • Cf

    : Quantifier les accès à la documentation numérique payante : un panorama des enjeux (Monique Joly, Grégory Colcanap, Thomas Porquet)
  3. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Plan
  4. JRES - Montpellier - 12/12/2013 Fonctionnement d'EZProxy Client EZproxy HTTP

    HTTP HTML* PDF Éditeur Réécriture transparente des URL HTML PDF
  5. JRES - Montpellier - 12/12/2013 • Les indicateurs produits à

    partir de NUM_STAT font envie à tous les gestionnaires de ressources électroniques lors des communications • La solution statistiques locales est viable • Il n'existe pas de logiciel qui réponde complètement à ce besoin • La maintenance de l'applicatif au niveau INIST-CNRS est très lourde : souvent dans le rouge Constats NUM_STAT (2009-2012)
  6. JRES - Montpellier - 12/12/2013 Démarche projet • Historique •

    Démarche projet • Présentation d’ezpaarse/analogist • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE
  7. JRES - Montpellier - 12/12/2013 Initiation du projet ezPAARSE /

    AnalogIST Vision du produit "ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des logs d’accès collectés localement aux ressources électroniques proposées par les plate- formes Web des éditeurs. Les utilisateurs d’ezPAARSE sont les services de documentation de l’ enseignement supérieur et de la recherche (ESR). Les premiers utilisateurs seront l’INIST-CNRS et la direction de la documentation et de l'édition de l’ Université de Lorraine en partenariat avec COUPERIN. ezPAARSE répond aux besoins suivants : ...." Liste des fonctionnalités Product Backlog d'ezPAARSE (EPIC) 1. Instance nationale publique ezPAARSE 2. Organisation fonctionnelle du réseau ezPAARSE 3. Instance locale ezPAARSE 4. Recommandations COUNTER 5. Interopérabilité avec MESURE 6. Reconnaissance du format de la ligne de log .... Priorisées Estimées Mai 2012
  8. JRES - Montpellier - 12/12/2013 Les versions 0.x d'ezPAARSE En

    méthode agile, à chaque sprint peut correspondre une version du produit, En voici la liste qui a conduit à la version 1.0 d’ezPAARSE : • 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable • 0.2 du 10/12/2012 au 20/12/2012 - Installation générique • 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs • 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage • 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE • 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme • 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur • 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs • 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC
  9. JRES - Montpellier - 12/12/2013 Les versions 1.x d'ezPAARSE ...et

    tout est planifié En voici la liste qui conduira à la version 2.0 d’ezPAARSE : • 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB • 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation • 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme • 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER • 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer • 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer • 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer • 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer • 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer
  10. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Présentation d’ezPAARSE/AnalogIST
  11. JRES - Montpellier - 12/12/2013 • ezPAARSE : le logiciel

    (ez : easy / PAARSE : Progiciel d'Analyse des Accès aux RessourceS Electroniques) • en version locale : in situ • en version globale : SaaS • AnalogIST : le portail collaboratif (Analyse des Logs de l'IST) national, lieu de publication des analyses de plateforme, synchronisable avec les instances locales, installées au sein des institutions intéressées. ezPAARSE et AnalogIST
  12. JRES - Montpellier - 12/12/2013 AnalogIST vs ezPAARSE Univ 1

    Univ 2 ... AnalogIST instances locales instance nationale + espace collaboratif
  13. JRES - Montpellier - 12/12/2013 Exemple d’utilisation d’ezPAARSE EZProxy, Bibliopam,

    ou Squid ... log Éditeurs de littérature scientifique 1 fois / jour Bases de connaissances Parseurs ezPAARSE outils de visualisation EC Évènements de consultation accès à la ressource par un chercheur LDAP
  14. JRES - Montpellier - 12/12/2013 Architecture POST sur /ws fichier

    log utilisation d'un formulaire d'envoi de fichier EC partie Web EC partie URL EC partie utilisateur Évènement de Consultation (EC) complet Référentiel utilisateurs (LDAP) parseurs des URL des plateformes URL EC url Login utilisateur EC utilisateur Évènements de Consultations lignes de log HTML API Base de connaissance éditeurs cairn.csv cairn.json identifiant éditeur identifiant normalisé Filtrage des lignes non significatives JS, JPG, PNG, ... Découpage EC résultats fichier CSV
  15. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Coeur d’ezPAARSE : les parseurs
  16. JRES - Montpellier - 12/12/2013 Logs générés par EZProxy ISSN

    = 0001-4575 id PDF = 01 126.10.7.11 – [email protected] [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993 126.10.7.11 – [email protected] [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935
  17. JRES - Montpellier - 12/12/2013 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=4046427&_pi

    i=S0001457512000747&_check=y&_origin=browse&_zon e=rslt_list_item&_coverDate=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123dbff3/1-s2. 0-S0001457512000747-main.pdf
  18. JRES - Montpellier - 12/12/2013 http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009 Code éditeur ISSN RFG

    0338-4551 LMS 0027-2671 ... Type PDF & ID éditeur Nécessite une table de correspondance pour décoder. Structure d'une URL
  19. JRES - Montpellier - 12/12/2013 •Sciencedirect = une structure d'URL

    •Cairn = une structure d'URL •… •Chaque plate-forme possède sa structure d'URL •Écriture d'un parseur par plate-forme Une structure d’URL par plate-forme
  20. JRES - Montpellier - 12/12/2013 Exemple chez Springer : http://www.springerlink.com/content/j5q872410p510m63/fulltext.pdf

    Exemple chez Cairn : http://www.cairn.info/load_pdf.php?ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement Limites de l’analyse des URLs
  21. JRES - Montpellier - 12/12/2013 Une interface ou des traitements

    planifiés VIA un formulaire Web En ligne de commande (cURL)
  22. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Exploitation des résultats
  23. JRES - Montpellier - 12/12/2013 • Historique • Démarche projet

    • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Écosystème d’ezPAARSE
  24. JRES - Montpellier - 12/12/2013 • Métiers ◦ Informaticiens ◦

    Documentalistes ◦ Négociateurs • Interactions ◦ Analyses des plateformes (D) ◦ Développement des parseurs (I) ◦ Production d’indicateurs (N) Métiers et interactions
  25. Comité technique ezPAARSE 21/11/2013 • Développement collaboratif multi-métiers • Maintenance

    (prévisible donc doit être facilitée) • Mutualisation (échelle internationale) • Quelques réponses : ◦ Méthode agile ◦ Logiciel libre ◦ Qualité logicielle (ex: architecture modulaire/parseur multi-langages) Besoins d’organisations
  26. JRES - Montpellier - 12/12/2013 • Logiciel libre (licence CeCILL

    v2) : conçue conjointement par le CEA, le CNRS et l'INRIA, équivalent de la licence GPL en droit français • Licence à caractère "copyleft" (liberté de modification et de redistribution) héréditaire • Encourage et encadre ainsi les contributions dans un objectif de mutualisation (code et bases de connaissances). • Partage / élargissement des partenariats • Diffusion du code source à la communauté Logiciel libre
  27. JRES - Montpellier - 12/12/2013 • SGV, déploiement et intégration

    • Visibilité (valorisation des dev) • Workflow collaboratif ◦ Compte organisation (droits d’accès) ◦ Base de connaissance (pull request : parseur + pkb) ◦ Authentification déléguée (couplage avec AnalogIST) ◦ Issues (bugtracker) GitHub https://github.com/ezpaarse-project/
  28. JRES - Montpellier - 12/12/2013 ezPAARSE est écrit en javascript

    (NodeJS) NodeJS • Javascript côté serveur • Plate-forme polyvalente de développement d'applications réseau “scalable” • Construit sur le V8 de Google • Mono-thread • Événementiel, I/O non-bloquant • Gestion des “stream” facilitée Javascript (NodeJS)
  29. JRES - Montpellier - 12/12/2013 Bonnes pratiques • Règles de

    codage (jshint) • TDD, + 70 tests (mocha) • Documentation intégrée (beautiful docs) • Intégration continue (travis-ci) • Scrum board (pivotal tracker)
  30. JRES - Montpellier - 12/12/2013 En conclusion, pourquoi les JRES

    ? • ezPAARSE c’est un logiciel libre • Facile à installer et à tester (multi-plateforme) • Utilisant des technologies innovantes • Enjeux autour des ressources numériques • Acquisitions par les bibliothèques • Connaissance des usages au niveau ESR • Nous avons besoin de vous ! (le réseau) • Les documentalistes ont besoin des logs (admin sys) • Les contributions sont facilitées et attendues