: JRES 2013, Quantifier les accès à la documentation numérique payante : un panorama des enjeux (Monique Joly, Grégory Colcanap, Thomas Porquet) • 70 millions € ESR en 2013 • 4 leaders se partagent 50 % du marché • baisse de budget de 9% des bib en 2013 • coût en Augmentation de 3,5 % par an • besoin de lier usage et usager sans donner l’information aux éditeurs.
(en tant qu’opérateur technique des portails) dispose : • De logs de consultations grâce au reverse proxy • Des identifications des unités utilisatrices • NUM_STAT : • Création en 2009 (suite de portail_stat) • Base des logs traités par les parseurs écrits en PHP • petits programmes qui déchiffrent les logs bruts pour en sortir les informations importantes : plateformes; revues; issn; type de consultation; date; unité qui consulte • 1 table en base de données par année et par portail
à partir de NUM_STAT font envie à tous les gestionnaires de ressources électroniques lors des présentations externes • La solution statistiques locales est viable • Il n'existe pas de logiciel qui réponde complètement à ce besoin spécifique • La maintenance de l'applicatif au niveau INIST- CNRS est très lourde : souvent dans le rouge Constats NUM_STAT (2009-2012)
/ AnalogIST Vision du produit "ezPAARSE permet l’analyse, l’enrichissement et l’exploitation des logs d’accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs. Les utilisateurs d’ezPAARSE sont les services de documentation de l’ enseignement supérieur et de la recherche (ESR). Les premiers utilisateurs seront l’INIST-CNRS et la direction de la documentation et de l'édition de l’Université de Lorraine en partenariat avec COUPERIN. ezPAARSE répond aux besoins suivants : • ...." Liste des fonctionnalités Product Backlog d'ezPAARSE (EPIC) 1- Instance nationale publique ezPAARSE 2- Organisation fonctionnelle du réseau ezPAARSE 3- Instance locale ezPAARSE 4- Recommandations COUNTER 5 - Interopérabilité avec MESURE 6- Reconnaissance du format de la ligne de log .... Priorisées Estimées Mai 2012
En méthode agile, à chaque sprint peut correspondre une version du produit, En voici la liste qui a conduit à la version 1.0 d’ezPAARSE : • ezPAARSE 0.1 du 12/11/2012 au 06/12/2012 - Produit Minimum Viable • 0.2 du 10/12/2012 au 20/12/2012 - Installation générique • 0.3 du 07/01/2013 au 31/01/2013 - Extension du domaine des parseurs • 0.4 du 04/02/2013 au 21/02/2013 - Extension des cas d'usage • 0.5 du 04/03/2013 au 27/03/2013 - Utilisabilité d'ezPAARSE • 0.6 du 02/04/2013 au 18/04/2013 - Consolidation des reconnaissances de plateforme • 0.7 du 21/04/2013 au 05/06/2013 - Consolidation du coeur • 0.8 du 10/06/2013 au 27/06/2013 - Qualification des utilisateurs • ezPAARSE 1.0 du 01/07/2013 au 08/08/2013 - Dédoublonnage COUNTER des EC
...et tout est planifié En voici la liste qui conduira à la version 2.0 d’ezPAARSE : • ezPAARSE 1.1 du 09/09/2013 au 10/10/2013 - MVP de synchronisation des PKB • 1.2 du 14/10/2013 au 14/11/2013 - Sécurisation • 1.3 du 18/11/2013 au 19/12/2013 - Multilinguisme • 1.4 du 23/12/2013 au 23/01/2014 - Export COUNTER • 1.5 du 27/01/2014 au 20/02/2014 - Intitulé à déterminer • 1.6 du 24/02/2014 au 27/03/2014 - Intitulé à déterminer • 1.7 du 31/03/2014 au 24/04/2014 - Intitulé à déterminer • 1.8 du 28/04/2014 au 22/05/2014 - Intitulé à déterminer • et enfin : 1.9 du 26/05/2014 au 26/06/2014 - Intitulé à déterminer
logiciel (ez : easy / PAARSE : Progiciel d'Analyse des Accès aux RessourceS Electroniques) ◦ - en version locale : in situ ◦ - en version globale : SaaS • AnalogIST : le portail collaboratif (Analyse des Logs de l'IST) national, lieu de publication des analyses de plateforme, synchronisable avec les instances locales, installées au sein des institutions intéressées ezPAARSE et AnalogIST
/ws fichier log utilisation d'un formulaire d'envoi de fichier EC partie web EC partie URL EC partie utilisateur Evénement de Consultation (EC) complet Référentiel utilisateurs parseurs des URL des plateformes URL EC url Login utilisateur EC utilisateur Evénements de Consultations lignes de log HTML API Base de connaissance éditeurs cairn.csv cairn.json identifiant éditeur identifiant normalisé Filtrage des lignes non significatives JS, JPG, PNG, ... Découpage EC résultats fichier CSV
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Login utilisateur IP machine utilisateur Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Version de navigateur Détail d’une ligne de log
[10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Date de la requête Login utilisateur IP machine utilisateur Page consultée Code retour HTTP Taille de la requête Site référent Version de navigateur Où sont les informations documentaires ?
2-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123dbff 3/1-s2.0-S0001457512000747-main.pdf ISSN & type du fichier consulté Structure d'une URL
d'URL •Cairn = une structure d'URL •… •Chaque plate-forme possède sa structure d'URL •Écriture d'un parseur par plate-forme Une structure d’URL par plate-forme
http://www.springerlink. com/content/j5q872410p510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement Limites de l’analyse des URLs
•Optimale si multi-établissements •Fortement mutualisable •~ 5 jours par plateforme L’analyse des plateformes éditeur L’étape d’analyse des plateformes est très importante pour que le projet vive.
projet • Présentation d’ezPAARSE/AnalogIST • Coeur d’ezPAARSE : les parseurs • Exploitation des résultats • Écosystème d’ezPAARSE Exploitation des résultats
◦ Documentalistes ◦ Négociateurs • Interactions ◦ Analyses des plateformes (D) ◦ Développement des parsers (I) ◦ Production d’indicateurs (N) Métiers et interactions
un logiciel libre ◦ Facile à installer et multi-plateforme ◦ Utilisant des technologies innovantes • AnalogIST c’est le réseau des ezPAARSE facilitant ◦ Les liens entre informaticiens et documentalistes ◦ Les contributions multi-métiers • Tout ceci répond à un besoin des bibliothèques : ◦ Mesurer les usages de ressources numériques très coûteuses