Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mesure des usages et présentation des projets M...

Mesure des usages et présentation des projets MESURE et AnalogIST / ezPAARSE

Présentation lors du Carrefour de l'IST - http://www.carrefourist.fr/

« Acquisitions et accès aux ressources électroniques : quel futur ? »

Avatar for Stéphane Gully

Stéphane Gully

November 15, 2012
Tweet

More Decks by Stéphane Gully

Other Decks in Technology

Transcript

  1. Mesure des usages et présentation des projets MESURE et AnalogIST

    / ezPAARSE Carrefour de l'IST – novembre 2012 stephane.gully@inist.fr thomas.porquet@couperin.org TP
  2. 15/11/2012 Carrefour de l'IST 2 Un besoin attesté et récurrent

     Réaliser des statistiques d'utilisation – Récupérer, nettoyer, enrichir les données d'usage • Auprès des éditeurs (au format COUNTER dans le meilleur des cas) • Localement  Nos objectifs – Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage – Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision TP
  3. 15/11/2012 Carrefour de l'IST 3 Deux projets complémentaires  MESURE

    : un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs  Analog'IST / ezPAARSE : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement TP
  4. 15/11/2012 Carrefour de l'IST 4 MESURE : Le portail JUSP

    comme point de départ  JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs  Premier prototype 2009  148 établissements / 41 fournisseurs  Périmètre : – Seulement les rapports JR1 et JR1a – Via SUSHI TP
  5. 15/11/2012 Carrefour de l'IST 9 MESURE : un prototype en

    cours  Mutualisation et Evaluation des Statistiques d’Utilisation des Ressources Electroniques  Objectifs : – Implémenter le moissonnage automatique de rapports COUNTER via SUSHI – Stocker les données disponibles de 2009 à aujourd'hui – Point d'accès unique à nos membres – Fournir une mise en forme simple et pratique des données TP
  6. 15/11/2012 Carrefour de l'IST 10 Le périmètre de notre prototype

     4 éditeurs : – IOP (electronic journal et science) – Elsevier (ScienceDirect) – Springer (Metapress) – American Chemical Society (ACS)  5 établissements : – Bordeaux 1, – Rennes 1, – Paris 5, – Toulouse 3 et – UL (i.e. Nancy 1, Nancy 2, Metz, INPL) TP
  7. 15/11/2012 Carrefour de l'IST 16 MESURE : le détail par

    titre de l'usage courant / archive Courant et archive agrégés Archive seulement Courant seulement TP
  8. 15/11/2012 Carrefour de l'IST 18 À ce jour  Le

    prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées  Le prototype sera soumis à la validation du Groupe de Travail COUPERIN  Puis élargissement du périmètre : – À d'autres établissements membres de COUPERIN – À d'autres fournisseurs qui ont implémenté la norme COUNTER TP
  9. 15/11/2012 Carrefour de l'IST 19 AnalogIST / ezPAARSE  AnalogIST

    - Analyse des logs de l'IST  EzPAARSE - easy / Progiciel d'Analyse des Accès aux RessourceS Electroniques  Idée : une plateforme logicielle intitulée ezPAARSE servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG
  10. 15/11/2012 Carrefour de l'IST 20 Le point de départ :

    L'existant à l'INIST  Pour le suivi de ses BiblioSites thématiques, l'INIST met en place un groupe statistiques en 2006 – 3 utilisateurs – 1 informaticien  et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy – Parseurs (un par plateforme éditeur) – Tests manuels de validation SG
  11. 15/11/2012 Carrefour de l'IST 21 Le cœur du travail :

    l'analyse de lignes de log 145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HTTP/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HTTP/1.1" 404 0 "http://monsite.domaine.fr/data/page1.html" "Chrome" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Safari/3.0" SG
  12. 15/11/2012 Carrefour de l'IST 22 L'analyse de lignes de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur SG
  13. 15/11/2012 Carrefour de l'IST 23 Contenu d'une ligne de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur SG
  14. 15/11/2012 Carrefour de l'IST 24 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Contenu d'une ligne de log SG
  15. 15/11/2012 Carrefour de l'IST 25 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Page consultée Contenu d'une ligne de log SG
  16. 15/11/2012 Carrefour de l'IST 26 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Contenu d'une ligne de log SG
  17. 15/11/2012 Carrefour de l'IST 27 Contenu d'une ligne de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Taille de la requête Référent Version de navigateur SG
  18. 15/11/2012 Carrefour de l'IST 30 Fonctionnement d'EZProxy Client EZproxy HTTP

    HTTP HTML* PDF Éditeur Réécriture transparente des URL HTML PDF SG
  19. 15/11/2012 Carrefour de l'IST 31 Logs générés par EZProxy ISSN

    = 0001-4575 id PDF = 01 126.10.7.11 – stephane.gully@inist.fr [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993 126.10.7.11 – stephane.gully@inist.fr [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935 SG
  20. 15/11/2012 Carrefour de l'IST 32 Avantages d'EZProxy  Transparent pour

    l'utilisateur  Pré-configuré pour les grands éditeurs  Flexible pour l'authentification  Possibilité de mesure des consultations SG
  21. 15/11/2012 Carrefour de l'IST 33 Mesures locales des consultations Analyse

    des logs EZproxy permet de : – Compter les consultations par éditeurs – Compter les consultations par revues – Compter les consultations par articles Chiffres utiles pour : – Évaluation des campagnes de tests d'abonnements – Choix des abonnements pour le CNRS/ESR – Négocier les tarifs avec les éditeurs Par individu Par laboratoire Par « groupe » SG
  22. 15/11/2012 Carrefour de l'IST 35 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40

    46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf SG
  23. 15/11/2012 Carrefour de l'IST 36 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40

    46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf ISSN & type du fichier consulté SG
  24. 15/11/2012 Carrefour de l'IST 38 Structure d'une URL http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009

    Code éditeur ISSN RFG 0338-4551 LMS 0027-2671 ... Type PDF & ID éditeur Nécessite une base de connaissances pour décoder. SG
  25. 15/11/2012 Carrefour de l'IST 39 Découper l'URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&

    _origin=browse&_zone=rslt_list_item&_coverDa te=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf /_pii=S([0-9]{0,7}[0-9X])/i SG
  26. 15/11/2012 Carrefour de l'IST 40 Une structure d'URL par plate-forme

     Sciencedirect = une structure d'URL  Cairn = une structure d'URL  …  Chaque plate-forme possède sa structure d'URL  Un système de reconnaissance d'URL par plate-forme  Écriture d'un : parseur / module / plugin SG
  27. 15/11/2012 Carrefour de l'IST 41 Limites de l'analyse des URLs

    Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement SG
  28. 15/11/2012 Carrefour de l'IST 42 Processus d'analyse des logs Travail

    d'enrichissement manuel mais peut être réalisé collaborativement Développement peut être réalisé collaborativement SG
  29. 15/11/2012 Carrefour de l'IST 43 Le point de départ du

    projet  L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique  L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés TP
  30. 15/11/2012 Carrefour de l'IST 44 Analog'IST / ezPAARSE  Une

    mutualisation à plusieurs endroits : – Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) – Partage des parseurs utilisés – Conception collaborative de nouveaux parseurs – Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée TP
  31. 15/11/2012 Carrefour de l'IST 45 Le calendrier  Réunion de

    faisabilité en novembre 2011 – Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations  Seconde réunion début janvier 2012  Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges  Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire  Novembre : lancement officiel de l'implémentation TP
  32. 15/11/2012 Carrefour de l'IST 46 La vision du produit 

    Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs  Utilisateurs à terme : les SCD de l'ESR  Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'UL en partenariat avec Couperin TP
  33. 15/11/2012 Carrefour de l'IST 47 Une réponse aux besoins 

    Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : – Des groupes d'usagers – Des champs disciplinaires – Sur des périodes de temps définies  Permettre la construction d'indicateurs homogènes, à partir de traitements communs  Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques TP
  34. 15/11/2012 Carrefour de l'IST 48 Fonctionnalités principales (1/2) • Reconnaissance

    des consultations par éditeurs à l'aide de modules spécifiques (parseurs) • Traitement des logs en suivant les recommandations COUNTER • Utilisation de référentiels d'ezPAARSE (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l’outil TP
  35. 15/11/2012 Carrefour de l'IST 49 Fonctionnalités principales (2/2) • Interface

    Web pour la correction et l'enrichissement des référentiels d'ezPAARSE • Génération de rapports d'exécution compilés • API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples • Détection des anomalies dans les logs avec système d’alerte TP
  36. 15/11/2012 Carrefour de l'IST 50 Attention ! EzPAARSE n'est pas

    : • Un outil d'analyse ou de visualisation des statistiques • en entrée : un fichier log «brut » • en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés • Un producteur de logs TP
  37. 15/11/2012 Carrefour de l'IST 51 Modalités du développement  Logiciel

    libre – Partage / élargissement des partenariats – Diffusion du code source à la communauté  Facile à déployer par les différents utilisateurs de l'ESR  Modèle SaaS à mettre en perspective dans les différentes phases de développement  Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 ETP informaticiens TP
  38. 15/11/2012 Carrefour de l'IST 52 Conclusion / perspectives  Des

    réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau  Les avancées seront documentées et diffusées  Les premières instances d'ezPAARSE qui constituent le point de départ du dispositif AnalogIST seront déployées à l'INIST et à l'UL TP
  39. 15/11/2012 Carrefour de l'IST 53 Les premières priorités (1/2) 

    14 « items » ont été dégagés – Instance nationale publique AnalogIST – Organisation fonctionnelle du réseau AnalogIST – Instance locale ezPAARSE – Recommandations COUNTER (dédoublonnage) – Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezPAARSE, non encore spécifiée) – Reconnaissance du format de la ligne de log – Reconnaissance de l'URL de la plateforme TP
  40. 15/11/2012 Carrefour de l'IST 54 Les premières priorités (2/2) –

    Utilisation de référentiels éditeurs – Utilisation de référentiels de qualification des ressources – Utilisation de référentiels de qualification des utilisateurs – Interface Web pour correction et enrichissement des référentiels importants – Interface WS – Interface Web pour injection des logs – Détection des anomalies TP