Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mesure des usages et présentation des projets M...

Mesure des usages et présentation des projets MESURE et AnalogIST / ezPAARSE

Présentation lors du Carrefour de l'IST - http://www.carrefourist.fr/

« Acquisitions et accès aux ressources électroniques : quel futur ? »

Stéphane Gully

November 15, 2012
Tweet

More Decks by Stéphane Gully

Other Decks in Technology

Transcript

  1. 15/11/2012 Carrefour de l'IST 2 Un besoin attesté et récurrent

     Réaliser des statistiques d'utilisation – Récupérer, nettoyer, enrichir les données d'usage • Auprès des éditeurs (au format COUNTER dans le meilleur des cas) • Localement  Nos objectifs – Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage – Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision TP
  2. 15/11/2012 Carrefour de l'IST 3 Deux projets complémentaires  MESURE

    : un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs  Analog'IST / ezPAARSE : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement TP
  3. 15/11/2012 Carrefour de l'IST 4 MESURE : Le portail JUSP

    comme point de départ  JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs  Premier prototype 2009  148 établissements / 41 fournisseurs  Périmètre : – Seulement les rapports JR1 et JR1a – Via SUSHI TP
  4. 15/11/2012 Carrefour de l'IST 9 MESURE : un prototype en

    cours  Mutualisation et Evaluation des Statistiques d’Utilisation des Ressources Electroniques  Objectifs : – Implémenter le moissonnage automatique de rapports COUNTER via SUSHI – Stocker les données disponibles de 2009 à aujourd'hui – Point d'accès unique à nos membres – Fournir une mise en forme simple et pratique des données TP
  5. 15/11/2012 Carrefour de l'IST 10 Le périmètre de notre prototype

     4 éditeurs : – IOP (electronic journal et science) – Elsevier (ScienceDirect) – Springer (Metapress) – American Chemical Society (ACS)  5 établissements : – Bordeaux 1, – Rennes 1, – Paris 5, – Toulouse 3 et – UL (i.e. Nancy 1, Nancy 2, Metz, INPL) TP
  6. 15/11/2012 Carrefour de l'IST 16 MESURE : le détail par

    titre de l'usage courant / archive Courant et archive agrégés Archive seulement Courant seulement TP
  7. 15/11/2012 Carrefour de l'IST 18 À ce jour  Le

    prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées  Le prototype sera soumis à la validation du Groupe de Travail COUPERIN  Puis élargissement du périmètre : – À d'autres établissements membres de COUPERIN – À d'autres fournisseurs qui ont implémenté la norme COUNTER TP
  8. 15/11/2012 Carrefour de l'IST 19 AnalogIST / ezPAARSE  AnalogIST

    - Analyse des logs de l'IST  EzPAARSE - easy / Progiciel d'Analyse des Accès aux RessourceS Electroniques  Idée : une plateforme logicielle intitulée ezPAARSE servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG
  9. 15/11/2012 Carrefour de l'IST 20 Le point de départ :

    L'existant à l'INIST  Pour le suivi de ses BiblioSites thématiques, l'INIST met en place un groupe statistiques en 2006 – 3 utilisateurs – 1 informaticien  et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy – Parseurs (un par plateforme éditeur) – Tests manuels de validation SG
  10. 15/11/2012 Carrefour de l'IST 21 Le cœur du travail :

    l'analyse de lignes de log 145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HTTP/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HTTP/1.1" 404 0 "http://monsite.domaine.fr/data/page1.html" "Chrome" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Safari/3.0" SG
  11. 15/11/2012 Carrefour de l'IST 22 L'analyse de lignes de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur SG
  12. 15/11/2012 Carrefour de l'IST 23 Contenu d'une ligne de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur SG
  13. 15/11/2012 Carrefour de l'IST 24 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Contenu d'une ligne de log SG
  14. 15/11/2012 Carrefour de l'IST 25 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Page consultée Contenu d'une ligne de log SG
  15. 15/11/2012 Carrefour de l'IST 26 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200]

    "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Contenu d'une ligne de log SG
  16. 15/11/2012 Carrefour de l'IST 27 Contenu d'une ligne de log

    66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Taille de la requête Référent Version de navigateur SG
  17. 15/11/2012 Carrefour de l'IST 30 Fonctionnement d'EZProxy Client EZproxy HTTP

    HTTP HTML* PDF Éditeur Réécriture transparente des URL HTML PDF SG
  18. 15/11/2012 Carrefour de l'IST 31 Logs générés par EZProxy ISSN

    = 0001-4575 id PDF = 01 126.10.7.11 – [email protected] [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993 126.10.7.11 – [email protected] [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935 SG
  19. 15/11/2012 Carrefour de l'IST 32 Avantages d'EZProxy  Transparent pour

    l'utilisateur  Pré-configuré pour les grands éditeurs  Flexible pour l'authentification  Possibilité de mesure des consultations SG
  20. 15/11/2012 Carrefour de l'IST 33 Mesures locales des consultations Analyse

    des logs EZproxy permet de : – Compter les consultations par éditeurs – Compter les consultations par revues – Compter les consultations par articles Chiffres utiles pour : – Évaluation des campagnes de tests d'abonnements – Choix des abonnements pour le CNRS/ESR – Négocier les tarifs avec les éditeurs Par individu Par laboratoire Par « groupe » SG
  21. 15/11/2012 Carrefour de l'IST 35 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40

    46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf SG
  22. 15/11/2012 Carrefour de l'IST 36 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40

    46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf ISSN & type du fichier consulté SG
  23. 15/11/2012 Carrefour de l'IST 38 Structure d'une URL http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009

    Code éditeur ISSN RFG 0338-4551 LMS 0027-2671 ... Type PDF & ID éditeur Nécessite une base de connaissances pour décoder. SG
  24. 15/11/2012 Carrefour de l'IST 39 Découper l'URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&

    _origin=browse&_zone=rslt_list_item&_coverDa te=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf /_pii=S([0-9]{0,7}[0-9X])/i SG
  25. 15/11/2012 Carrefour de l'IST 40 Une structure d'URL par plate-forme

     Sciencedirect = une structure d'URL  Cairn = une structure d'URL  …  Chaque plate-forme possède sa structure d'URL  Un système de reconnaissance d'URL par plate-forme  Écriture d'un : parseur / module / plugin SG
  26. 15/11/2012 Carrefour de l'IST 41 Limites de l'analyse des URLs

    Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement SG
  27. 15/11/2012 Carrefour de l'IST 42 Processus d'analyse des logs Travail

    d'enrichissement manuel mais peut être réalisé collaborativement Développement peut être réalisé collaborativement SG
  28. 15/11/2012 Carrefour de l'IST 43 Le point de départ du

    projet  L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique  L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés TP
  29. 15/11/2012 Carrefour de l'IST 44 Analog'IST / ezPAARSE  Une

    mutualisation à plusieurs endroits : – Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) – Partage des parseurs utilisés – Conception collaborative de nouveaux parseurs – Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée TP
  30. 15/11/2012 Carrefour de l'IST 45 Le calendrier  Réunion de

    faisabilité en novembre 2011 – Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations  Seconde réunion début janvier 2012  Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges  Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire  Novembre : lancement officiel de l'implémentation TP
  31. 15/11/2012 Carrefour de l'IST 46 La vision du produit 

    Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs  Utilisateurs à terme : les SCD de l'ESR  Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'UL en partenariat avec Couperin TP
  32. 15/11/2012 Carrefour de l'IST 47 Une réponse aux besoins 

    Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : – Des groupes d'usagers – Des champs disciplinaires – Sur des périodes de temps définies  Permettre la construction d'indicateurs homogènes, à partir de traitements communs  Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques TP
  33. 15/11/2012 Carrefour de l'IST 48 Fonctionnalités principales (1/2) • Reconnaissance

    des consultations par éditeurs à l'aide de modules spécifiques (parseurs) • Traitement des logs en suivant les recommandations COUNTER • Utilisation de référentiels d'ezPAARSE (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l’outil TP
  34. 15/11/2012 Carrefour de l'IST 49 Fonctionnalités principales (2/2) • Interface

    Web pour la correction et l'enrichissement des référentiels d'ezPAARSE • Génération de rapports d'exécution compilés • API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples • Détection des anomalies dans les logs avec système d’alerte TP
  35. 15/11/2012 Carrefour de l'IST 50 Attention ! EzPAARSE n'est pas

    : • Un outil d'analyse ou de visualisation des statistiques • en entrée : un fichier log «brut » • en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés • Un producteur de logs TP
  36. 15/11/2012 Carrefour de l'IST 51 Modalités du développement  Logiciel

    libre – Partage / élargissement des partenariats – Diffusion du code source à la communauté  Facile à déployer par les différents utilisateurs de l'ESR  Modèle SaaS à mettre en perspective dans les différentes phases de développement  Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 ETP informaticiens TP
  37. 15/11/2012 Carrefour de l'IST 52 Conclusion / perspectives  Des

    réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau  Les avancées seront documentées et diffusées  Les premières instances d'ezPAARSE qui constituent le point de départ du dispositif AnalogIST seront déployées à l'INIST et à l'UL TP
  38. 15/11/2012 Carrefour de l'IST 53 Les premières priorités (1/2) 

    14 « items » ont été dégagés – Instance nationale publique AnalogIST – Organisation fonctionnelle du réseau AnalogIST – Instance locale ezPAARSE – Recommandations COUNTER (dédoublonnage) – Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezPAARSE, non encore spécifiée) – Reconnaissance du format de la ligne de log – Reconnaissance de l'URL de la plateforme TP
  39. 15/11/2012 Carrefour de l'IST 54 Les premières priorités (2/2) –

    Utilisation de référentiels éditeurs – Utilisation de référentiels de qualification des ressources – Utilisation de référentiels de qualification des utilisateurs – Interface Web pour correction et enrichissement des référentiels importants – Interface WS – Interface Web pour injection des logs – Détection des anomalies TP