Réaliser des statistiques d'utilisation – Récupérer, nettoyer, enrichir les données d'usage • Auprès des éditeurs (au format COUNTER dans le meilleur des cas) • Localement Nos objectifs – Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage – Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision TP
: un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs Analog'IST / ezPAARSE : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement TP
comme point de départ JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs Premier prototype 2009 148 établissements / 41 fournisseurs Périmètre : – Seulement les rapports JR1 et JR1a – Via SUSHI TP
cours Mutualisation et Evaluation des Statistiques d’Utilisation des Ressources Electroniques Objectifs : – Implémenter le moissonnage automatique de rapports COUNTER via SUSHI – Stocker les données disponibles de 2009 à aujourd'hui – Point d'accès unique à nos membres – Fournir une mise en forme simple et pratique des données TP
prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées Le prototype sera soumis à la validation du Groupe de Travail COUPERIN Puis élargissement du périmètre : – À d'autres établissements membres de COUPERIN – À d'autres fournisseurs qui ont implémenté la norme COUNTER TP
- Analyse des logs de l'IST EzPAARSE - easy / Progiciel d'Analyse des Accès aux RessourceS Electroniques Idée : une plateforme logicielle intitulée ezPAARSE servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG
L'existant à l'INIST Pour le suivi de ses BiblioSites thématiques, l'INIST met en place un groupe statistiques en 2006 – 3 utilisateurs – 1 informaticien et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy – Parseurs (un par plateforme éditeur) – Tests manuels de validation SG
"GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Contenu d'une ligne de log SG
"GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Page consultée Contenu d'une ligne de log SG
"GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Contenu d'une ligne de log SG
66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Taille de la requête Référent Version de navigateur SG
des logs EZproxy permet de : – Compter les consultations par éditeurs – Compter les consultations par revues – Compter les consultations par articles Chiffres utiles pour : – Évaluation des campagnes de tests d'abonnements – Choix des abonnements pour le CNRS/ESR – Négocier les tarifs avec les éditeurs Par individu Par laboratoire Par « groupe » SG
Sciencedirect = une structure d'URL Cairn = une structure d'URL … Chaque plate-forme possède sa structure d'URL Un système de reconnaissance d'URL par plate-forme Écriture d'un : parseur / module / plugin SG
Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement SG
projet L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés TP
mutualisation à plusieurs endroits : – Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) – Partage des parseurs utilisés – Conception collaborative de nouveaux parseurs – Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée TP
faisabilité en novembre 2011 – Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations Seconde réunion début janvier 2012 Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire Novembre : lancement officiel de l'implémentation TP
Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs Utilisateurs à terme : les SCD de l'ESR Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'UL en partenariat avec Couperin TP
Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : – Des groupes d'usagers – Des champs disciplinaires – Sur des périodes de temps définies Permettre la construction d'indicateurs homogènes, à partir de traitements communs Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques TP
des consultations par éditeurs à l'aide de modules spécifiques (parseurs) • Traitement des logs en suivant les recommandations COUNTER • Utilisation de référentiels d'ezPAARSE (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l’outil TP
Web pour la correction et l'enrichissement des référentiels d'ezPAARSE • Génération de rapports d'exécution compilés • API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples • Détection des anomalies dans les logs avec système d’alerte TP
: • Un outil d'analyse ou de visualisation des statistiques • en entrée : un fichier log «brut » • en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés • Un producteur de logs TP
libre – Partage / élargissement des partenariats – Diffusion du code source à la communauté Facile à déployer par les différents utilisateurs de l'ESR Modèle SaaS à mettre en perspective dans les différentes phases de développement Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 ETP informaticiens TP
réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau Les avancées seront documentées et diffusées Les premières instances d'ezPAARSE qui constituent le point de départ du dispositif AnalogIST seront déployées à l'INIST et à l'UL TP
14 « items » ont été dégagés – Instance nationale publique AnalogIST – Organisation fonctionnelle du réseau AnalogIST – Instance locale ezPAARSE – Recommandations COUNTER (dédoublonnage) – Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezPAARSE, non encore spécifiée) – Reconnaissance du format de la ligne de log – Reconnaissance de l'URL de la plateforme TP
Utilisation de référentiels éditeurs – Utilisation de référentiels de qualification des ressources – Utilisation de référentiels de qualification des utilisateurs – Interface Web pour correction et enrichissement des référentiels importants – Interface WS – Interface Web pour injection des logs – Détection des anomalies TP