Slide 1

Slide 1 text

Mesure des usages et présentation des projets MESURE et AnalogIST / ezPAARSE Carrefour de l'IST – novembre 2012 [email protected] [email protected] TP

Slide 2

Slide 2 text

15/11/2012 Carrefour de l'IST 2 Un besoin attesté et récurrent  Réaliser des statistiques d'utilisation – Récupérer, nettoyer, enrichir les données d'usage • Auprès des éditeurs (au format COUNTER dans le meilleur des cas) • Localement  Nos objectifs – Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage – Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision TP

Slide 3

Slide 3 text

15/11/2012 Carrefour de l'IST 3 Deux projets complémentaires  MESURE : un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs  Analog'IST / ezPAARSE : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement TP

Slide 4

Slide 4 text

15/11/2012 Carrefour de l'IST 4 MESURE : Le portail JUSP comme point de départ  JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs  Premier prototype 2009  148 établissements / 41 fournisseurs  Périmètre : – Seulement les rapports JR1 et JR1a – Via SUSHI TP

Slide 5

Slide 5 text

15/11/2012 Carrefour de l'IST 5 A quoi ça ressemble ? TP

Slide 6

Slide 6 text

15/11/2012 Carrefour de l'IST 6 Le JUSP : JR1 TP

Slide 7

Slide 7 text

15/11/2012 Carrefour de l'IST 7 Le JUSP : courant / archive TP

Slide 8

Slide 8 text

15/11/2012 Carrefour de l'IST 8 Le JUSP : les titres les plus vus TP

Slide 9

Slide 9 text

15/11/2012 Carrefour de l'IST 9 MESURE : un prototype en cours  Mutualisation et Evaluation des Statistiques d’Utilisation des Ressources Electroniques  Objectifs : – Implémenter le moissonnage automatique de rapports COUNTER via SUSHI – Stocker les données disponibles de 2009 à aujourd'hui – Point d'accès unique à nos membres – Fournir une mise en forme simple et pratique des données TP

Slide 10

Slide 10 text

15/11/2012 Carrefour de l'IST 10 Le périmètre de notre prototype  4 éditeurs : – IOP (electronic journal et science) – Elsevier (ScienceDirect) – Springer (Metapress) – American Chemical Society (ACS)  5 établissements : – Bordeaux 1, – Rennes 1, – Paris 5, – Toulouse 3 et – UL (i.e. Nancy 1, Nancy 2, Metz, INPL) TP

Slide 11

Slide 11 text

15/11/2012 Carrefour de l'IST 11 MESURE : présentation / page d'accueil générale TP

Slide 12

Slide 12 text

15/11/2012 Carrefour de l'IST 12 MESURE : page d'accueil pour un établissement TP

Slide 13

Slide 13 text

15/11/2012 Carrefour de l'IST 13 MESURE : représentation graphique du JR1/JR1a TP

Slide 14

Slide 14 text

15/11/2012 Carrefour de l'IST 14 MESURE : représentation tabulée enrichie du JR1a TP

Slide 15

Slide 15 text

15/11/2012 Carrefour de l'IST 15 MESURE : usage courant / archive TP

Slide 16

Slide 16 text

15/11/2012 Carrefour de l'IST 16 MESURE : le détail par titre de l'usage courant / archive Courant et archive agrégés Archive seulement Courant seulement TP

Slide 17

Slide 17 text

15/11/2012 Carrefour de l'IST 17 MESURE : évolution annuelle comparée TP

Slide 18

Slide 18 text

15/11/2012 Carrefour de l'IST 18 À ce jour  Le prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées  Le prototype sera soumis à la validation du Groupe de Travail COUPERIN  Puis élargissement du périmètre : – À d'autres établissements membres de COUPERIN – À d'autres fournisseurs qui ont implémenté la norme COUNTER TP

Slide 19

Slide 19 text

15/11/2012 Carrefour de l'IST 19 AnalogIST / ezPAARSE  AnalogIST - Analyse des logs de l'IST  EzPAARSE - easy / Progiciel d'Analyse des Accès aux RessourceS Electroniques  Idée : une plateforme logicielle intitulée ezPAARSE servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG

Slide 20

Slide 20 text

15/11/2012 Carrefour de l'IST 20 Le point de départ : L'existant à l'INIST  Pour le suivi de ses BiblioSites thématiques, l'INIST met en place un groupe statistiques en 2006 – 3 utilisateurs – 1 informaticien  et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy – Parseurs (un par plateforme éditeur) – Tests manuels de validation SG

Slide 21

Slide 21 text

15/11/2012 Carrefour de l'IST 21 Le cœur du travail : l'analyse de lignes de log 145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HTTP/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HTTP/1.1" 404 0 "http://monsite.domaine.fr/data/page1.html" "Chrome" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HTTP/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Safari/3.0" SG

Slide 22

Slide 22 text

15/11/2012 Carrefour de l'IST 22 L'analyse de lignes de log 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur SG

Slide 23

Slide 23 text

15/11/2012 Carrefour de l'IST 23 Contenu d'une ligne de log 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur SG

Slide 24

Slide 24 text

15/11/2012 Carrefour de l'IST 24 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Contenu d'une ligne de log SG

Slide 25

Slide 25 text

15/11/2012 Carrefour de l'IST 25 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Log-in utilisateur Date de la requête Page consultée Contenu d'une ligne de log SG

Slide 26

Slide 26 text

15/11/2012 Carrefour de l'IST 26 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Contenu d'une ligne de log SG

Slide 27

Slide 27 text

15/11/2012 Carrefour de l'IST 27 Contenu d'une ligne de log 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HTTP/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HTTP Taille de la requête Référent Version de navigateur SG

Slide 28

Slide 28 text

15/11/2012 Carrefour de l'IST 28 Portails INIST SG

Slide 29

Slide 29 text

15/11/2012 Carrefour de l'IST 29 Portails INIST Éditeur Chercheur Des titres de revues lui sont présentés. SG

Slide 30

Slide 30 text

15/11/2012 Carrefour de l'IST 30 Fonctionnement d'EZProxy Client EZproxy HTTP HTTP HTML* PDF Éditeur Réécriture transparente des URL HTML PDF SG

Slide 31

Slide 31 text

15/11/2012 Carrefour de l'IST 31 Logs générés par EZProxy ISSN = 0001-4575 id PDF = 01 126.10.7.11 – [email protected] [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HTTP/1.1" 200 1993 126.10.7.11 – [email protected] [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HTTP/1.1" 200 465935 SG

Slide 32

Slide 32 text

15/11/2012 Carrefour de l'IST 32 Avantages d'EZProxy  Transparent pour l'utilisateur  Pré-configuré pour les grands éditeurs  Flexible pour l'authentification  Possibilité de mesure des consultations SG

Slide 33

Slide 33 text

15/11/2012 Carrefour de l'IST 33 Mesures locales des consultations Analyse des logs EZproxy permet de : – Compter les consultations par éditeurs – Compter les consultations par revues – Compter les consultations par articles Chiffres utiles pour : – Évaluation des campagnes de tests d'abonnements – Choix des abonnements pour le CNRS/ESR – Négocier les tarifs avec les éditeurs Par individu Par laboratoire Par « groupe » SG

Slide 34

Slide 34 text

15/11/2012 Carrefour de l'IST 34 Stratégie d'analyse des logs locales SG

Slide 35

Slide 35 text

15/11/2012 Carrefour de l'IST 35 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf SG

Slide 36

Slide 36 text

15/11/2012 Carrefour de l'IST 36 Structure d'une URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverDat e=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf ISSN & type du fichier consulté SG

Slide 37

Slide 37 text

15/11/2012 Carrefour de l'IST 37 Structure d'une URL http://www.sciencedirect.com/science/journal/00014575 ISSN En essayant l'URL manuellement on voit que c'est un sommaire HTML SG

Slide 38

Slide 38 text

15/11/2012 Carrefour de l'IST 38 Structure d'une URL http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 Code éditeur ISSN RFG 0338-4551 LMS 0027-2671 ... Type PDF & ID éditeur Nécessite une base de connaissances pour décoder. SG

Slide 39

Slide 39 text

15/11/2012 Carrefour de l'IST 39 Découper l'URL http://pdn.sciencedirect.com/science? _ob=MiamiImageURL&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y& _origin=browse&_zone=rslt_list_item&_coverDa te=2012-07-31&wchp=dGLbVlt- zSkWb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-S0001457512000747-main.pdf /_pii=S([0-9]{0,7}[0-9X])/i SG

Slide 40

Slide 40 text

15/11/2012 Carrefour de l'IST 40 Une structure d'URL par plate-forme  Sciencedirect = une structure d'URL  Cairn = une structure d'URL  …  Chaque plate-forme possède sa structure d'URL  Un système de reconnaissance d'URL par plate-forme  Écriture d'un : parseur / module / plugin SG

Slide 41

Slide 41 text

15/11/2012 Carrefour de l'IST 41 Limites de l'analyse des URLs Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 URL opaques (session, cryptages) Bases de connaissances à compléter manuellement SG

Slide 42

Slide 42 text

15/11/2012 Carrefour de l'IST 42 Processus d'analyse des logs Travail d'enrichissement manuel mais peut être réalisé collaborativement Développement peut être réalisé collaborativement SG

Slide 43

Slide 43 text

15/11/2012 Carrefour de l'IST 43 Le point de départ du projet  L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique  L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés TP

Slide 44

Slide 44 text

15/11/2012 Carrefour de l'IST 44 Analog'IST / ezPAARSE  Une mutualisation à plusieurs endroits : – Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) – Partage des parseurs utilisés – Conception collaborative de nouveaux parseurs – Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée TP

Slide 45

Slide 45 text

15/11/2012 Carrefour de l'IST 45 Le calendrier  Réunion de faisabilité en novembre 2011 – Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations  Seconde réunion début janvier 2012  Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges  Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire  Novembre : lancement officiel de l'implémentation TP

Slide 46

Slide 46 text

15/11/2012 Carrefour de l'IST 46 La vision du produit  Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs  Utilisateurs à terme : les SCD de l'ESR  Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'UL en partenariat avec Couperin TP

Slide 47

Slide 47 text

15/11/2012 Carrefour de l'IST 47 Une réponse aux besoins  Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : – Des groupes d'usagers – Des champs disciplinaires – Sur des périodes de temps définies  Permettre la construction d'indicateurs homogènes, à partir de traitements communs  Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques TP

Slide 48

Slide 48 text

15/11/2012 Carrefour de l'IST 48 Fonctionnalités principales (1/2) ● Reconnaissance des consultations par éditeurs à l'aide de modules spécifiques (parseurs) ● Traitement des logs en suivant les recommandations COUNTER ● Utilisation de référentiels d'ezPAARSE (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l’outil TP

Slide 49

Slide 49 text

15/11/2012 Carrefour de l'IST 49 Fonctionnalités principales (2/2) ● Interface Web pour la correction et l'enrichissement des référentiels d'ezPAARSE ● Génération de rapports d'exécution compilés ● API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples ● Détection des anomalies dans les logs avec système d’alerte TP

Slide 50

Slide 50 text

15/11/2012 Carrefour de l'IST 50 Attention ! EzPAARSE n'est pas : ● Un outil d'analyse ou de visualisation des statistiques ● en entrée : un fichier log «brut » ● en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés ● Un producteur de logs TP

Slide 51

Slide 51 text

15/11/2012 Carrefour de l'IST 51 Modalités du développement  Logiciel libre – Partage / élargissement des partenariats – Diffusion du code source à la communauté  Facile à déployer par les différents utilisateurs de l'ESR  Modèle SaaS à mettre en perspective dans les différentes phases de développement  Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 ETP informaticiens TP

Slide 52

Slide 52 text

15/11/2012 Carrefour de l'IST 52 Conclusion / perspectives  Des réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau  Les avancées seront documentées et diffusées  Les premières instances d'ezPAARSE qui constituent le point de départ du dispositif AnalogIST seront déployées à l'INIST et à l'UL TP

Slide 53

Slide 53 text

15/11/2012 Carrefour de l'IST 53 Les premières priorités (1/2)  14 « items » ont été dégagés – Instance nationale publique AnalogIST – Organisation fonctionnelle du réseau AnalogIST – Instance locale ezPAARSE – Recommandations COUNTER (dédoublonnage) – Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezPAARSE, non encore spécifiée) – Reconnaissance du format de la ligne de log – Reconnaissance de l'URL de la plateforme TP

Slide 54

Slide 54 text

15/11/2012 Carrefour de l'IST 54 Les premières priorités (2/2) – Utilisation de référentiels éditeurs – Utilisation de référentiels de qualification des ressources – Utilisation de référentiels de qualification des utilisateurs – Interface Web pour correction et enrichissement des référentiels importants – Interface WS – Interface Web pour injection des logs – Détection des anomalies TP