Upgrade to Pro — share decks privately, control downloads, hide ads and more …

UniCrawler - IC05 - UTC - 2013-11-26

Avatar for MiLk MiLk
November 26, 2013

UniCrawler - IC05 - UTC - 2013-11-26

Présentation de UniCrawler en amphi de IC05 à l'Université de Technologie de Compiègne

Avatar for MiLk

MiLk

November 26, 2013

Other Decks in Technology

Transcript

  1. Pourquoi un crawler ? Récupère les liens pour les indexer

    Moteur de recherche Archivage Structuration des données
  2. Qu’est-ce qu’un crawler ? Explore des pages web automatiquement Détecter

    “http://...” dans la page Filtrer Aller sur la nouvelle adresse Recommencer
  3. Les données sous
 forme de graphe Le graphe contient :

    un nœud pour chaque URL, avec éventuellement des mots-clés des liens entre les nœuds en fonction du chemin suivi par le crawler
  4. Avant UniCrawler Navicrawler Basé sur une version dépassée de Firefox

    S’exécute sur le client Sélection manuelle des liens
  5. Pourquoi UniCrawler ? UniCrawler Technologie web S’exécute sur un serveur

    distant Sélection automatique des liens (filtres)
  6. API

  7. API