Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Botify @ Data Tuesday

Botify
February 26, 2014

Botify @ Data Tuesday

#fr

Botify

February 26, 2014
Tweet

More Decks by Botify

Other Decks in Programming

Transcript

  1. Botify crawle un site entièrement Sont extraits : liens sortants,

    metadonnées (title, h1, canonicals..), temps de réponses
  2. En chiffres 1 site d’1 million de pages = 200

    millions de liens 200 à 500 GB de data
  3. et une grande partie de l’analyse est encore effectuée en

    #python (désolé, ce n’est pas un keyword big data :)
  4. Sur les 3 derniers mois, quel est le volume de

    pages crawlées par Google et Bing n’ayant ramené aucune visite
  5. Quelles sont les urls que Google a découvert hier ?

    Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO
  6. Cas pratique : Réduisons la profondeur des pages dans la

    structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google