Botify @ Data Tuesday

What do you really know about your website ? @botify
/ www.botify.com

Je suis Thomas Grange (@mpelmann) Cofondateur de Botify

Mon site (aspiré par Botify)

Mon site aspiré par un moteur de recherche (Google par
exemple)

Vu par Botify Vu par le moteur Le meilleur des
cas

Problème

Le moteur ne voit pas du tout la même chose
!

Vu par Botify Vu par le moteur Le pire des
cas

Si Google ne peut pas voir mon produit ? Personne
ne pourra le rechercher ?

Si Google ne peut pas voir mon produit ? Personne
ne pourra l’acheter ?

Question simple : “Combien de pages avez-vous sur votre site
?”

Tous nos clients se sont trompés d’un facteur 10 à
1000 !

Quels sont donc les objectifs de Botify ?

1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats

Botify crawle un site entièrement Sont extraits : liens sortants,
metadonnées (title, h1, canonicals..), temps de réponses

En chiffres 1 site d’1 million de pages = 200
millions de liens 200 à 500 GB de data

Nos clients peuvent également pusher leurs logs serveurs quotidiennement

En chiffres Botify reçoit plus de 200 GB de logs
par jour

et une grande partie de l’analyse est encore effectuée en
#python (désolé, ce n’est pas un keyword big data :)

les résultats

Architecture (réseau de liens, profondeur des pages...)

Santé (temps de chargement, codes réponses)

Qualité sémantique (textes inédits et non dupliqués...)

Quels critères justifient qu’une page ne soit pas crawlée

Quels critères justifient qu’une page ne soit pas visitée

Quelles sont les pages qui pointent vers des pages 404
?

Quelles sont les pages dupliquées entre elles ?

Quelles sont les pages qui ne reçoivent qu’un seul lien
entrant ?

Interpréter avec le crawler + avec les logs serveurs

Sur les 3 derniers mois, comment s’est passé le rafraîchissement
de mon site par le robot Google ?

Sur les 3 derniers mois, quel est le volume de
pages crawlées par Google et Bing n’ayant ramené aucune visite

Quelles sont les urls que Google a découvert hier ?
Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO

les résultats

Cas pratique : Réduisons la profondeur des pages dans la
structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google

Le taux de crawl passe de 40% à 90% !

+50% d’audience SEO en moins de 30 jours !

Le crawler est accessible immédiatement sur botify.com (100K pages offertes
pour votre 1er crawl)

Nous recrutons ! Un directeur de production Des devs #django
#python #go Des passionnés !

Merci !

Botify @ Data Tuesday

Botify @ Data Tuesday

More Decks by Botify

Other Decks in Programming

Featured

Transcript