What do you really know
about your website ?
@botify / www.botify.com
Slide 2
Slide 2 text
Je suis Thomas Grange
(@mpelmann)
Cofondateur de Botify
Slide 3
Slide 3 text
Mon site
(aspiré par
Botify)
Slide 4
Slide 4 text
Mon site
aspiré par un
moteur de
recherche
(Google par
exemple)
Slide 5
Slide 5 text
Vu par Botify
Vu par le moteur
Le meilleur des cas
Slide 6
Slide 6 text
Problème
Slide 7
Slide 7 text
Le moteur ne voit
pas du tout la
même chose !
Slide 8
Slide 8 text
Vu par Botify
Vu par le moteur
Le pire des cas
Slide 9
Slide 9 text
Si Google ne peut pas voir mon produit ?
Personne ne pourra le rechercher ?
Slide 10
Slide 10 text
Si Google ne peut pas voir mon produit ?
Personne ne pourra l’acheter ?
Slide 11
Slide 11 text
Question simple :
“Combien de pages
avez-vous sur votre site ?”
Slide 12
Slide 12 text
Tous nos clients
se sont trompés d’un facteur 10 à 1000 !
Slide 13
Slide 13 text
Quels sont donc les objectifs de Botify ?
Slide 14
Slide 14 text
1. Obtenir les data
2. Masher les data
3. Interpréter les résultats
Slide 15
Slide 15 text
Botify crawle un site
entièrement
Sont extraits : liens sortants, metadonnées (title, h1, canonicals..),
temps de réponses
Slide 16
Slide 16 text
En chiffres
1 site d’1 million de pages =
200 millions de liens
200 à 500 GB de data
Slide 17
Slide 17 text
Nos clients peuvent
également pusher leurs logs
serveurs quotidiennement
Slide 18
Slide 18 text
En chiffres
Botify reçoit plus de
200 GB de logs par jour
Slide 19
Slide 19 text
et une grande partie de l’analyse est
encore effectuée en #python
(désolé, ce n’est pas un
keyword big data :)
Slide 20
Slide 20 text
1. Obtenir les data
2. Masher les data
3. Interpréter les résultats
Slide 21
Slide 21 text
Architecture
(réseau de liens, profondeur des pages...)
Slide 22
Slide 22 text
Santé
(temps de chargement, codes réponses)
Slide 23
Slide 23 text
Qualité sémantique
(textes inédits et non dupliqués...)
Slide 24
Slide 24 text
Quels critères justifient
qu’une page ne soit pas
crawlée
Slide 25
Slide 25 text
Quels critères justifient
qu’une page ne soit pas
visitée
Slide 26
Slide 26 text
Quelles sont les pages
qui pointent vers des pages 404 ?
Slide 27
Slide 27 text
Quelles sont les pages
dupliquées entre elles ?
Slide 28
Slide 28 text
Quelles sont les pages
qui ne reçoivent qu’un seul lien entrant ?
Slide 29
Slide 29 text
Interpréter avec le crawler
+ avec les logs serveurs
Slide 30
Slide 30 text
Sur les 3 derniers mois,
comment s’est passé le
rafraîchissement de mon site par le
robot Google ?
Slide 31
Slide 31 text
Sur les 3 derniers mois,
quel est le volume de pages crawlées
par Google et Bing n’ayant ramené
aucune visite
Slide 32
Slide 32 text
Quelles sont les urls que Google a
découvert hier ?
Ont-elles un potentiel d’audience ?
Mise en prod qui a
généré des URLS
inutiles en SEO
Slide 33
Slide 33 text
1. Obtenir les data
2. Masher les data
3. Interpréter les résultats
Slide 34
Slide 34 text
Cas pratique :
Réduisons la profondeur des pages dans la structure
(Profondeur 0 = Homepage)
En vert : pages crawlées par Google
En rouge : pas non crawlées par Google
Slide 35
Slide 35 text
Le taux de crawl passe de 40% à 90% !
Slide 36
Slide 36 text
+50% d’audience SEO en moins de 30 jours !
Slide 37
Slide 37 text
Le crawler est accessible immédiatement sur botify.com
(100K pages offertes pour votre 1er crawl)
Slide 38
Slide 38 text
Nous recrutons !
Un directeur de production
Des devs #django #python #go
Des passionnés !