Botify @ Data Tuesday - Speaker Deck

Slide 1

Slide 1 text

What do you really know about your website ? @botify / www.botify.com

Slide 2

Slide 2 text

Je suis Thomas Grange (@mpelmann) Cofondateur de Botify

Slide 3

Slide 3 text

Mon site (aspiré par Botify)

Slide 4

Slide 4 text

Mon site aspiré par un moteur de recherche (Google par exemple)

Slide 5

Slide 5 text

Vu par Botify Vu par le moteur Le meilleur des cas

Slide 6

Slide 6 text

Problème

Slide 7

Slide 7 text

Le moteur ne voit pas du tout la même chose !

Slide 8

Slide 8 text

Vu par Botify Vu par le moteur Le pire des cas

Slide 9

Slide 9 text

Si Google ne peut pas voir mon produit ? Personne ne pourra le rechercher ?

Slide 10

Slide 10 text

Si Google ne peut pas voir mon produit ? Personne ne pourra l’acheter ?

Slide 11

Slide 11 text

Question simple : “Combien de pages avez-vous sur votre site ?”

Slide 12

Slide 12 text

Tous nos clients se sont trompés d’un facteur 10 à 1000 !

Slide 13

Slide 13 text

Quels sont donc les objectifs de Botify ?

Slide 14

Slide 14 text

1. Obtenir les data 2. Masher les data 3. Interpréter les résultats

Slide 15

Slide 15 text

Botify crawle un site entièrement Sont extraits : liens sortants, metadonnées (title, h1, canonicals..), temps de réponses

Slide 16

Slide 16 text

En chiffres 1 site d’1 million de pages = 200 millions de liens 200 à 500 GB de data

Slide 17

Slide 17 text

Nos clients peuvent également pusher leurs logs serveurs quotidiennement

Slide 18

Slide 18 text

En chiffres Botify reçoit plus de 200 GB de logs par jour

Slide 19

Slide 19 text

et une grande partie de l’analyse est encore effectuée en #python (désolé, ce n’est pas un keyword big data :)

Slide 20

Slide 20 text

1. Obtenir les data 2. Masher les data 3. Interpréter les résultats

Slide 21

Slide 21 text

Architecture (réseau de liens, profondeur des pages...)

Slide 22

Slide 22 text

Santé (temps de chargement, codes réponses)

Slide 23

Slide 23 text

Qualité sémantique (textes inédits et non dupliqués...)

Slide 24

Slide 24 text

Quels critères justifient qu’une page ne soit pas crawlée

Slide 25

Slide 25 text

Quels critères justifient qu’une page ne soit pas visitée

Slide 26

Slide 26 text

Quelles sont les pages qui pointent vers des pages 404 ?

Slide 27

Slide 27 text

Quelles sont les pages dupliquées entre elles ?

Slide 28

Slide 28 text

Quelles sont les pages qui ne reçoivent qu’un seul lien entrant ?

Slide 29

Slide 29 text

Interpréter avec le crawler + avec les logs serveurs

Slide 30

Slide 30 text

Sur les 3 derniers mois, comment s’est passé le rafraîchissement de mon site par le robot Google ?

Slide 31

Slide 31 text

Sur les 3 derniers mois, quel est le volume de pages crawlées par Google et Bing n’ayant ramené aucune visite

Slide 32

Slide 32 text

Quelles sont les urls que Google a découvert hier ? Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO

Slide 33

Slide 33 text

1. Obtenir les data 2. Masher les data 3. Interpréter les résultats

Slide 34

Slide 34 text

Cas pratique : Réduisons la profondeur des pages dans la structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google

Slide 35

Slide 35 text

Le taux de crawl passe de 40% à 90% !

Slide 36

Slide 36 text

+50% d’audience SEO en moins de 30 jours !

Slide 37

Slide 37 text

Le crawler est accessible immédiatement sur botify.com (100K pages offertes pour votre 1er crawl)

Slide 38

Slide 38 text

Nous recrutons ! Un directeur de production Des devs #django #python #go Des passionnés !

Slide 39

Slide 39 text

Merci !