Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Botify @ Data Tuesday
Search
Botify
February 26, 2014
Programming
0
210
Botify @ Data Tuesday
#fr
Botify
February 26, 2014
Tweet
Share
More Decks by Botify
See All by Botify
Git history rewriting
botify
3
79
Yet another JS/CSS workflow
botify
2
730
Fixing the process
botify
2
180
Amazon Redshift : it's all about data compression
botify
3
3.6k
Other Decks in Programming
See All in Programming
FlutterKaigi 2025 システム裏側
yumnumm
0
700
퇴근 후 1억이 거래되는 서비스 만들기 | 내가 AI를 사용하는 방법
maryang
2
540
Blazing Fast UI Development with Compose Hot Reload (droidcon London 2025)
zsmb
0
500
予防に勝る防御なし(2025年版) - 堅牢なコードを導く様々な設計のヒント / Growing Reliable Code PHP Conference Fukuoka 2025
twada
PRO
35
11k
AI 時代だからこそ抑えたい「価値のある」PHP ユニットテストを書く技術 #phpconfuk / phpcon-fukuoka-2025
shogogg
1
400
Flutterアプリ運用の現場で役立った監視Tips 5選
ostk0069
1
310
Bakuraku E2E Scenario Test System Architecture #bakuraku_qa_study
teyamagu
PRO
0
670
ノーコードからの脱出 -地獄のデスロード- / Escape from Base44
keisuke69
0
670
Designing Repeatable Edits: The Architecture of . in Vim
satorunooshie
0
260
AsyncSequenceとAsyncStreamのプロポーザルを全部読む!!
s_shimotori
1
270
AI時代に必須!状況言語化スキル / ai-context-verbalization
minodriven
3
370
CSC509 Lecture 11
javiergs
PRO
0
300
Featured
See All Featured
BBQ
matthewcrist
89
9.9k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
A designer walks into a library…
pauljervisheath
210
24k
Producing Creativity
orderedlist
PRO
348
40k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Optimizing for Happiness
mojombo
379
70k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Facilitating Awesome Meetings
lara
57
6.6k
The Cost Of JavaScript in 2023
addyosmani
55
9.2k
Practical Orchestrator
shlominoach
190
11k
Transcript
What do you really know about your website ? @botify
/ www.botify.com
Je suis Thomas Grange (@mpelmann) Cofondateur de Botify
Mon site (aspiré par Botify)
Mon site aspiré par un moteur de recherche (Google par
exemple)
Vu par Botify Vu par le moteur Le meilleur des
cas
Problème
Le moteur ne voit pas du tout la même chose
!
Vu par Botify Vu par le moteur Le pire des
cas
Si Google ne peut pas voir mon produit ? Personne
ne pourra le rechercher ?
Si Google ne peut pas voir mon produit ? Personne
ne pourra l’acheter ?
Question simple : “Combien de pages avez-vous sur votre site
?”
Tous nos clients se sont trompés d’un facteur 10 à
1000 !
Quels sont donc les objectifs de Botify ?
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Botify crawle un site entièrement Sont extraits : liens sortants,
metadonnées (title, h1, canonicals..), temps de réponses
En chiffres 1 site d’1 million de pages = 200
millions de liens 200 à 500 GB de data
Nos clients peuvent également pusher leurs logs serveurs quotidiennement
En chiffres Botify reçoit plus de 200 GB de logs
par jour
et une grande partie de l’analyse est encore effectuée en
#python (désolé, ce n’est pas un keyword big data :)
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Architecture (réseau de liens, profondeur des pages...)
Santé (temps de chargement, codes réponses)
Qualité sémantique (textes inédits et non dupliqués...)
Quels critères justifient qu’une page ne soit pas crawlée
Quels critères justifient qu’une page ne soit pas visitée
Quelles sont les pages qui pointent vers des pages 404
?
Quelles sont les pages dupliquées entre elles ?
Quelles sont les pages qui ne reçoivent qu’un seul lien
entrant ?
Interpréter avec le crawler + avec les logs serveurs
Sur les 3 derniers mois, comment s’est passé le rafraîchissement
de mon site par le robot Google ?
Sur les 3 derniers mois, quel est le volume de
pages crawlées par Google et Bing n’ayant ramené aucune visite
Quelles sont les urls que Google a découvert hier ?
Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Cas pratique : Réduisons la profondeur des pages dans la
structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google
Le taux de crawl passe de 40% à 90% !
+50% d’audience SEO en moins de 30 jours !
Le crawler est accessible immédiatement sur botify.com (100K pages offertes
pour votre 1er crawl)
Nous recrutons ! Un directeur de production Des devs #django
#python #go Des passionnés !
Merci !