Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Botify @ Data Tuesday
Search
Botify
February 26, 2014
Programming
0
210
Botify @ Data Tuesday
#fr
Botify
February 26, 2014
Tweet
Share
More Decks by Botify
See All by Botify
Git history rewriting
botify
3
78
Yet another JS/CSS workflow
botify
2
730
Fixing the process
botify
2
180
Amazon Redshift : it's all about data compression
botify
3
3.6k
Other Decks in Programming
See All in Programming
テストから始めるAgentic Coding 〜Claude Codeと共に行うTDD〜 / Agentic Coding starts with testing
rkaga
12
4.4k
PipeCDのプラグイン化で目指すところ
warashi
1
270
猫と暮らす Google Nest Cam生活🐈 / WebRTC with Google Nest Cam
yutailang0119
0
120
What Spring Developers Should Know About Jakarta EE
ivargrimstad
0
470
AI時代のソフトウェア開発を考える(2025/07版) / Agentic Software Engineering Findy 2025-07 Edition
twada
PRO
86
29k
GitHub Copilot and GitHub Codespaces Hands-on
ymd65536
2
150
5つのアンチパターンから学ぶLT設計
narihara
1
170
Python型ヒント完全ガイド 初心者でも分かる、現代的で実践的な使い方
mickey_kubo
1
110
AI駆動のマルチエージェントによる業務フロー自動化の設計と実践
h_okkah
0
150
明示と暗黙 ー PHPとGoの インターフェイスの違いを知る
shimabox
2
510
0626 Findy Product Manager LT Night_高田スライド_speaker deck用
mana_takada
0
170
ソフトウェア品質を数字で捉える技術。事業成長を支えるシステム品質の マネジメント
takuya542
1
13k
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
690
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building Adaptive Systems
keathley
43
2.7k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
6
300
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
950
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
Done Done
chrislema
184
16k
RailsConf 2023
tenderlove
30
1.1k
Transcript
What do you really know about your website ? @botify
/ www.botify.com
Je suis Thomas Grange (@mpelmann) Cofondateur de Botify
Mon site (aspiré par Botify)
Mon site aspiré par un moteur de recherche (Google par
exemple)
Vu par Botify Vu par le moteur Le meilleur des
cas
Problème
Le moteur ne voit pas du tout la même chose
!
Vu par Botify Vu par le moteur Le pire des
cas
Si Google ne peut pas voir mon produit ? Personne
ne pourra le rechercher ?
Si Google ne peut pas voir mon produit ? Personne
ne pourra l’acheter ?
Question simple : “Combien de pages avez-vous sur votre site
?”
Tous nos clients se sont trompés d’un facteur 10 à
1000 !
Quels sont donc les objectifs de Botify ?
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Botify crawle un site entièrement Sont extraits : liens sortants,
metadonnées (title, h1, canonicals..), temps de réponses
En chiffres 1 site d’1 million de pages = 200
millions de liens 200 à 500 GB de data
Nos clients peuvent également pusher leurs logs serveurs quotidiennement
En chiffres Botify reçoit plus de 200 GB de logs
par jour
et une grande partie de l’analyse est encore effectuée en
#python (désolé, ce n’est pas un keyword big data :)
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Architecture (réseau de liens, profondeur des pages...)
Santé (temps de chargement, codes réponses)
Qualité sémantique (textes inédits et non dupliqués...)
Quels critères justifient qu’une page ne soit pas crawlée
Quels critères justifient qu’une page ne soit pas visitée
Quelles sont les pages qui pointent vers des pages 404
?
Quelles sont les pages dupliquées entre elles ?
Quelles sont les pages qui ne reçoivent qu’un seul lien
entrant ?
Interpréter avec le crawler + avec les logs serveurs
Sur les 3 derniers mois, comment s’est passé le rafraîchissement
de mon site par le robot Google ?
Sur les 3 derniers mois, quel est le volume de
pages crawlées par Google et Bing n’ayant ramené aucune visite
Quelles sont les urls que Google a découvert hier ?
Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Cas pratique : Réduisons la profondeur des pages dans la
structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google
Le taux de crawl passe de 40% à 90% !
+50% d’audience SEO en moins de 30 jours !
Le crawler est accessible immédiatement sur botify.com (100K pages offertes
pour votre 1er crawl)
Nous recrutons ! Un directeur de production Des devs #django
#python #go Des passionnés !
Merci !