Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Botify @ Data Tuesday
Search
Botify
February 26, 2014
Programming
210
0
Share
Botify @ Data Tuesday
#fr
Botify
February 26, 2014
More Decks by Botify
See All by Botify
Git history rewriting
botify
3
84
Yet another JS/CSS workflow
botify
2
730
Fixing the process
botify
2
190
Amazon Redshift : it's all about data compression
botify
3
3.6k
Other Decks in Programming
See All in Programming
Hive Metastoreを通して学ぶIceberg REST Catalog ― 仕様から実装まで
okumin
0
290
CLIであることを活かしたGitHub Copilot CLI活用術 / GitHub Copilot CLI Pro Tips & Tricks
nao_mk2
1
1.1k
横断組織出身のQAEがインプロセスQAEでつまずいたこと・活かせたこと
ty89
0
430
プラグインで拡張される Context をtype-safe にする難しさと設計判断
kazupon
2
390
色即是空、空即是色、データサイエンス
kamoneggi
1
200
Signal Forms: Beyond the Basics @ngBaguette 2026 in Paris
manfredsteyer
PRO
0
150
JavaDoc 再入門
nagise
0
180
不変条件と整合性境界—ビジネスが決める設計判断と実現パターン / Invariants and Consistency Boundaries
nrslib
10
2.8k
次世代リンターで探る、tsgo 時代における型認識カスタムルールの現実解
ytakahashii
3
1.2k
OSもどきOS
arkw
0
250
Transactional Change Stream Processing With Debezium and Apache Flink
gunnarmorling
1
140
Talking to terminals (and how they talk back) (KotlinConf 2026)
jakewharton
PRO
1
140
Featured
See All Featured
Claude Code のすすめ
schroneko
67
220k
Between Models and Reality
mayunak
4
310
WCS-LA-2024
lcolladotor
0
600
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
150
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
510
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
370
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.2k
BBQ
matthewcrist
89
10k
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
エンジニアに許された特別な時間の終わり
watany
107
240k
Embracing the Ebb and Flow
colly
88
5.1k
Transcript
What do you really know about your website ? @botify
/ www.botify.com
Je suis Thomas Grange (@mpelmann) Cofondateur de Botify
Mon site (aspiré par Botify)
Mon site aspiré par un moteur de recherche (Google par
exemple)
Vu par Botify Vu par le moteur Le meilleur des
cas
Problème
Le moteur ne voit pas du tout la même chose
!
Vu par Botify Vu par le moteur Le pire des
cas
Si Google ne peut pas voir mon produit ? Personne
ne pourra le rechercher ?
Si Google ne peut pas voir mon produit ? Personne
ne pourra l’acheter ?
Question simple : “Combien de pages avez-vous sur votre site
?”
Tous nos clients se sont trompés d’un facteur 10 à
1000 !
Quels sont donc les objectifs de Botify ?
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Botify crawle un site entièrement Sont extraits : liens sortants,
metadonnées (title, h1, canonicals..), temps de réponses
En chiffres 1 site d’1 million de pages = 200
millions de liens 200 à 500 GB de data
Nos clients peuvent également pusher leurs logs serveurs quotidiennement
En chiffres Botify reçoit plus de 200 GB de logs
par jour
et une grande partie de l’analyse est encore effectuée en
#python (désolé, ce n’est pas un keyword big data :)
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Architecture (réseau de liens, profondeur des pages...)
Santé (temps de chargement, codes réponses)
Qualité sémantique (textes inédits et non dupliqués...)
Quels critères justifient qu’une page ne soit pas crawlée
Quels critères justifient qu’une page ne soit pas visitée
Quelles sont les pages qui pointent vers des pages 404
?
Quelles sont les pages dupliquées entre elles ?
Quelles sont les pages qui ne reçoivent qu’un seul lien
entrant ?
Interpréter avec le crawler + avec les logs serveurs
Sur les 3 derniers mois, comment s’est passé le rafraîchissement
de mon site par le robot Google ?
Sur les 3 derniers mois, quel est le volume de
pages crawlées par Google et Bing n’ayant ramené aucune visite
Quelles sont les urls que Google a découvert hier ?
Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Cas pratique : Réduisons la profondeur des pages dans la
structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google
Le taux de crawl passe de 40% à 90% !
+50% d’audience SEO en moins de 30 jours !
Le crawler est accessible immédiatement sur botify.com (100K pages offertes
pour votre 1er crawl)
Nous recrutons ! Un directeur de production Des devs #django
#python #go Des passionnés !
Merci !