Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Botify @ Data Tuesday
Search
Botify
February 26, 2014
Programming
210
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Botify @ Data Tuesday
#fr
Botify
February 26, 2014
More Decks by Botify
See All by Botify
Git history rewriting
botify
3
84
Yet another JS/CSS workflow
botify
2
730
Fixing the process
botify
2
190
Amazon Redshift : it's all about data compression
botify
3
3.6k
Other Decks in Programming
See All in Programming
LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦
suikabar
3
680
OSもどきOS
arkw
0
570
フロントエンドとバックエンドで「1文字」を揃えよう
youkidearitai
PRO
0
690
[2026年度第1回ORセミナー] 計画最適化ベンチャーと競技プログラミング人材
terryu16
0
260
AI時代の仕事技芸論 — ソフトウェア開発で「遊ぶように働く」職人的熟達のすすめ
kuranuki
2
680
技術記事、AIに書かせるか、自分で書くか? 〜それでも私が自分の手で書く理由〜 / #QiitaConference
jnchito
2
1.4k
PHPで使える日時の表現と、その知り方 #frontend_phpcon_do
o0h
PRO
0
240
3Dシーンの圧縮
fadis
1
770
Honoでのサプライチェーン侵害対策 〜 3つのライブラリに学ぶ
yusukebe
6
1.1k
並列実装の現場、2ヶ月間実務でAIを使い倒したAIもPCも私も限界が近い
ming_ayami
0
130
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
560
その問い、本当に正しいですか?AI時代のエンジニアに必要な哲学と認知科学 / ai-philosophy-cognitive-science
minodriven
9
5.1k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
304
22k
My Coaching Mixtape
mlcsv
0
150
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
210
Making Projects Easy
brettharned
120
6.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
200
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
The Invisible Side of Design
smashingmag
302
52k
Transcript
What do you really know about your website ? @botify
/ www.botify.com
Je suis Thomas Grange (@mpelmann) Cofondateur de Botify
Mon site (aspiré par Botify)
Mon site aspiré par un moteur de recherche (Google par
exemple)
Vu par Botify Vu par le moteur Le meilleur des
cas
Problème
Le moteur ne voit pas du tout la même chose
!
Vu par Botify Vu par le moteur Le pire des
cas
Si Google ne peut pas voir mon produit ? Personne
ne pourra le rechercher ?
Si Google ne peut pas voir mon produit ? Personne
ne pourra l’acheter ?
Question simple : “Combien de pages avez-vous sur votre site
?”
Tous nos clients se sont trompés d’un facteur 10 à
1000 !
Quels sont donc les objectifs de Botify ?
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Botify crawle un site entièrement Sont extraits : liens sortants,
metadonnées (title, h1, canonicals..), temps de réponses
En chiffres 1 site d’1 million de pages = 200
millions de liens 200 à 500 GB de data
Nos clients peuvent également pusher leurs logs serveurs quotidiennement
En chiffres Botify reçoit plus de 200 GB de logs
par jour
et une grande partie de l’analyse est encore effectuée en
#python (désolé, ce n’est pas un keyword big data :)
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Architecture (réseau de liens, profondeur des pages...)
Santé (temps de chargement, codes réponses)
Qualité sémantique (textes inédits et non dupliqués...)
Quels critères justifient qu’une page ne soit pas crawlée
Quels critères justifient qu’une page ne soit pas visitée
Quelles sont les pages qui pointent vers des pages 404
?
Quelles sont les pages dupliquées entre elles ?
Quelles sont les pages qui ne reçoivent qu’un seul lien
entrant ?
Interpréter avec le crawler + avec les logs serveurs
Sur les 3 derniers mois, comment s’est passé le rafraîchissement
de mon site par le robot Google ?
Sur les 3 derniers mois, quel est le volume de
pages crawlées par Google et Bing n’ayant ramené aucune visite
Quelles sont les urls que Google a découvert hier ?
Ont-elles un potentiel d’audience ? Mise en prod qui a généré des URLS inutiles en SEO
1. Obtenir les data 2. Masher les data 3. Interpréter
les résultats
Cas pratique : Réduisons la profondeur des pages dans la
structure (Profondeur 0 = Homepage) En vert : pages crawlées par Google En rouge : pas non crawlées par Google
Le taux de crawl passe de 40% à 90% !
+50% d’audience SEO en moins de 30 jours !
Le crawler est accessible immédiatement sur botify.com (100K pages offertes
pour votre 1er crawl)
Nous recrutons ! Un directeur de production Des devs #django
#python #go Des passionnés !
Merci !