Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Search and Ye Shall Find
Search
ChiaChia Lee
April 26, 2012
Technology
1
66
Search and Ye Shall Find
Information Architecture:Ch5 Search and Ye Shall Find+HPX SEO
ChiaChia Lee
April 26, 2012
Tweet
Share
More Decks by ChiaChia Lee
See All by ChiaChia Lee
Gloss-vector:semantic relatedness of concepts
chiachialee
0
50
Discovering Latent Factors from Movies Genres for Enhanced Recommendation
chiachialee
1
100
導覽之道 - 以iCook和Womany為例
chiachialee
4
170
Git 簡介 & Perfect commit before push (10 cases)
chiachialee
2
130
Other Decks in Technology
See All in Technology
2024年にチャレンジしたことを振り返るぞ
mitchan
0
140
Jetpack Composeで始めるServer Cache State
ogaclejapan
2
170
ずっと昔に Star をつけたはずの思い出せない GitHub リポジトリを見つけたい!
rokuosan
0
150
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
230
ハイテク休憩
sat
PRO
2
150
スタートアップで取り組んでいるAzureとMicrosoft 365のセキュリティ対策/How to Improve Azure and Microsoft 365 Security at Startup
yuj1osm
0
210
Qiita埋め込み用スライド
naoki_0531
0
5.1k
オプトインカメラ:UWB測位を応用したオプトイン型のカメラ計測
matthewlujp
0
170
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
110
Storage Browser for Amazon S3
miu_crescent
1
140
コンテナセキュリティのためのLandlock入門
nullpo_head
2
320
GitHub Copilot のテクニック集/GitHub Copilot Techniques
rayuron
36
13k
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Designing for humans not robots
tammielis
250
25k
Site-Speed That Sticks
csswizardry
2
190
Music & Morning Musume
bryan
46
6.2k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Why Our Code Smells
bkeepers
PRO
335
57k
Embracing the Ebb and Flow
colly
84
4.5k
Transcript
Ch5 Search and Ye Shall Find ChiaChia Lee Polydice, Inc.
1 12年4月26日星期四
全程嚴禁攝影、錄影、錄音 嚴禁Lawrence參加 2 12年4月26日星期四
為什麼要搜尋引擎? 3 12年4月26日星期四
搜尋啊! 4 12年4月26日星期四
不然咧? 5 12年4月26日星期四
幫助你找到 ⼀一、你已經知道的 二、你還不知道的 6 12年4月26日星期四
How to build a search engine? 7 12年4月26日星期四
posting 兩道食譜 兩個網址 8 12年4月26日星期四
posting 9 12年4月26日星期四
posting 字典排序 大寫優先於小寫 10 12年4月26日星期四
INDEX 11 12年4月26日星期四
“sheep milk cheese” order 12 12年4月26日星期四
stop words list • 太常用、無特殊語意,為節省搜尋的時間、空 間而被過濾掉 • (Some search engines
don’t record extremely commonwords in order to save space or to speed up searches. They are stop words.) 13 12年4月26日星期四
stop words list • ex: the, a, to, ...... •
“to be or not to be”, “the the” • Onix Stop Word List 14 12年4月26日星期四
evaluation • 查全率:相關的有多少被抓出來 • Recall = R/M • 查準率:抓出來的有多少相關 •
Precision = R/N 15 12年4月26日星期四
Question • 問題1. 我們無法算出Google的? • a) recall • b) precision
• 問題2. 如何達到最大recall? 16 12年4月26日星期四
improve precision • 字詞順序與查詢字詞的順序相同,優先 • 字詞出現在文件標題(h1)、網址,優先 • 比較多人連到的文件,優先 17 12年4月26日星期四
improve precision • 導入控制詞彙:搜尋IBM同時也要找 International Business Machines • salmorejo &
gazpacho都是西班牙蕃茄冷湯 • implicit feedback: user搜尋xx後點擊第三個網 址,此網址在下次可能移至第⼀一或二的位置(vs explicit feedback) 18 12年4月26日星期四
search should be fast 19 12年4月26日星期四
search should be easy 20 12年4月26日星期四
search should be magic 21 12年4月26日星期四
people take only one second to search • ⼀一定要快速取得結果 •
⼀一定要快速載入結果 • 快而醜比慢而美好很多 • ⼀一定要能粗略審視結果 • smell good • heat map fast 22 12年4月26日星期四
heat map fast 23 12年4月26日星期四
search length • 商業網站上搜尋平均為2.3 words • Google平均搜尋長度約為3 words • 1/3
users use one-word searches • 1/3 users use two-word searches, but often single concept, such as “New York” easy 24 12年4月26日星期四
Search must be easy for people to use • 搜尋建議工具
query suggesters • 垂直搜尋 vertical search • 人工消除歧異 human disambiguation • 首選 best bets easy 25 12年4月26日星期四
query suggesters • autofill, autocomplete • 「您是不是要查autocomplete」 • easy 26
12年4月26日星期四
quintura easy 27 12年4月26日星期四
vertical search • 特定子集(particular subset):人物搜 尋、購物搜尋、音樂搜尋、圖片搜尋 • 搜尋”New York”,是指⼀一個州、⼀一篇文 章、⼀一個旅遊網站、⼀一則新聞呢?
• 主題過濾器(topical filters):飛機班次、 飛機型號、百萬畫素...... easy 28 12年4月26日星期四
human disambiguation • 輸入”fuschia”得到的結果都不喜歡,什 麼都不點,接著輸入”fuchsia”並點選其 中⼀一項結果 • 很多人都有這樣的行為 • 納入演算法
• 下次有人搜尋”fuschia”,就問「嘿!您 是不是要搜尋”fuchsia”咧?」 easy 29 12年4月26日星期四
human disambiguation • 人工創造奇蹟 • 發音相近:soundex easy 30 12年4月26日星期四
soundex • 除第⼀一個字母以外,用以下規則替換 a e h i o u w
y -> 0 b f p v -> 1 c g j k q s x z -> 2 d t -> 3 l -> 4 m n -> 5 r -> 6 • 去除0,重復的只保留1個 • 取前4個,不足4位補0 • Example: • Knuth -> K5030 -> K53 -> K530 • Kant -> K053 -> K53 -> K530 easy 31 12年4月26日星期四
best bets • Zipf curve • 長尾 easy 32 12年4月26日星期四
analyze the head • 搜集最熱門搜尋 • 按照查詢類型分類 • 為它設計首選 easy
33 12年4月26日星期四
analyze the head • 如何呈現首選 • Yahoo!把運動資料製成圖表; Google在 影片結果附上截圖 •
用粗體字強調查詢詞彙,尤其在標題中 easy 34 12年4月26日星期四
search must be magic • 預言者、讀心者 • 搜尋是個問句,答案並非總是個連結而 已 magic
35 12年4月26日星期四
personalized search • 根據你的歷史、你做過的事、你曾留過 的資料(地址、打卡等) • 知道你的社交、地理、情境 • 推薦 •
搜尋pizza,找你家附近的pizza店給你 • Google號稱不用登入都知道你的偏好 magic 36 12年4月26日星期四
finally • 我們又不賣搜尋引擎 • 可是如果我們懂⼀一點search engine的原 理,可以做做運動、動動手腳,讓自己 的網頁更容易被搜尋引擎爬到,讓自己 的網站曝光更多,更多的客戶,更多的 食物
37 12年4月26日星期四
現學現賣加碼送 SEO 38 12年4月26日星期四
HPX - SEO • 避免重複性網頁:網頁title如果都⼀一樣會 沒有分辨性 • Florida Update •
台灣網站在google.com.tw搜尋會比較前 面?=>該網站要hosting在台灣 • 優質反向引擎:放連結在大站 39 12年4月26日星期四
HPX - SEO • 全站優化:搜尋前幾名全部囊括 • 多種類:不是只有優化文字搜尋,還有 影片、圖片(metadata, alt...) •
自然搜尋 • 關鍵字分級:建議做中後段,長尾不做 也會上,前段的太熱門做不來,經驗是 會水到渠成 • 認命吧,引擎有黑箱 40 12年4月26日星期四
HPX - SEO • 不要所有技術⼀一次用上,不要⼀一次做 足,Google希望看到⼀一個網站逐漸進步 • 被Google懲罰是很嚴重的,不要冒險, 會前功盡棄 •
如果有⼀一件事情是重要的:⼀一定要盡可 能全面地讓SE爬到你的網頁們 • 你現在看到的星空不是現在的星空:幾 個月前的演算機制,你追不上演算法 41 12年4月26日星期四
HPX - SEO • 愛料理 or 愛食譜? • 命名不要太專業,要貼近使用者:洗髮 系列?洗髮精?
• 比別人更快被搜尋,尤其是EC • 優化搜尋結果摘要 • ajax:塞純文字link • nofollow、pagerank • Florida Update, 2003 42 12年4月26日星期四
謝。 43 12年4月26日星期四