Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Search and Ye Shall Find
Search
ChiaChia Lee
April 26, 2012
Technology
1
65
Search and Ye Shall Find
Information Architecture:Ch5 Search and Ye Shall Find+HPX SEO
ChiaChia Lee
April 26, 2012
Tweet
Share
More Decks by ChiaChia Lee
See All by ChiaChia Lee
Gloss-vector:semantic relatedness of concepts
chiachialee
0
49
Discovering Latent Factors from Movies Genres for Enhanced Recommendation
chiachialee
1
100
導覽之道 - 以iCook和Womany為例
chiachialee
4
160
Git 簡介 & Perfect commit before push (10 cases)
chiachialee
2
130
Other Decks in Technology
See All in Technology
誰も全体を知らない ~ ロールの垣根を超えて引き上げる開発生産性 / Boosting Development Productivity Across Roles
kakehashi
1
230
開発生産性を上げながらビジネスも30倍成長させてきたチームの姿
kamina_zzz
2
1.7k
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
オープンソースAIとは何か? --「オープンソースAIの定義 v1.0」詳細解説
shujisado
9
870
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
28
12k
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
estie
0
130
【若手エンジニア応援LT会】ソフトウェアを学んできた私がインフラエンジニアを目指した理由
kazushi_ohata
0
150
アジャイルでの品質の進化 Agile in Motion vol.1/20241118 Hiroyuki Sato
shift_evolve
0
110
OTelCol_TailSampling_and_SpanMetrics
gumamon
1
130
データプロダクトの定義からはじめる、データコントラクト駆動なデータ基盤
chanyou0311
2
310
Terraform CI/CD パイプラインにおける AWS CodeCommit の代替手段
hiyanger
1
240
Introduction to Works of ML Engineer in LY Corporation
lycorp_recruit_jp
0
120
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Designing for humans not robots
tammielis
250
25k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
How GitHub (no longer) Works
holman
310
140k
KATA
mclloyd
29
14k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Building Adaptive Systems
keathley
38
2.3k
Making Projects Easy
brettharned
115
5.9k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Navigating Team Friction
lara
183
14k
Transcript
Ch5 Search and Ye Shall Find ChiaChia Lee Polydice, Inc.
1 12年4月26日星期四
全程嚴禁攝影、錄影、錄音 嚴禁Lawrence參加 2 12年4月26日星期四
為什麼要搜尋引擎? 3 12年4月26日星期四
搜尋啊! 4 12年4月26日星期四
不然咧? 5 12年4月26日星期四
幫助你找到 ⼀一、你已經知道的 二、你還不知道的 6 12年4月26日星期四
How to build a search engine? 7 12年4月26日星期四
posting 兩道食譜 兩個網址 8 12年4月26日星期四
posting 9 12年4月26日星期四
posting 字典排序 大寫優先於小寫 10 12年4月26日星期四
INDEX 11 12年4月26日星期四
“sheep milk cheese” order 12 12年4月26日星期四
stop words list • 太常用、無特殊語意,為節省搜尋的時間、空 間而被過濾掉 • (Some search engines
don’t record extremely commonwords in order to save space or to speed up searches. They are stop words.) 13 12年4月26日星期四
stop words list • ex: the, a, to, ...... •
“to be or not to be”, “the the” • Onix Stop Word List 14 12年4月26日星期四
evaluation • 查全率:相關的有多少被抓出來 • Recall = R/M • 查準率:抓出來的有多少相關 •
Precision = R/N 15 12年4月26日星期四
Question • 問題1. 我們無法算出Google的? • a) recall • b) precision
• 問題2. 如何達到最大recall? 16 12年4月26日星期四
improve precision • 字詞順序與查詢字詞的順序相同,優先 • 字詞出現在文件標題(h1)、網址,優先 • 比較多人連到的文件,優先 17 12年4月26日星期四
improve precision • 導入控制詞彙:搜尋IBM同時也要找 International Business Machines • salmorejo &
gazpacho都是西班牙蕃茄冷湯 • implicit feedback: user搜尋xx後點擊第三個網 址,此網址在下次可能移至第⼀一或二的位置(vs explicit feedback) 18 12年4月26日星期四
search should be fast 19 12年4月26日星期四
search should be easy 20 12年4月26日星期四
search should be magic 21 12年4月26日星期四
people take only one second to search • ⼀一定要快速取得結果 •
⼀一定要快速載入結果 • 快而醜比慢而美好很多 • ⼀一定要能粗略審視結果 • smell good • heat map fast 22 12年4月26日星期四
heat map fast 23 12年4月26日星期四
search length • 商業網站上搜尋平均為2.3 words • Google平均搜尋長度約為3 words • 1/3
users use one-word searches • 1/3 users use two-word searches, but often single concept, such as “New York” easy 24 12年4月26日星期四
Search must be easy for people to use • 搜尋建議工具
query suggesters • 垂直搜尋 vertical search • 人工消除歧異 human disambiguation • 首選 best bets easy 25 12年4月26日星期四
query suggesters • autofill, autocomplete • 「您是不是要查autocomplete」 • easy 26
12年4月26日星期四
quintura easy 27 12年4月26日星期四
vertical search • 特定子集(particular subset):人物搜 尋、購物搜尋、音樂搜尋、圖片搜尋 • 搜尋”New York”,是指⼀一個州、⼀一篇文 章、⼀一個旅遊網站、⼀一則新聞呢?
• 主題過濾器(topical filters):飛機班次、 飛機型號、百萬畫素...... easy 28 12年4月26日星期四
human disambiguation • 輸入”fuschia”得到的結果都不喜歡,什 麼都不點,接著輸入”fuchsia”並點選其 中⼀一項結果 • 很多人都有這樣的行為 • 納入演算法
• 下次有人搜尋”fuschia”,就問「嘿!您 是不是要搜尋”fuchsia”咧?」 easy 29 12年4月26日星期四
human disambiguation • 人工創造奇蹟 • 發音相近:soundex easy 30 12年4月26日星期四
soundex • 除第⼀一個字母以外,用以下規則替換 a e h i o u w
y -> 0 b f p v -> 1 c g j k q s x z -> 2 d t -> 3 l -> 4 m n -> 5 r -> 6 • 去除0,重復的只保留1個 • 取前4個,不足4位補0 • Example: • Knuth -> K5030 -> K53 -> K530 • Kant -> K053 -> K53 -> K530 easy 31 12年4月26日星期四
best bets • Zipf curve • 長尾 easy 32 12年4月26日星期四
analyze the head • 搜集最熱門搜尋 • 按照查詢類型分類 • 為它設計首選 easy
33 12年4月26日星期四
analyze the head • 如何呈現首選 • Yahoo!把運動資料製成圖表; Google在 影片結果附上截圖 •
用粗體字強調查詢詞彙,尤其在標題中 easy 34 12年4月26日星期四
search must be magic • 預言者、讀心者 • 搜尋是個問句,答案並非總是個連結而 已 magic
35 12年4月26日星期四
personalized search • 根據你的歷史、你做過的事、你曾留過 的資料(地址、打卡等) • 知道你的社交、地理、情境 • 推薦 •
搜尋pizza,找你家附近的pizza店給你 • Google號稱不用登入都知道你的偏好 magic 36 12年4月26日星期四
finally • 我們又不賣搜尋引擎 • 可是如果我們懂⼀一點search engine的原 理,可以做做運動、動動手腳,讓自己 的網頁更容易被搜尋引擎爬到,讓自己 的網站曝光更多,更多的客戶,更多的 食物
37 12年4月26日星期四
現學現賣加碼送 SEO 38 12年4月26日星期四
HPX - SEO • 避免重複性網頁:網頁title如果都⼀一樣會 沒有分辨性 • Florida Update •
台灣網站在google.com.tw搜尋會比較前 面?=>該網站要hosting在台灣 • 優質反向引擎:放連結在大站 39 12年4月26日星期四
HPX - SEO • 全站優化:搜尋前幾名全部囊括 • 多種類:不是只有優化文字搜尋,還有 影片、圖片(metadata, alt...) •
自然搜尋 • 關鍵字分級:建議做中後段,長尾不做 也會上,前段的太熱門做不來,經驗是 會水到渠成 • 認命吧,引擎有黑箱 40 12年4月26日星期四
HPX - SEO • 不要所有技術⼀一次用上,不要⼀一次做 足,Google希望看到⼀一個網站逐漸進步 • 被Google懲罰是很嚴重的,不要冒險, 會前功盡棄 •
如果有⼀一件事情是重要的:⼀一定要盡可 能全面地讓SE爬到你的網頁們 • 你現在看到的星空不是現在的星空:幾 個月前的演算機制,你追不上演算法 41 12年4月26日星期四
HPX - SEO • 愛料理 or 愛食譜? • 命名不要太專業,要貼近使用者:洗髮 系列?洗髮精?
• 比別人更快被搜尋,尤其是EC • 優化搜尋結果摘要 • ajax:塞純文字link • nofollow、pagerank • Florida Update, 2003 42 12年4月26日星期四
謝。 43 12年4月26日星期四