Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
johnroyer
May 18, 2009
Technology
0
9
MSN Users Clustering
johnroyer
May 18, 2009
Tweet
Share
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
670
單元測試經驗談
johnroyer
0
760
Introduction to CodeIgniter
johnroyer
2
170
Other Decks in Technology
See All in Technology
AI駆動開発を実現するためのアーキテクチャと取り組み
baseballyama
12
6.3k
JAWS-UG SRE支部 #14 LT
okaru
0
110
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
peisuke
0
160
ソフトウェア開発現代史: 55%が変化に備えていない現実 ─ AI支援型開発時代のReboot Japan #agilejapan
takabow
7
4.5k
国産クラウドを支える設計とチームの変遷 “技術・組織・ミッション”
kazeburo
4
4.8k
その意思決定、まだ続けるんですか? ~痛みを超えて未来を作る、AI時代の撤退とピボットの技術~
applism118
6
6.2k
SRE視点で振り返るメルカリのアーキテクチャ変遷と普遍的な考え
foostan
2
380
改竄して学ぶコンテナサプライチェーンセキュリティ ~コンテナイメージの完全性を目指して~/tampering-container-supplychain-security
mochizuki875
1
360
AI時代の戦略的アーキテクチャ 〜Adaptable AI をアーキテクチャで実現する〜 / Enabling Adaptable AI Through Strategic Architecture
bitkey
PRO
12
6k
AS59105におけるFreeBSD EtherIPの運用と課題
x86taka
0
180
Tomcatが起動しない!?SecureRandomと乱数デバイスの罠
fujikawa8
1
100
持続可能なアクセシビリティ開発
azukiazusa1
6
280
Featured
See All Featured
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
680
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
Statistics for Hackers
jakevdp
799
220k
Six Lessons from altMBA
skipperchong
29
4.1k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
670
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A