Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
johnroyer
May 18, 2009
Technology
0
6
MSN Users Clustering
johnroyer
May 18, 2009
Tweet
Share
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
610
單元測試經驗談
johnroyer
0
760
Introduction to CodeIgniter
johnroyer
2
170
Other Decks in Technology
See All in Technology
[kickflow]20250319_少人数チームでのAutify活用
otouhujej
0
200
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
18
52k
株式会社ARAV 採用案内
maqui
0
230
どこで動かすか、誰が動かすか 〜 kintoneのインフラ基盤刷新と運用体制のシフト 〜
ueokande
0
170
AI時代の大規模データ活用とセキュリティ戦略
ken5scal
1
280
生成AI活用のROI、どう測る? DMM.com 開発責任者から学ぶ「AI効果検証のノウハウ」 / ROI of AI
i35_267
4
150
開発と脆弱性と脆弱性診断についての話
su3158
1
1.1k
夏休みWebアプリパフォーマンス相談室/web-app-performance-on-radio
hachi_eiji
1
290
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
2
20k
生成AIによるデータサイエンスの変革
taka_aki
0
3.1k
イオン店舗一覧ページのパフォーマンスチューニング事例 / Performance tuning example for AEON store list page
aeonpeople
1
140
第4回 関東Kaggler会 [Training LLMs with Limited VRAM]
tascj
11
1.5k
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
20k
Facilitating Awesome Meetings
lara
55
6.5k
The Pragmatic Product Professional
lauravandoore
36
6.8k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Done Done
chrislema
185
16k
Why Our Code Smells
bkeepers
PRO
338
57k
The Language of Interfaces
destraynor
160
25k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A