Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
johnroyer
May 18, 2009
Technology
0
9
MSN Users Clustering
johnroyer
May 18, 2009
Tweet
Share
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
730
單元測試經驗談
johnroyer
0
770
Introduction to CodeIgniter
johnroyer
2
170
Other Decks in Technology
See All in Technology
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.3k
IaaS/SaaS管理における SREの実践 - SRE Kaigi 2026
bbqallstars
4
1.7k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
2k
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
210
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
0
330
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
17k
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.4k
今日から始めるAmazon Bedrock AgentCore
har1101
4
400
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.5k
What happened to RubyGems and what can we learn?
mikemcquaid
0
250
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
200
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
290
Featured
See All Featured
Tell your own story through comics
letsgokoyo
1
810
Scaling GitHub
holman
464
140k
The Limits of Empathy - UXLibs8
cassininazir
1
210
30 Presentation Tips
portentint
PRO
1
210
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Visualization
eitanlees
150
17k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
320
Leo the Paperboy
mayatellez
4
1.4k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
300
Practical Orchestrator
shlominoach
191
11k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Designing for humans not robots
tammielis
254
26k
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A