Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
johnroyer
May 18, 2009
Technology
10
0
Share
MSN Users Clustering
johnroyer
May 18, 2009
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
780
單元測試經驗談
johnroyer
0
820
Introduction to CodeIgniter
johnroyer
2
180
Other Decks in Technology
See All in Technology
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1.2k
要件定義の精度を高めるための型と生成AIの活用 / Using Types and Generative AI to Improve the Accuracy of Requirements Definition
haru860
0
320
ServiceによるKubernetes通信制御ーClusterIPを例に
miku01
1
160
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
200
ESP32 IoTを動かしながらメモリ使用量を観測してみた話
zozotech
PRO
0
100
拝啓、あの夏の僕へ〜あなたも知っているApp Runnerの世界〜
news_it_enj
0
230
Shiny New Tools Won't Fix Your Problem
trishagee
1
120
AIエージェントの支払い基盤 AgentCore Payments概要
kmiya84377
2
160
カオナビに Suspenseを導入するまで / The Road to Suspense at kaonavi
kaonavi
1
440
SREの仕事は「壊さないこと」ではなくなった 〜自律化していくシステムに、責任と判断を与えるという価値〜 / 20260515 Naoki Shimada
shift_evolve
PRO
1
110
20260516_SecJAWS_Days
takuyay0ne
1
210
新卒エンジニア研修、ハンズオンの設計における課題と実践知/ #tachikawaany
nishiuma
2
140
Featured
See All Featured
Crafting Experiences
bethany
1
140
How to Talk to Developers About Accessibility
jct
2
190
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
sira's awesome portfolio website redesign presentation
elsirapls
0
230
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
What's in a price? How to price your products and services
michaelherold
247
13k
Paper Plane (Part 1)
katiecoart
PRO
0
7.2k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Designing for Performance
lara
611
70k
エンジニアに許された特別な時間の終わり
watany
106
240k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
240
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A