Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
johnroyer
May 18, 2009
Technology
0
9
MSN Users Clustering
johnroyer
May 18, 2009
Tweet
Share
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
730
單元測試經驗談
johnroyer
0
770
Introduction to CodeIgniter
johnroyer
2
170
Other Decks in Technology
See All in Technology
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
170
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
0
210
Context Engineeringが企業で不可欠になる理由
hirosatogamo
PRO
3
550
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
230
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
170
IaaS/SaaS管理における SREの実践 - SRE Kaigi 2026
bbqallstars
4
2k
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
210
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
440
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
110
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
640
ZOZOにおけるAI活用の現在 ~開発組織全体での取り組みと試行錯誤~
zozotech
PRO
5
5.1k
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.1k
Featured
See All Featured
WCS-LA-2024
lcolladotor
0
450
Site-Speed That Sticks
csswizardry
13
1.1k
The Language of Interfaces
destraynor
162
26k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
The agentic SEO stack - context over prompts
schlessera
0
630
Become a Pro
speakerdeck
PRO
31
5.8k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Done Done
chrislema
186
16k
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A