Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MSN Users Clustering
Search
johnroyer
May 18, 2009
Technology
13
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
MSN Users Clustering
johnroyer
May 18, 2009
More Decks by johnroyer
See All by johnroyer
Meilisearch 簡介
johnroyer
0
820
單元測試經驗談
johnroyer
0
850
Introduction to CodeIgniter
johnroyer
2
180
Other Decks in Technology
See All in Technology
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
160
入門!AWS Blocks
ysuzuki
1
150
気づかぬうちにセキュリティ負債を生むAPIキー運用
sgwrmctk
0
170
Bedrock AgentCore RuntimeでAuth0 Changelog調査AIをアップグレードした話
t5u8a5a
1
180
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
150
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
110
LLMにもCAP定理があるという話
harukasakihara
0
400
失敗を資産に変えるClaude Code
shinyasaita
0
700
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.2k
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.2k
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
Kiro Ambassador を目指す話
k_adachi_01
0
100
Featured
See All Featured
WENDY [Excerpt]
tessaabrams
11
38k
Color Theory Basics | Prateek | Gurzu
gurzu
0
370
Rails Girls Zürich Keynote
gr2m
96
14k
sira's awesome portfolio website redesign presentation
elsirapls
0
280
Design in an AI World
tapps
1
240
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
150
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
480
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Transcript
MSN Users Clustering 日落 2009.05.18
Introduction What is MSN for ?
Introduction 程式設計 美食 阿宅 嘴炮
Introduction 讀取對話記錄 中文斷詞 清除無用資料 K-mean
中文斷詞 雞哥是蘿莉控 雞哥 / 是 / 蘿莉 /
控
中文斷詞 中研院中文斷詞系統 (CKIP) Yahoo 斷章取義
清除無用資料 關鍵字: 自拍 洗澡 痴漢:哈囉 正妹:哈囉 痴漢:你喜歡自拍嗎? 正妹:掰掰
...... 去洗澡
清除無用資料 全形、半形符號 大小寫英文 注音 代名詞:你、我、他
結構助詞:的、地、得 關連詞:因為、所以、然後、結果 嘆詞:嗨、啊、喔、嗚、科科 ....... etc
清除無用資料 我們晚上去 85℃ 喝咖啡 去喝咖啡
清除無用資料 歐趴糖
K-mean 計算距離 取得重心 分群
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
相似度高 相似度低
K-mean - Text Retrievaling 我讀逢甲大學 我是逢甲大學學生 我是大學生
逢甲 / 大學 大學
K-mean - Text Retrievaling 相似度 重複次數 集合中詞彙總數
我讀逢甲大學 我是逢甲大學學生 我是大學生 K-mean - Text Retrievaling
2 7 = 29% 1 7 = 14%
K-mean - Text Retrievaling 資料間的距離 = 1 - 相似度
K-mean - Text Retrievaling U1 = { 1, 2,
3, 4 } U2 = { 1, 2, 3 } U3 = { 1, , 5, 6 } U1 U2 U3 U1 U2 U3 0 0.25 0.83 0 0.80 0
K-mean - Text Retrievaling 優點 容易計算 缺點
陣列大小 = N x N
K-mean - Clustering K :分群數量 K = 1,
2, 3 .... ?
K-mean - Clustering K = 2 ? ① ②
K-mean - Clustering 工具可分很多種
K-mean - Clustering 停止條件 重心多次沒有改變 重心計算超過 m
次 群集小於 n
Live Demo
CKIP has CRASHED
Q & A