Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
聚类分析在短小文本上的应用
Search
greenmoon55
June 24, 2014
Technology
0
190
聚类分析在短小文本上的应用
毕业论文
greenmoon55
June 24, 2014
Tweet
Share
Other Decks in Technology
See All in Technology
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
cm_mikami
0
120
ユニットテストに対する考え方の変遷 / Everyone should watch his live coding
mdstoy
0
130
Trust as Infrastructure
bcantrill
0
350
【Oracle Cloud ウェビナー】クラウド導入に「専用クラウド」という選択肢、Oracle AlloyとOCI Dedicated Region とは
oracle4engineer
PRO
3
120
How to achieve interoperable digital identity across Asian countries
fujie
0
120
Shirankedo NOCで見えてきたeduroam/OpenRoaming運用ノウハウと課題 - BAKUCHIKU BANBAN #2
marokiki
0
160
リーダーになったら未来を語れるようになろう/Speak the Future
sanogemaru
0
300
Modern_Data_Stack最新動向クイズ_買収_AI_激動の2025年_.pdf
sagara
0
220
小学4年生夏休みの自由研究「ぼくと Copilot エージェント」
taichinakamura
0
500
Azure Well-Architected Framework入門
tomokusaba
1
330
AI時代だからこそ考える、僕らが本当につくりたいスクラムチーム / A Scrum Team we really want to create in this AI era
takaking22
7
3.7k
Adminaで実現するISMS/SOC2運用の効率化 〜 アカウント管理編 〜
shonansurvivors
3
360
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
48
51k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
2.6k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Git: the NoSQL Database
bkeepers
PRO
431
66k
4 Signs Your Business is Dying
shpigford
185
22k
The Cost Of JavaScript in 2023
addyosmani
53
9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Transcript
聚类分析在短小文本上的应用
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
研究背景 • 聚类分析 • 短文本通常指长度比较短,一般不超过两百个字 符的文本形式。 • 短文本关键词词频很低,样本特征非常稀疏,形 式不规范,趋向口语化。 ▫
Was about to go to the gym buuuttt...you know...rain...eh. ▫ looks like heavy rain but not much convection :-( https://twitter.com/kdennis1122/status/476029813090557955 https://twitter.com/Legwynis/status/476030781350244352
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
文本聚类框架 • 预处理 ▫ Was about to go to the
gym buuuttt...you know...rain...eh. ▫ gym, rain 文本信息的 预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
文本聚类框架 • 文本表示模型的建立 ▫ 传统文本:向量空间模型等 文本信息的 预处理 文本表示模 型的建立 使用聚类算
法 评估聚类结 果
文本聚类框架 • 使用聚类算法 ▫ K-means ▫ 层次聚类 ▫ 谱聚类 文本信息的
预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
文本聚类框架 • 评估聚类结果 ▫ 人工评价 ▫ 聚类评价指标 文本信息的 预处理 文本表示模
型的建立 使用聚类算 法 评估聚类结 果
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
短文本相似度 • 单词之间的相似度 ▫ Wikipedia ▫ Google ▫ WordNet •
多个单词构成的短文本之间的相似度
单词之间的相似度(WordNet) Path ℎ, = 1 5 Hao Chen. String metrics
and word similarity applied to information retrieval[D]. University of Eastern Finland, 2012.
单词之间的相似度(WordNet) • 基于路径的相似度算法 ▫ Path ▫ Wu & Palmer •
基于信息内容的相似度算法 ▫ Resnik ▫ Jiang & Conrath
多个单词构成的短文本的相似度 • 最小距离法 • 最大距离法 • 平均距离法 • Matching Similarity
0.07 + 1.11 + 0.06 + 0.09 4 = 0.33
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
短文本聚类算法 • 输入为预处理后的短文本数据,以及某种短文本 相似度计算方法 • 算法: ▫ 层次聚类法 ▫ 谱聚类
短文本聚类算法 • 聚类结果评价 ▫ 聚类内紧密度SSW 数据点和聚类中心的相似度 ▫ 聚类间分离度SSB
不同的聚类中心之间的差异度 ▫ 基于SSW和SSB的评价准则 Ball & Hall Index Calinski & Harabasz Index Hartigan Index WB-index
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
实验 • 实验一:比较相似度算法 ▫ 使用层次聚类法和谱聚类算法对两个人造数据进行 聚类 ▫ 比较三种基于WordNet的相似度计算方法:Path、 Wu &
Palmer和Jiang & Conrath。 ▫ 结论是基于信息内容的Jiang & Conrath算法结果较 好
实验 • 实验二:比较聚类评价准则 ▫ 人造数据 ▫ 层次聚类法 ▫ Jiang &
Conrath相似度算法 ▫ 比较四种相似度准则 ▫ 结果差异不大,和人工判断相同
实验 • 实验二:比较聚类评价准则 1 2 3 4
实验 • 实验三:Mopsi项目数据的聚类 ▫ Mopsi项目数据(共122条) fruit,vegetable Department,Shop,store
Church,witness ice,cream Shop,clock,gift,jewelry cafe,bakery,pastry,shop http://cs.uef.fi/mopsi/
实验 • 实验三:Mopsi项目数据的聚类 ▫ 根据聚类评价准则,最佳聚类数目为48 ▫ Mopsi项目数据的聚类结果经过人工评价基本符合 需求 ▫ 文本中的主题有餐厅、商店、医疗、运动等等
▫ 论文中有部分结果展示
总结 • 研究内容 ▫ 概括文本聚类的框架(传统文本和短文本) ▫ 研究短文本相似度算法 ▫ 深入学习并实现几种文本聚类算法 ▫
通过实验对选择适当的相似度算法和聚类算法,对 Mopsi项目的真实数据进行聚类 • 展望 ▫ 并行计算 ▫ 更准确的文本相似度
谢谢