Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
聚类分析在短小文本上的应用
Search
greenmoon55
June 24, 2014
Technology
200
0
Share
聚类分析在短小文本上的应用
毕业论文
greenmoon55
June 24, 2014
Other Decks in Technology
See All in Technology
Bref でサービスを運用している話
sgash708
0
220
OpenClawでPM業務を自動化
knishioka
2
360
OCI技術資料 : 証明書サービス概要
ocise
1
7.2k
Kubernetesの「隠れメモリ消費」によるNode共倒れと、Request適正化という処方箋
g0xu
0
170
MIX AUDIO EN BROADCAST
ralpherick
0
140
遊びで始めたNew Relic MCP、気づいたらChatOpsなオブザーバビリティボットができてました/From New Relic MCP to a ChatOps Observability Bot
aeonpeople
1
140
Microsoft Fabricで考える非構造データのAI活用
ryomaru0825
0
570
Physical AI on AWS リファレンスアーキテクチャ / Physical AI on AWS Reference Architecture
aws_shota
1
230
【AWS】CloudTrail LakeとCloudWatch Logs Insightsの使い分け方針
tsurunosd
0
130
GitHub Advanced Security × Defender for Cloudで開発とSecOpsのサイロを超える: コードとクラウドをつなぐ、開発プラットフォームのセキュリティ
yuriemori
1
120
Why we keep our community?
kawaguti
PRO
0
360
契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話
sansantech
PRO
3
330
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
170
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Mind Mapping
helmedeiros
PRO
1
140
Documentation Writing (for coders)
carmenintech
77
5.3k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.1k
How to train your dragon (web standard)
notwaldorf
97
6.6k
Music & Morning Musume
bryan
47
7.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Transcript
聚类分析在短小文本上的应用
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
研究背景 • 聚类分析 • 短文本通常指长度比较短,一般不超过两百个字 符的文本形式。 • 短文本关键词词频很低,样本特征非常稀疏,形 式不规范,趋向口语化。 ▫
Was about to go to the gym buuuttt...you know...rain...eh. ▫ looks like heavy rain but not much convection :-( https://twitter.com/kdennis1122/status/476029813090557955 https://twitter.com/Legwynis/status/476030781350244352
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
文本聚类框架 • 预处理 ▫ Was about to go to the
gym buuuttt...you know...rain...eh. ▫ gym, rain 文本信息的 预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
文本聚类框架 • 文本表示模型的建立 ▫ 传统文本:向量空间模型等 文本信息的 预处理 文本表示模 型的建立 使用聚类算
法 评估聚类结 果
文本聚类框架 • 使用聚类算法 ▫ K-means ▫ 层次聚类 ▫ 谱聚类 文本信息的
预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
文本聚类框架 • 评估聚类结果 ▫ 人工评价 ▫ 聚类评价指标 文本信息的 预处理 文本表示模
型的建立 使用聚类算 法 评估聚类结 果
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
短文本相似度 • 单词之间的相似度 ▫ Wikipedia ▫ Google ▫ WordNet •
多个单词构成的短文本之间的相似度
单词之间的相似度(WordNet) Path ℎ, = 1 5 Hao Chen. String metrics
and word similarity applied to information retrieval[D]. University of Eastern Finland, 2012.
单词之间的相似度(WordNet) • 基于路径的相似度算法 ▫ Path ▫ Wu & Palmer •
基于信息内容的相似度算法 ▫ Resnik ▫ Jiang & Conrath
多个单词构成的短文本的相似度 • 最小距离法 • 最大距离法 • 平均距离法 • Matching Similarity
0.07 + 1.11 + 0.06 + 0.09 4 = 0.33
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
短文本聚类算法 • 输入为预处理后的短文本数据,以及某种短文本 相似度计算方法 • 算法: ▫ 层次聚类法 ▫ 谱聚类
短文本聚类算法 • 聚类结果评价 ▫ 聚类内紧密度SSW 数据点和聚类中心的相似度 ▫ 聚类间分离度SSB
不同的聚类中心之间的差异度 ▫ 基于SSW和SSB的评价准则 Ball & Hall Index Calinski & Harabasz Index Hartigan Index WB-index
目录 • 研究背景 • 文本聚类框架 • 短文本相似度 • 短文本聚类算法 •
实验内容
实验 • 实验一:比较相似度算法 ▫ 使用层次聚类法和谱聚类算法对两个人造数据进行 聚类 ▫ 比较三种基于WordNet的相似度计算方法:Path、 Wu &
Palmer和Jiang & Conrath。 ▫ 结论是基于信息内容的Jiang & Conrath算法结果较 好
实验 • 实验二:比较聚类评价准则 ▫ 人造数据 ▫ 层次聚类法 ▫ Jiang &
Conrath相似度算法 ▫ 比较四种相似度准则 ▫ 结果差异不大,和人工判断相同
实验 • 实验二:比较聚类评价准则 1 2 3 4
实验 • 实验三:Mopsi项目数据的聚类 ▫ Mopsi项目数据(共122条) fruit,vegetable Department,Shop,store
Church,witness ice,cream Shop,clock,gift,jewelry cafe,bakery,pastry,shop http://cs.uef.fi/mopsi/
实验 • 实验三:Mopsi项目数据的聚类 ▫ 根据聚类评价准则,最佳聚类数目为48 ▫ Mopsi项目数据的聚类结果经过人工评价基本符合 需求 ▫ 文本中的主题有餐厅、商店、医疗、运动等等
▫ 论文中有部分结果展示
总结 • 研究内容 ▫ 概括文本聚类的框架(传统文本和短文本) ▫ 研究短文本相似度算法 ▫ 深入学习并实现几种文本聚类算法 ▫
通过实验对选择适当的相似度算法和聚类算法,对 Mopsi项目的真实数据进行聚类 • 展望 ▫ 并行计算 ▫ 更准确的文本相似度
谢谢