Upgrade to Pro — share decks privately, control downloads, hide ads and more …

聚类分析在短小文本上的应用

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 聚类分析在短小文本上的应用

毕业论文

Avatar for greenmoon55

greenmoon55

June 24, 2014
Tweet

Other Decks in Technology

Transcript

  1. 研究背景 • 聚类分析 • 短文本通常指长度比较短,一般不超过两百个字 符的文本形式。 • 短文本关键词词频很低,样本特征非常稀疏,形 式不规范,趋向口语化。 ▫

    Was about to go to the gym buuuttt...you know...rain...eh. ▫ looks like heavy rain but not much convection :-( https://twitter.com/kdennis1122/status/476029813090557955 https://twitter.com/Legwynis/status/476030781350244352
  2. 文本聚类框架 • 预处理 ▫ Was about to go to the

    gym buuuttt...you know...rain...eh. ▫ gym, rain 文本信息的 预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
  3. 文本聚类框架 • 使用聚类算法 ▫ K-means ▫ 层次聚类 ▫ 谱聚类 文本信息的

    预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
  4. 单词之间的相似度(WordNet) Path ℎ, = 1 5 Hao Chen. String metrics

    and word similarity applied to information retrieval[D]. University of Eastern Finland, 2012.
  5. 单词之间的相似度(WordNet) • 基于路径的相似度算法 ▫ Path ▫ Wu & Palmer •

    基于信息内容的相似度算法 ▫ Resnik ▫ Jiang & Conrath
  6. 短文本聚类算法 • 聚类结果评价 ▫ 聚类内紧密度SSW  数据点和聚类中心的相似度 ▫ 聚类间分离度SSB 

    不同的聚类中心之间的差异度 ▫ 基于SSW和SSB的评价准则  Ball & Hall Index  Calinski & Harabasz Index  Hartigan Index  WB-index
  7. 实验 • 实验二:比较聚类评价准则 ▫ 人造数据 ▫ 层次聚类法 ▫ Jiang &

    Conrath相似度算法 ▫ 比较四种相似度准则 ▫ 结果差异不大,和人工判断相同
  8. 实验 • 实验三:Mopsi项目数据的聚类 ▫ Mopsi项目数据(共122条)  fruit,vegetable  Department,Shop,store 

    Church,witness  ice,cream  Shop,clock,gift,jewelry  cafe,bakery,pastry,shop http://cs.uef.fi/mopsi/
  9. 总结 • 研究内容 ▫ 概括文本聚类的框架(传统文本和短文本) ▫ 研究短文本相似度算法 ▫ 深入学习并实现几种文本聚类算法 ▫

    通过实验对选择适当的相似度算法和聚类算法,对 Mopsi项目的真实数据进行聚类 • 展望 ▫ 并行计算 ▫ 更准确的文本相似度