Upgrade to Pro — share decks privately, control downloads, hide ads and more …

聚类分析在短小文本上的应用

 聚类分析在短小文本上的应用

毕业论文

greenmoon55

June 24, 2014
Tweet

Other Decks in Technology

Transcript

  1. 研究背景 • 聚类分析 • 短文本通常指长度比较短,一般不超过两百个字 符的文本形式。 • 短文本关键词词频很低,样本特征非常稀疏,形 式不规范,趋向口语化。 ▫

    Was about to go to the gym buuuttt...you know...rain...eh. ▫ looks like heavy rain but not much convection :-( https://twitter.com/kdennis1122/status/476029813090557955 https://twitter.com/Legwynis/status/476030781350244352
  2. 文本聚类框架 • 预处理 ▫ Was about to go to the

    gym buuuttt...you know...rain...eh. ▫ gym, rain 文本信息的 预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
  3. 文本聚类框架 • 使用聚类算法 ▫ K-means ▫ 层次聚类 ▫ 谱聚类 文本信息的

    预处理 文本表示模 型的建立 使用聚类算 法 评估聚类结 果
  4. 单词之间的相似度(WordNet) Path ℎ, = 1 5 Hao Chen. String metrics

    and word similarity applied to information retrieval[D]. University of Eastern Finland, 2012.
  5. 单词之间的相似度(WordNet) • 基于路径的相似度算法 ▫ Path ▫ Wu & Palmer •

    基于信息内容的相似度算法 ▫ Resnik ▫ Jiang & Conrath
  6. 短文本聚类算法 • 聚类结果评价 ▫ 聚类内紧密度SSW  数据点和聚类中心的相似度 ▫ 聚类间分离度SSB 

    不同的聚类中心之间的差异度 ▫ 基于SSW和SSB的评价准则  Ball & Hall Index  Calinski & Harabasz Index  Hartigan Index  WB-index
  7. 实验 • 实验二:比较聚类评价准则 ▫ 人造数据 ▫ 层次聚类法 ▫ Jiang &

    Conrath相似度算法 ▫ 比较四种相似度准则 ▫ 结果差异不大,和人工判断相同
  8. 实验 • 实验三:Mopsi项目数据的聚类 ▫ Mopsi项目数据(共122条)  fruit,vegetable  Department,Shop,store 

    Church,witness  ice,cream  Shop,clock,gift,jewelry  cafe,bakery,pastry,shop http://cs.uef.fi/mopsi/
  9. 总结 • 研究内容 ▫ 概括文本聚类的框架(传统文本和短文本) ▫ 研究短文本相似度算法 ▫ 深入学习并实现几种文本聚类算法 ▫

    通过实验对选择适当的相似度算法和聚类算法,对 Mopsi项目的真实数据进行聚类 • 展望 ▫ 并行计算 ▫ 更准确的文本相似度