背景 – TF-‐IDF • 語彙空間で類似度を推定するため,語彙が増えるとその分遅くなる • 語が一致しない場合は類似性を得ることができない – LSA(SVD) • 語が一致しなくとも類似性を得ることができるようになったが,それも限定的 な領域である – pLSA, LDA • 生成モデルによってより詳細な類似性を得ることができるようになったが,ト ピックの事後分布は正確に推定することが困難であり遅い手法か、不正確な 手法を使わなくてはならない • LSAに比べて高い改善があったとは言いがたい(実験,データセットにによる)