Slide 14
Slide 14 text
手法の(超大雑把な)解説
BOW
ある単語が「あるかないか」の1/0で文書ごとに高次元の
疎なベクトルを作り、コサイン類似度などで距離を測る
Doc2Vec(D2V)
文書中の単語の分散表現に、文書IDを加えて学習し
「文書のベクトル」を作り、そのベクトル間距離で測る
Word Mover’s Distance(WMD)
文書中の対応する単語の距離(W2Vモデルを使う)の和が
最も小さくなる組み合わせを「近い」とみなす
2017/12/16 14
Kusner, Matt J., et al. “From word embeddings
to document distances.” Proceedings of the
32nd International Conference on Machine
Learning (ICML 2015). 2015.