Slide 8
Slide 8 text
手法・パラメータ
単語の分散表現モデル:
筆者手持ちのシンデレラガールズSSコーパスから作成
220MB程度、W2V, size=100, window=5, min_count=5,
sg=1, hs=1, negative=0, iter=20
記事データ:
Pixiv百科事典からスクレイピング、整形を施す
アルゴリズム:
SWEM-aver
他にもmax-pooling, concat, hierなど計4種の手法がある
ベクトルの類似度計算:
NGT(Yahoo Japan)を使用
8