Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance

Proceedings of the 1st Workshop on Evaluating Vector Space Representations
for NLP, pages 1–6, Berlin, Germany, August 12, 2016. 2016 Association for Computational Linguistics Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance 長岡技術科学大学　自然言語処理研究室勝田哲弘 Billy Chiu, Anna Korhonen, Sampo Pyysalo

Abstract 単語表現の質は、類似度を人間との相関で評価される。そのような内的評価で、実タスクの精度を予測することができるか • ３つの系列ラベリング • １０の単語類似度のデータセット 2

Introduction ベクトル表現の評価は大きく、内部評価と外部評価に分けられる。 • 内部評価 ◦ 類似度の相関 ◦ 速く、容易に評価ができる •
外部評価 ◦ POSタグ付け、NER等のタスクの精度内部と外部の評価に相関があることが前提 → 矛盾する 3

Materials and Methods トレーニングデータ • 学習：word2vec • パラメータ：デフォルト 4

Materials and Methods 評価データ • 内部 (Table 2) • 外部
(Table 3) 5

Results 6

Results 相関がある → MTurk-771, SimLex-999 8

Discussion 他のデータセットとSimlex-999の違い • 類似性と関連性を明示的に区別する窓幅は大きいほど文脈やドメインを、小さいほど機能的類似度を強調する傾向がある(Turney, 2012) 小さいほうが、POSタグ付け、チャンク化、NERでは有利 9

Discussion 類似性と関連性の違い関連性に対して類似性は窓幅の影響が少ない 10

Conclusion 内部評価と外部評価の相関を調査殆どのデータセットで相関が得られなかった • 関連性と類似性の違いを考慮していないこと • biomedicalでも同様の結果が得られている ◦ (Chiu et
al., 2016) 11

Intrinsic Evaluation of Word Vectors Fails to P...

Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript

Proceedings of the 1st Workshop on Evaluating Vector Space Representations

Abstract 単語表現の質は、類似度を人間との相関で評価される。そのような内的評価で、実タスクの精度を予測することができるか • ３つの系列ラベリング • １０の単語類似度のデータセット 2

Introduction ベクトル表現の評価は大きく、内部評価と外部評価に分けられる。 • 内部評価 ◦ 類似度の相関 ◦ 速く、容易に評価ができる •

Materials and Methods トレーニングデータ • 学習：word2vec • パラメータ：デフォルト 4

Materials and Methods 評価データ • 内部 (Table 2) • 外部

Results 6

7

Results 相関がある → MTurk-771, SimLex-999 8

Discussion 類似性と関連性の違い関連性に対して類似性は窓幅の影響が少ない 10

Conclusion 内部評価と外部評価の相関を調査殆どのデータセットで相関が得られなかった • 関連性と類似性の違いを考慮していないこと • biomedicalでも同様の結果が得られている ◦ (Chiu et