Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
October 15, 2018

Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance

文献紹介
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

October 15, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Proceedings of the 1st Workshop on Evaluating Vector Space Representations

    for NLP, pages 1–6, Berlin, Germany, August 12, 2016. 2016 Association for Computational Linguistics Intrinsic Evaluation of Word Vectors Fails to Predict Extrinsic Performance 長岡技術科学大学 自然言語処理研究室 勝田 哲弘 Billy Chiu, Anna Korhonen, Sampo Pyysalo
  2. Abstract 単語表現の質は、類似度を人間との相関で評価される。 そのような内的評価で、実タスクの精度を予測することができるか • 3つの系列ラベリング • 10の単語類似度のデータセット 2

  3. Introduction ベクトル表現の評価は大きく、内部評価と外部評価に分けられ る。 • 内部評価 ◦ 類似度の相関 ◦ 速く、容易に評価ができる •

    外部評価 ◦ POSタグ付け、NER等のタスクの精度 内部と外部の評価に相関があることが前提 → 矛盾する 3
  4. Materials and Methods トレーニングデータ • 学習:word2vec • パラメータ:デフォルト 4

  5. Materials and Methods 評価データ • 内部 (Table 2) • 外部

    (Table 3) 5
  6. Results 6

  7. 7

  8. Results 相関がある → MTurk-771, SimLex-999 8

  9. Discussion 他のデータセットとSimlex-999の違い • 類似性と関連性を明示的に区別する 窓幅は大きいほど文脈やドメインを、小さいほど機能的類似度を 強調する傾向がある(Turney, 2012) 小さいほうが、PO​​Sタグ付け、チャンク化、NERでは有利 9

  10. Discussion 類似性と関連性の違い 関連性に対して類似性は窓幅の影響が少ない 10

  11. Conclusion 内部評価と外部評価の相関を調査 殆どのデータセットで相関が得られなかった • 関連性と類似性の違いを考慮していないこと • biomedicalでも同様の結果が得られている ◦ (Chiu et

    al., 2016) 11