Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
September 24, 2018
36

Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

September 24, 2018
Tweet

Transcript

  1. Distributional Lesk: Effective Knowledge- Based Word Sense Disambiguation Dieke Oele,

    Gertjan Van Noord 2018 9/24 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 IWCS 2017 — 12th International Conference on Computational Semantics — Short papers URL: http://aclweb.org/anthology/W17-6931
  2. 2 Abstract • 知識ベースと分散表現を用いた、シンプルなWSD を提案 • 語義の注釈と文脈の類似度を分散表現から計算 • 他のLesk法を用いた手法より優れた性能を発揮 した

  3. 3 introduction • 現在、最も優れたWSDシステムは教師あり学習を用いた 手法 (Snyder and Palmer, 2004; Pradhan

    et al., 2007; Navigli and Lapata, 2007; Navigli, 2009; Zhong and Ng, 2010) 問題点  ・多くのアノテーションされたデータが必要  ・特定のドメインでしかうまく機能しない  (Escudero et al., 2000)
  4. 4 introduction • 提案手法 Lesk法を元にした知識ベースのWSD Lesk法:注釈と文脈間で重複している単語の数     から類似度を計算    分散表現を用いて類似度を計算

  5. 5 Method • 単語wの語義sに対して、コサイン類似度を計算 Score(s, w) = cos(Gs, Cw) +

    cos(Ls,w, Cw) Gs・・・注釈のベクトル、Cw・・・文脈のベクトル Ls,w・・・語彙素のベクトル (語彙素:単語と1つの語義の組み合わせ) →スコアの高い語義が選ばれる
  6. 6 Method • Ls,wについて AutoExtend (Rothe and Schutze, 2015)を用いて、単語の分散表現を 元にWordNetから語義の分散表現を獲得

    • Cwについて 文中にある全ての内容語の分散表現を平均したもの すでに語義を決定した単語については語義の分散表現を使用 • Gsについて 注釈にある全ての内容語の分散表現を平均したもの
  7. 7 Method • WSDの前に語義の少ない順に単語を並べ替え、 語義の少ない単語からWSDを行う →語義の少ない単語ほど、曖昧性を解消しやすいため   (Chen et al.,

    2014)
  8. 8 Experiments • オランダ語と英語について実験 • 評価用データセット ・オランダ語:DutchSemCor ・英語:SemCor Senseval-2 (SE-2)

    Senseval-3 (SE-3)
  9. 9 Result • accuracyの比較

  10. 10 Result • 効果の比較

  11. 11 Result • 異なるドメインでの比較

  12. 12 Conclusion • 分散表現を用いて単語の語義と文脈の類似性を計算する 手法を提案 • 最先端の知識ベースシステムより優れた性能を発揮 • 他の言語にも簡単に適用可能で、必要とするデータも 少ない