Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
June 20, 2018
52

 Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

June 20, 2018
Tweet

Transcript

  1. Learning to Identify the Best Contexts for Knowledge-based WSD Evgenia

    Wasserman-Pritsker , William W. Cohen , Einat Minkov 2018 6/20 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing : page 1662–1667
  2. 2 Abstract • 知識ベースのWSDのための有用な文脈上の手がかりを 特定することを目的とした学習フレームワークの概説 • 実験では2つの異なる知識ベースの手法とベンチマーク データセットを使い、その結果従来のウィンドウベースの手 法を上回るようなcontext modelingによる大幅な改善が見

    られた。
  3. 3 introduction • WSDにおいて、知識ベースの手法では、語義の推 論は知識ベースからの情報を使い、文脈に最も合 致する語義を見つけることが行われる。 • 推論のモデルは発展しているが、context modelingについてはあまり注意が払われていな い。

  4. 4 introduction • 文脈はBag-of-Wordsで表現され、通常文脈上の 語の重要度は等しい。 →しかし、中には関係ない語や情報を持たない語も 例:church(building) “An ancient stone

    church stands amid the fields, the sound of bells cascading from its tower”
  5. 5 introduction • 本研究では語義を予測するための手がかりを識別 するための学習フレームワークを提案 • 文脈上の語の有用性は構文的情報、語彙統計的 情報、単純な語の距離によって評価される。 • WSDを実行する際は最も評価の高い語のみを考

  6. 6 Learned context selection models (LCS) • 本研究では以下のように語義を推論する。 Sim()は文脈と候補の語義の類似度を最大化する関数   

         • Sim()は以下のように表される。 w:単語 s:語義 S(w):単語の全ての語義 Ctx:利用可能な文脈 cj:文脈上の語 ※weight()は普通1となる。  文脈上の語が使えない場合は重みが減る。
  7. 7 Learned context selection models (LCS) • 学習 distantly supervised

    learning schemeを提案 語義のタグがつけられたインスタンスから、ターゲット の語と、その後が含まれる文脈のペアのデータセットを 作成。 Sim()で予測された語義が正しいなら信頼できる文脈 上の語だと考える。
  8. 8 Learned context selection models (LCS) • 特徴の種類 ・単純な単語の距離 ・構文的特徴

     →ターゲットの単語と文脈上の語が依存関係に   あるとき、文脈上の語の品詞を特徴とする。 ・語彙統計的特徴  →PMI、IDFを使用(頻度はulWac コーパスより   取得)。 
  9. 9 Experiment • 2つの知識ベースの手法で実験。 ・Gloss Vectors(GV) →上位語、関連語義、共起語などでWordNetの用  語を豊かにする手法。 ・Personalized PageRank

    (PPR) algorithm →最先端のWSDパフォーマンスを記録している  アルゴリズム。
  10. 10 Experiment • データセット ・the lexical sample data set due

    to Koeling et al. ・Semeval’07
  11. 11 Results • LCSについては、クロスデータ評価(CW)とクロス データ実験(CD)を実施。 ・PPRよりGVの方が改善率が高い。 ・SemEvalについては データセットの歪みで 過大評価されている。

  12. 12 Results • 特徴がパフォーマンスに与える影響の調査 ・語彙統計的特徴の与える影響が最も大きい。 →知識ベースのWSDでは局所的な文脈上の語が  有用。 ・単語の距離はあまり 影響しない

  13. 13 Results • 他の研究との比較 ・最先端のパフォーマンス(R&M’12)と同様かそれ 以上のパフォーマンスを発揮。

  14. 14 Conclusion & future work • 知識ベースのWSDにおいて有用な手がかりとなる文脈上 の語の識別を行う学習フレームワークを作成 • 提案手法は多様な種類の証拠を効果的に強化する。

    • 将来的に単語関連性の尺度をフレームワークに追加する。 特別なモデルを作成することにも関心がある。