文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
October 19, 2018
69

文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

October 19, 2018
Tweet

Transcript

  1. Word Sense Disambiguation Based on Word Similarity Calculation Using Word

    Vector Representation from a Knowledge-based Graph Dongsuk O, Sunjae Kwon, Kyungsun Kim and Youngjoong Ko 2018 10/19 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 Proceedings of the 27th International Conference on Computational Linguistics, pages 2704–2714 Santa Fe, New Mexico, USA, August 20-26, 2018.
  2. 2 Abstract • 曖昧な単語と入力文書の単語との類似性を利用した、新 しい知識ベースのWSDシステムを提案。 • SemEval-2013とSemEval-2015で実験を行い、 SemEval-2013では最先端のWSDシステムを上回る性能 を発揮

  3. 3 introduction • 知識ベースの教師なし学習のWSDでは、グラフベースの 手法がよく使われる。 • 語義の部分グラフを生成する手法が、WSDの性能に直結。 →この手法について、様々なものが提案されている。

  4. 4 introduction • 従来の手法 ・文書中のすべての曖昧な語を同時に曖昧性解消 (Navigli and Lapata、2007; Navigli and

    Lapata、2010) →文書中の全ての曖昧性のある語に対して最適な語義を導くこ とができるが、計算量が大きくなりやすい。 ・曖昧性解消を行う語の優先順位を決めて曖昧性解消 (Manion et al.、2014) →部分グラフの構築に文脈全ての語を使用しているため、不要な 情報によって部分グラフが複雑化
  5. 5 Proposed WSD System • 提案手法 Manion et al.(2014)の手法をベースにした手法 →部分グラフの構築に必要な語を限定する

    ・文脈の語と曖昧性のある語の類似度を計算  →しきい値以上の語のみを使用
  6. 6 Proposed WSD System • 類似度計算のために・・・ 意味情報を考慮した単語の分散表現を生成 →意味情報がWSDを行う上で重要と仮定 • 分散表現を生成するにあたって、単語の意味関係を

    表現する必要あり。
  7. 7 Proposed WSD System 例:star star#1: "A celestial body of

    hot gases", star#2: “Any celestial body visible from the Earth at night.”, star#3: “An actor who plays a principal role” star#4: “A widely known person.”
  8. 8 Proposed WSD System 例:star Related with astronomical phenomena Related

    with human or occupation
  9. 9 Proposed WSD System • c)をDoc2Vecに入力し、出力を単語の分散表現とする。 • 単語の類似度はコサイン類似度で計算。

  10. 10 Proposed WSD System • 処理の流れ ・1−3:前処理 ・4−11:語義曖昧性解消

  11. 11 Experiment • データセット SemEval-2007,SemEval-2013,SemEval-2015 • Doc2Vecの設定 ・demension:200 ・window size:3

    ・initial learning rate:0.5 • しきい値:0.5 その他はDefault
  12. 12 Result • ベースラインとの比較、類似度計算の比較 →意味情報が重要であることを示している

  13. 13 Results • 他のWSDシステムとの比較

  14. 14 Conclusion & future work • 曖昧な語と文脈上の語の類似度を用いた、知識ベースの WSDを提案。 • 最先端の教師なしの知識ベースのWSDシステムよりも高

    いパフォーマンスを発揮した。 • 多言語で使用できるようなシステムに拡張する予定。