Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

66cc992074ab4522374e429c11fef225?s=47 youichiro
February 25, 2018

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

文献紹介 2018-02-26
長岡技術科学大学
自然言語処理研究室

66cc992074ab4522374e429c11fef225?s=128

youichiro

February 25, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

    Vered Shwartz, Yoav Goldberg, Ido Dagan Association for Computational Linguistics, pages 2389–2398, 2016 ⽂献紹介 2018-02-26 ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗
  2. 概要 l ある2つの単語が上位・下位関係にあるかどうかを判別するタ スク l ⽂の依存関係をLSTMに⼊⼒してベクトル表現を獲得し、2値 分類を⾏う l 分散表現を⽤いた⼿法と組み合わせることで最先端な性能を ⽰した

    1
  3. タスク:Hypernymy Detection Task n Hypernymy l 2つの単語の意味的な上位・下位関係 l ex. (pineapple,

    fruit), (green, color), (Obama, president) n Hypernymy Detection Task l ある単語X, Yが与えられた時、YがXの上位語であるかを 判断する 2
  4. タスク:Hypernymy Detection Task n 応⽤事例:質問応答 l Q: “What animals inhabit

    the Arctic regions?” l A: “Polar bears inhabit the Arctic regions.” l NG: “Indigenous people inhabit the Arctic regions.” l 知識: ◦(bears, animal) ×(people, animal) n 従来⼿法 l Path-based Method:依存構造を⽤いた⼿法 l Distributional Method:分散表現を⽤いた⼿法 3
  5. Distributional Method –分散表現を⽤いた⼿法- n アイデア:分散表現に基づいて単語間の関係を認識する n 上位・下位関係にある単語X, Yのベクトル表現:, ̇ ̇

    n 2つのベクトルの関係を分類器に学習させて分類する 結合 ̇⨁̇ , 差分 ̇ − ̇ 4
  6. Path-based Method –依存構造を⽤いた⼿法- n アイデア:上位・下位関係を⽰す⽂法的なパターンがある ex. X or other Y,

    X is a Y, Y including X n このようなパターンは⽂の依存構造によって表現される n 依存構造を分類器に学習させて分類する 5
  7. Path-based Method –依存構造を⽤いた⼿法- n 問題点 l 上位・下位関係にある単語の対を含む事例がコーパスに そう多く存在しない Ø 再現率が上がらない

    n PATTY [Nakashole et al., 2012]は単語の置換によって依存 構造の⼀般化を⾏なった “X corporation is a Y” → “X NOUN is a Y” “X is defined as Y” → “X is VERB as Y” Ø ⼀般化しすぎてもよくない (1) “X is defined as Y” ≈ “X is described as Y“ (2) “X is defined as Y” != “X is rejected as Y” 6
  8. 提案⼿法:HypeNET n Path-based MethodとDistributional Methodを組み合わせ た⼿法 7 XとYの依存構造 LSTM encoder

    CNNによる 分類器を学習 依存構造を表すベクトル X, Yの分散表現 < Path-based Method < Distributional Method hypernymy not hypernymy
  9. 提案⼿法:HypeNET l “X is a Y” → “X/NOUN/nsubj/>” “be/VERB/ROOT/-” “Y/NOUN/attr/<“

    l ⾒出し語/品詞/依存関係ラベル/係り先 8 XとYの依存構造
  10. 提案⼿法:HypeNET l ⾒出し語/品詞/依存関係ラベル/係り先で構成された要素を LSTMに⼊⼒し、依存構造ベクトルを出⼒ 9 LSTM

  11. 提案⼿法:HypeNET l 依存構造ベクトルに、XとYの分散表現を加える 10 X, Yの分散表現

  12. 提案⼿法:HypeNET l X, Yの依存構造ベクトルと単語ベクトルから、YがXの上位語であるかどうか を2値分類する分類器を学習 11 CNNによる 分類器を学習

  13. データセット 12 n 知識資源をもとに、コーパスから上位・下位関係を表す依存構造を 抽出[Snow et al., 2004] l 知識資源:WordNet,

    DBPedia, Wikidata, Yago n データサイズ:70,679事例 n ラベル:positive or negative n Train / Test / Validate : 70% - 25% - 5%
  14. 実験結果(1) 13 n Path-based: l 再現率が⼤きく向上し、(Path-basedの)先⾏研究を上回った l Distributionalの最⾼性能と同じくらいの性能を達成した

  15. 実験結果(2) 14 n Combined: l Path-based, Distributionalのどちらの性能も上回った

  16. まとめ 15 l ある2つの単語が上位・下位関係にあるかどうかを判別する⼿法を 提案 l ⽂の依存構造をLSTMを使ってベクトル表現 l 分散表現を加えて2値分類 l

    最先端の性能を達成した