Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Hypernymy Detection with an Integrate...

youichiro
February 25, 2018

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

文献紹介 2018-02-26
長岡技術科学大学
自然言語処理研究室

youichiro

February 25, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

    Vered Shwartz, Yoav Goldberg, Ido Dagan Association for Computational Linguistics, pages 2389–2398, 2016 ⽂献紹介 2018-02-26 ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗
  2. タスク:Hypernymy Detection Task n Hypernymy l 2つの単語の意味的な上位・下位関係 l ex. (pineapple,

    fruit), (green, color), (Obama, president) n Hypernymy Detection Task l ある単語X, Yが与えられた時、YがXの上位語であるかを 判断する 2
  3. タスク:Hypernymy Detection Task n 応⽤事例:質問応答 l Q: “What animals inhabit

    the Arctic regions?” l A: “Polar bears inhabit the Arctic regions.” l NG: “Indigenous people inhabit the Arctic regions.” l 知識: ◦(bears, animal) ×(people, animal) n 従来⼿法 l Path-based Method:依存構造を⽤いた⼿法 l Distributional Method:分散表現を⽤いた⼿法 3
  4. Path-based Method –依存構造を⽤いた⼿法- n アイデア:上位・下位関係を⽰す⽂法的なパターンがある ex. X or other Y,

    X is a Y, Y including X n このようなパターンは⽂の依存構造によって表現される n 依存構造を分類器に学習させて分類する 5
  5. Path-based Method –依存構造を⽤いた⼿法- n 問題点 l 上位・下位関係にある単語の対を含む事例がコーパスに そう多く存在しない Ø 再現率が上がらない

    n PATTY [Nakashole et al., 2012]は単語の置換によって依存 構造の⼀般化を⾏なった “X corporation is a Y” → “X NOUN is a Y” “X is defined as Y” → “X is VERB as Y” Ø ⼀般化しすぎてもよくない (1) “X is defined as Y” ≈ “X is described as Y“ (2) “X is defined as Y” != “X is rejected as Y” 6
  6. 提案⼿法:HypeNET n Path-based MethodとDistributional Methodを組み合わせ た⼿法 7 XとYの依存構造 LSTM encoder

    CNNによる 分類器を学習 依存構造を表すベクトル X, Yの分散表現 < Path-based Method < Distributional Method hypernymy not hypernymy
  7. 提案⼿法:HypeNET l “X is a Y” → “X/NOUN/nsubj/>” “be/VERB/ROOT/-” “Y/NOUN/attr/<“

    l ⾒出し語/品詞/依存関係ラベル/係り先 8 XとYの依存構造
  8. データセット 12 n 知識資源をもとに、コーパスから上位・下位関係を表す依存構造を 抽出[Snow et al., 2004] l 知識資源:WordNet,

    DBPedia, Wikidata, Yago n データサイズ:70,679事例 n ラベル:positive or negative n Train / Test / Validate : 70% - 25% - 5%