Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

youichiro
February 25, 2018

Improving Hypernymy Detection with an Integrated Path-based and Distributional Method

文献紹介 2018-02-26
長岡技術科学大学
自然言語処理研究室

youichiro

February 25, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Improving Hypernymy Detection
    with an Integrated Path-based and
    Distributional Method
    Vered Shwartz, Yoav Goldberg, Ido Dagan
    Association for Computational Linguistics, pages 2389–2398, 2016
    ⽂献紹介 2018-02-26
    ⻑岡技術科学⼤学 ⾃然⾔語処理研究室
    ⼩川 耀⼀朗

    View Slide

  2. 概要
    l ある2つの単語が上位・下位関係にあるかどうかを判別するタ
    スク
    l ⽂の依存関係をLSTMに⼊⼒してベクトル表現を獲得し、2値
    分類を⾏う
    l 分散表現を⽤いた⼿法と組み合わせることで最先端な性能を
    ⽰した
    1

    View Slide

  3. タスク:Hypernymy Detection Task
    n Hypernymy
    l 2つの単語の意味的な上位・下位関係
    l ex. (pineapple, fruit), (green, color), (Obama, president)
    n Hypernymy Detection Task
    l ある単語X, Yが与えられた時、YがXの上位語であるかを
    判断する
    2

    View Slide

  4. タスク:Hypernymy Detection Task
    n 応⽤事例:質問応答
    l Q: “What animals inhabit the Arctic regions?”
    l A: “Polar bears inhabit the Arctic regions.”
    l NG: “Indigenous people inhabit the Arctic regions.”
    l 知識: ○(bears, animal) ×(people, animal)
    n 従来⼿法
    l Path-based Method:依存構造を⽤いた⼿法
    l Distributional Method:分散表現を⽤いた⼿法
    3

    View Slide

  5. Distributional Method –分散表現を⽤いた⼿法-
    n アイデア:分散表現に基づいて単語間の関係を認識する
    n 上位・下位関係にある単語X, Yのベクトル表現:,
    ̇ ̇
    n 2つのベクトルの関係を分類器に学習させて分類する
    結合 ̇⨁̇ , 差分 ̇ − ̇
    4

    View Slide

  6. Path-based Method –依存構造を⽤いた⼿法-
    n アイデア:上位・下位関係を⽰す⽂法的なパターンがある
    ex. X or other Y, X is a Y, Y including X
    n このようなパターンは⽂の依存構造によって表現される
    n 依存構造を分類器に学習させて分類する
    5

    View Slide

  7. Path-based Method –依存構造を⽤いた⼿法-
    n 問題点
    l 上位・下位関係にある単語の対を含む事例がコーパスに
    そう多く存在しない
    Ø 再現率が上がらない
    n PATTY [Nakashole et al., 2012]は単語の置換によって依存
    構造の⼀般化を⾏なった
    “X corporation is a Y” → “X NOUN is a Y”
    “X is defined as Y” → “X is VERB as Y”
    Ø ⼀般化しすぎてもよくない
    (1) “X is defined as Y” ≈ “X is described as Y“
    (2) “X is defined as Y” != “X is rejected as Y” 6

    View Slide

  8. 提案⼿法:HypeNET
    n Path-based MethodとDistributional Methodを組み合わせ
    た⼿法
    7
    XとYの依存構造
    LSTM encoder
    CNNによる
    分類器を学習
    依存構造を表すベクトル
    X, Yの分散表現
    < Path-based Method
    < Distributional Method
    hypernymy
    not
    hypernymy

    View Slide

  9. 提案⼿法:HypeNET
    l “X is a Y” → “X/NOUN/nsubj/>” “be/VERB/ROOT/-” “Y/NOUN/attr/l ⾒出し語/品詞/依存関係ラベル/係り先
    8
    XとYの依存構造

    View Slide

  10. 提案⼿法:HypeNET
    l ⾒出し語/品詞/依存関係ラベル/係り先で構成された要素を
    LSTMに⼊⼒し、依存構造ベクトルを出⼒
    9
    LSTM

    View Slide

  11. 提案⼿法:HypeNET
    l 依存構造ベクトルに、XとYの分散表現を加える
    10
    X, Yの分散表現

    View Slide

  12. 提案⼿法:HypeNET
    l X, Yの依存構造ベクトルと単語ベクトルから、YがXの上位語であるかどうか
    を2値分類する分類器を学習
    11
    CNNによる
    分類器を学習

    View Slide

  13. データセット
    12
    n 知識資源をもとに、コーパスから上位・下位関係を表す依存構造を
    抽出[Snow et al., 2004]
    l 知識資源:WordNet, DBPedia, Wikidata, Yago
    n データサイズ:70,679事例
    n ラベル:positive or negative
    n Train / Test / Validate : 70% - 25% - 5%

    View Slide

  14. 実験結果(1)
    13
    n Path-based:
    l 再現率が⼤きく向上し、(Path-basedの)先⾏研究を上回った
    l Distributionalの最⾼性能と同じくらいの性能を達成した

    View Slide

  15. 実験結果(2)
    14
    n Combined:
    l Path-based, Distributionalのどちらの性能も上回った

    View Slide

  16. まとめ
    15
    l ある2つの単語が上位・下位関係にあるかどうかを判別する⼿法を
    提案
    l ⽂の依存構造をLSTMを使ってベクトル表現
    l 分散表現を加えて2値分類
    l 最先端の性能を達成した

    View Slide