Upgrade to Pro — share decks privately, control downloads, hide ads and more …

含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識

 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識

宇高邦弘, 山本和英. 含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識. 言語処理学会第18回年次大会, pp.435-438 (2012.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 含意要因となるテキスト中の表現と
    仮説の対を用いたテキスト含意認識
    長岡技術科学大学 電気系
    宇高 邦弘, 山本 和英

    View full-size slide

  2. 研究背景
    ・テキスト中の一部の表現から含意関係を認識可能
    ⇒含意要因となる表現と仮説の対を集めること
    で含意関係認識が可能
    1

    View full-size slide

  3. 研究目的
    ・PASCAL1~PASCAL3で公開された評価セット
    から対を抽出
    ・抽出した対を用いてテキスト含意認識
     ⇒自然言語処理タスクに存在する推論を対象とし
     たテキスト含意認識
    2

    View full-size slide

  4. 含意要因表現-仮説対の抽出方法
    ・PASCAL1~PASCAL3で公開された評価セット
    から抽出
      ⇒テキスト中にある含意要因となる表現と
       仮説を対にして人手で抽出
     
      ⇒2,304のテキストと仮説の対から994の
       含意要因表現-仮説対を抽出
    3

    View full-size slide

  5. 含意要因表現-仮説対の抽出例
    テキスト:ドイツの航空会社であるルフトハンザ
         はミュンヘンに直行します
    仮説:ルフトハンザはドイツの航空会社だ
    4

    View full-size slide

  6. 含意要因表現-仮説対の抽出例
    テキスト:ドイツの航空会社であるルフトハンザ
         はミュンヘンに直行します
    仮説:ルフトハンザはドイツの航空会社だ
    5

    View full-size slide

  7. 抽出した対の特徴
    ・「の」で結合された名詞
    ・包含
    ・述語含意
    6

    View full-size slide

  8. 抽出した対を用いた含意認識手法
    ・抽出した対と入力されるテキスト-仮説対を照合
     ⇒構文解析により文節対に分解
     ⇒抽出した対から作成される文節対がテキスト-
      仮説対に全て含まれている場合は含意と判断
    7

    View full-size slide

  9. 抽出した対を用いた含意認識の例
    入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした
              イリノイ生まれ-チャールズ
             チャールズ-俳優
              27歳-俳優
    入力仮説:  チャールズはイリノイで生まれた
              チャールズ-生まれ
             イリノイ-生まれ
    抽出した対:
    含意要因表現:イリノイ生まれのチャールズ
             イリノイ生まれ-チャールズ
    仮説:チャールズはイリノイで生まれた
             チャールズ-生まれ
             イリノイ-生まれ
    8

    View full-size slide

  10. 抽出した対を用いた含意認識の流れ
    9

    View full-size slide

  11. 抽出した対を用いた含意認識の流れ
    10

    View full-size slide

  12. 抽出した対を用いた含意認識の流れ
    11

    View full-size slide

  13. 抽出した対を用いた含意認識の流れ
    12

    View full-size slide

  14. 抽出した対を用いた含意認識の流れ
    13

    View full-size slide

  15. 認識実験
    ・抽出した994の含意要因表現-仮説対を使用
    ・対の抽出に使用した2,304の含意関係を持つテ
    キスト-仮説対
    14

    View full-size slide

  16. 抽出した対を用いた含意認識結果
    入力した
    テキスト-仮説対の数
    2,304
    含意要因表現-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因表現-仮説対を抽出し照合
    したテキスト-仮説対の数
    633
    含意要因表現-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因表現-仮説対を抽出し
    照合しないテキスト-仮説対の数
    380
    含意要因表現-仮説対を抽出できず
    照合しなかったテキスト-仮説対の数
    1,291
    15

    View full-size slide

  17. 抽出した対を用いた含意認識結果
    入力した
    テキスト-仮説対の数
    2,304
    含意要因-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因-仮説対を抽出し照合
    したテキスト-仮説対の数
    633
    含意要因-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因-仮説対を抽出し照合
    しなかったテキスト-仮説対の数
    380
    含意要因-仮説対を抽出できず
    照合しないテキスト-仮説対の数
    1,291
    16

    View full-size slide

  18. 考察
    ・含意認識を誤った4割について
     ⇒含意要因表現-仮説対を抽出時に行った情報削除
    による文節対の変化が原因
      
            
    17

    View full-size slide

  19. 考察
    ・テキスト-仮説対に照合した含意要因表現-仮
    説対の多くは1回しか照合しない
     ⇒抽出した対の名詞、複合名詞、固有名詞が原因
     ⇒他の含意認識評価セットへ適用し辛い
    18

    View full-size slide

  20. 対からのパタン作成
    ・抽出した対について、名詞、複合名詞、固有名詞を対
    象に汎化
    ・汎化語はwikipediaから人手で作成
    19

    View full-size slide

  21. パタンを用いた含意認識の流れ
    20

    View full-size slide

  22. パタンを用いた含意認識の流れ
    21

    View full-size slide

  23. パタンを用いた含意認識の流れ
    22

    View full-size slide

  24. パタンを用いた含意認識の流れ
    23

    View full-size slide

  25. パタンを用いた含意認識の流れ
    24

    View full-size slide

  26. パタンによる含意認識実験
    ・PASCAL1~PASCAL3の評価セットに含まれる
    2,304のテキスト-仮説対を2つに分割
     ⇒682(PASCAL1)を入力
       1,622(PASCAL2,3)からパタン作成
    ・文節対での照合
    25

    View full-size slide

  27. パタンを用いた含意認識結果
    ⇒作成したパタンに照合するテキスト-仮説対は
     少数
    入力したテキスト-仮説対の数 682
    含意要因表現-仮説対を抽出可
    能なテキスト-仮説対の数
    357
    パタンに照合したテキスト-仮説
    対の数
    16
    26

    View full-size slide

  28. 考察
    ・パタンに照合したテキスト-仮説対が少ない
     ⇒多様な表現を吸収できない
     
     
     ⇒適用可能な汎化語を用いてパタンを拡張
    27

    View full-size slide

  29. 考察
    ・パタンに照合したテキスト-仮説対が少ない
     ⇒多様な表現を吸収できない
      
     
     ⇒述語の同義、含意関係を知識としてまとめる
    28

    View full-size slide

  30. 本研究のまとめ
    ・海外の含意認識評価セットから含意要因となる表現と仮説
    の対を抽出し、含意認識
     ⇒994の含意要因表現-仮説対を抽出
     ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の
      6割を正しく含意認識
    ・汎用性を高めるために抽出した対からパタンを作成し、含意
    認識
     ⇒624のパタンを作成
     ⇒ほとんどがパタンに照合せず
     ⇒様々な表現の違いを吸収することで改善可能
    29

    View full-size slide

  31. ご清聴ありがとうございました

    View full-size slide

  32. 抽出した対の照合による含意認識
    入力した
    テキスト-仮説対の数
    2,304
    含意要因-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因-仮説対を抽出し照合
    したテキスト-仮説対の数
    10
    含意要因-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因-仮説対を抽出し照合
    しなかったテキスト-仮説対の数
    1,003
    含意要因-仮説対を抽出できず
    照合しないテキスト-仮説対の数
    1,291
    多くの対がそのままの
    形ではT-H対に照合し
    ない
    ⇒対抽出時の情報の削
    除が原因

    View full-size slide

  33. Wikipediaからの上位下位関係抽出
    上位-下位
    納豆-食品
    納豆-塩辛納豆
    発酵食品-納豆

    View full-size slide