Upgrade to Pro — share decks privately, control downloads, hide ads and more …

含意要因となる表現から作成したパタンを用いたテキスト含意認識

 含意要因となる表現から作成したパタンを用いたテキスト含意認識

宇高 邦弘 含意要因となる表現から作成したパタンを用いたテキスト含意認識. 長岡技術科学大学修士論文. (2013.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 含意要因となる表現から作成した
    パタンを用いたテキスト含意認識
    長岡技術科学大学 電気系 山本研究室
    08310885 宇高 邦弘

    View full-size slide

  2. テキスト含意認識とは
    ・言語表現A(テキスト)が言語表現B(仮説)の
    意味を含むかを自動判定するタスク
    1

    View full-size slide

  3. 研究背景
    ・テキスト中の一部の表現から含意関係を認識可能
    ⇒含意要因となる表現と仮説の対を集めること
    で含意関係認識が可能
    2

    View full-size slide

  4. 研究目的
    ・各自然言語処理タスクのシステムの出力によ
    り構築された海外の評価セットから対を抽出
    ・抽出した対を用いてテキスト含意認識
     ⇒自然言語処理タスクに存在する推論を対象とし
     たテキスト含意認識
    3

    View full-size slide

  5. 含意要因表現-仮説対の抽出方法
    ・過去に海外で公開された評価セットから抽出
      ⇒各自然言語処理タスクのシステムの出力
    からテキストと仮説を構築
      ⇒テキスト中にある含意要因となる表現と
       仮説を対にして人手で抽出
     
      ⇒2,304のテキストと仮説の対から994の
       含意要因表現-仮説対を抽出
    4

    View full-size slide

  6. 含意要因表現-仮説対の抽出例
    テキスト:ドイツの航空会社であるルフトハンザ
        はミュンヘンに直行します
    仮説:ルフトハンザはドイツの航空会社だ
    5

    View full-size slide

  7. 含意要因表現-仮説対の抽出例
    テキスト:ドイツの航空会社であるルフトハンザ
         はミュンヘンに直行します
    仮説:ルフトハンザはドイツの航空会社だ
    6

    View full-size slide

  8. 抽出した対を用いた含意認識手法
    ・抽出した対と入力されるテキスト-仮説対を照合
     ⇒構文解析により文節対に分解
     ⇒動詞、形容詞、名詞(未知語を含む)のみ使用
     ⇒抽出した対から作成される文節対がテキスト-
      仮説対に全て含まれている場合、含意と判断
    7

    View full-size slide

  9. 抽出した対を用いた含意認識の例
    入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした
        文節対:イリノイ生まれ-チャールズ
             チャールズ-俳優
              27歳-俳優
    入力仮説:チャールズはイリノイで生まれた
        文節対:チャールズ-生まれ
             イリノイ-生まれ
    使用する対:
    含意要因表現:イリノイ生まれのチャールズ
        文節対:イリノイ生まれ-チャールズ
    仮説:チャールズはイリノイで生まれた
        文節対:チャールズ-生まれ
             イリノイ-生まれ 8

    View full-size slide

  10. 抽出した対を用いた含意認識の流れ
    9

    View full-size slide

  11. 抽出した対を用いた含意認識の流れ
    10

    View full-size slide

  12. 抽出した対を用いた含意認識の流れ
    11

    View full-size slide

  13. 抽出した対を用いた含意認識の流れ
    12

    View full-size slide

  14. 抽出した対を用いた含意認識の流れ
    13

    View full-size slide

  15. 認識実験
    ・抽出した994の含意要因表現-仮説対を使用
    ・入力:含意要因表現-仮説対の抽出に使用した
    2,304の含意関係を持つテキストと仮説のペア
    14

    View full-size slide

  16. 抽出した対を用いた含意認識結果
    入力した
    テキスト-仮説対の数
    2,304
    含意要因表現-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因表現-仮説対を抽出し照合
    したテキスト-仮説対の数
    633
    含意要因表現-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因表現-仮説対を抽出し
    照合しないテキスト-仮説対の数
    380
    含意要因表現-仮説対を抽出できず
    照合しなかったテキスト-仮説対の数
    1,291
    15

    View full-size slide

  17. 抽出した対を用いた含意認識結果
    入力した
    テキスト-仮説対の数
    2,304
    含意要因-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因-仮説対を抽出し照合
    したテキスト-仮説対の数
    633
    含意要因-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因-仮説対を抽出し照合
    しなかったテキスト-仮説対の数
    380
    含意要因-仮説対を抽出できず
    照合しないテキスト-仮説対の数
    1,291
    16

    View full-size slide

  18. 考察
    ・含意認識を誤った4割について
     ⇒含意要因表現-仮説対を抽出時に行った情報削除
    による文節対の変化が原因
      
            
    17

    View full-size slide

  19. 考察
    ・テキスト-仮説対に照合した含意要因表現-仮
    説対の多くは1回しか照合しない
     ⇒抽出した対の名詞、複合名詞、固有名詞が原因
     ⇒他の含意認識評価セットへ適用し辛い
    18

    View full-size slide

  20. 対からのパタン作成
    ・抽出した対について、名詞、複合名詞、固有名詞を対
    象に汎化
    ・汎化語はwikipediaから人手で作成
    19

    View full-size slide

  21. パタンを用いた含意認識の流れ
    20

    View full-size slide

  22. パタンを用いた含意認識の流れ
    21

    View full-size slide

  23. パタンを用いた含意認識の流れ
    22

    View full-size slide

  24. パタンを用いた含意認識の流れ
    23

    View full-size slide

  25. パタンを用いた含意認識の流れ
    24

    View full-size slide

  26. パタンによる含意認識実験
    ・対の抽出を行った2,304のテキスト-仮説対を2つに
    分割
     ⇒682を入力として、1,622をパタン作成に使用
    ・1,622のテキスト-仮説対から抽出した対から624の
    パタンを作成
    ・文節対での照合
    25

    View full-size slide

  27. パタンを用いた含意認識結果
    ⇒作成したパタンに照合するテキスト-仮説対は
     少数
    入力したテキスト-仮説対の数 682
    含意要因表現-仮説対を抽出可
    能なテキスト-仮説対の数
    357
    パタンに照合したテキスト-仮説
    対の数
    16
    26

    View full-size slide

  28. 考察
    ・パタンに照合したテキスト-仮説対が少ない
     ⇒多様な表現を吸収できない
     
    27

    View full-size slide

  29. 本研究のまとめ
    ・海外の含意認識評価セットから含意要因となる表現と仮説
    の対を抽出し、含意認識
     ⇒994の含意要因表現-仮説対を抽出
     ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の
      6割を正しく含意認識
    ・汎用性を高めるために抽出した対からパタンを作成し、含意
    認識
     ⇒624のパタンを作成
     ⇒ほとんどがパタンに照合せず
     ⇒様々な表現の違いを吸収することで改善可能
    28

    View full-size slide

  30. ご清聴ありがとうございました

    View full-size slide

  31. 抽出した対の照合による含意認識
    入力した
    テキスト-仮説対の数
    2,304
    含意要因-仮説対を抽出
    したテキスト-仮説対の数
    1,013
    含意要因-仮説対を抽出し照合
    したテキスト-仮説対の数
    10
    含意要因-仮説対を抽出できず
    照合したテキスト-仮説対の数
    0
    含意要因-仮説対を抽出し照合
    しなかったテキスト-仮説対の数
    1,003
    含意要因-仮説対を抽出できず
    照合しないテキスト-仮説対の数
    1,291
    多くの対がそのままの
    形ではT-H対に照合し
    ない
    ⇒対抽出時の情報の削
    除が原因

    View full-size slide

  32. Wikipediaからの上位下位関係抽出
    上位-下位
    納豆-食品
    納豆-塩辛納豆
    発酵食品-納豆

    View full-size slide