文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法

文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法

2017/03/21の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

March 21, 2017
Tweet

Transcript

  1. 入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,

    永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
  2. 概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦

    文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
  3. 抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3

  4. 一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現

    ◦ 文書中で扱う文書中の最小単位はEDU(節) 4
  5. 網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定

    5
  6. 網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん

    6
  7. 入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7

  8. 入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8

  9. 入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で

    単語間の依存木 を獲得 9
  10. 評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用

    • 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
  11. 評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij

    :i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を   要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
  12. 結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12

  13. 結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13

  14. 結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14

  15. 結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15

  16. まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16