Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法

文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法

2017/03/21の文献紹介で発表

Yumeto Inaoka

March 21, 2017
Tweet

More Decks by Yumeto Inaoka

Other Decks in Technology

Transcript

  1. 入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,

    永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
  2. 概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦

    文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
  3. 抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3

  4. 一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現

    ◦ 文書中で扱う文書中の最小単位はEDU(節) 4
  5. 網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定

    5
  6. 網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん

    6
  7. 入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7

  8. 入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8

  9. 入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で

    単語間の依存木 を獲得 9
  10. 評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用

    • 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
  11. 評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij

    :i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を   要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
  12. 結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12

  13. 結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13

  14. 結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14

  15. 結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15

  16. まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16