2017/03/21の文献紹介で発表
入れ子依存木の刈り込みによる単一文書要約手法菊池 悠太, 平尾 努, 高村 大也, 奥村 学, 永田 昌明言語処理学会, Vol. 22, No. 3, pp.197-217, 20151文献紹介(2017/03/21)自然言語処理研究室 稲岡 夢人
View Slide
概要● 従来手法○ 単語間の関係を利用して文を圧縮○ 文と文の関係には着目せず● 提案手法○ 文書を文間、単語間の依存関係を表す入れ子依存木とみなす○ 単語重要度の和が最大な木の刈り込み○ 要約精度の向上2
抽出型要約● 文書を文、節、単語等の集合とみなす● 部分集合の選択による要約文書の生成● 一貫性、網羅性、要約長への柔軟な対応3
一貫性● 原文書の談話構造を保持した要約● 談話構造を保持していない場合→原文書の意図と違う解釈を誘発する要約● 修辞構造理論(RST)○ 文書の大域的な談話構造を木で表現○ 文書中で扱う文書中の最小単位はEDU(節)4
網羅性● 原文書の重要な内容を網羅しているか● 整数計画問題と考える研究が盛ん○ 重要な部分集合を選択する問題○ 部分集合が原文書の情報をなるべく被覆するような目的関数を設定5
網羅性と要約長の関係● 文を抽出単位とすると、非常に短い要約文書の要求時に情報の網羅性が低下● 文抽出と文圧縮を組み合わせるアプローチ○ 文圧縮:単語、句の削除による短文化○ 同時に行うアプローチの研究が盛ん6
入れ子依存木● 文間依存木 :文間の依存関係を表す木● 単語間依存木:単語間の依存関係を表す木● 入れ子依存木:上記の木が入れ子となる木7
入れ子依存木● 文間依存木の根ノードが部分木の根となる● 単語間依存木の根ノードは必ずしも部分木の根とはならない→制約による網羅性向上の妨げを防止8
入れ子依存木の構築1. RSTの木構造をDEP-DTへ変換2. DEP-DTを文がノードの依存木に変換3. 依存構造解析で単語間の依存木を獲得9
評価実験● RST Discourse Treebankの要約評価用テストセットを使用● 原文書の25%(long), 10%(short)程度のトークン数の参照要約を使用● 比較手法としてEDU, 文を単位とした要約手法を用意● テストセットに含まれる修辞構造を用いた場合と解析器で自動で解析した場合10
評価実験● n:原文書の文数● mi:文iの単語数● wij:i番目の文におけるj番目の単語の重み● zij:i番目の文におけるj番目の単語を 要約に含めるときに1となる変数● 目的関数:要約に含まれた単語の重みの総数● tfijは単語wijの頻度● depth(i)は文xiの根からの深11
結果(修辞構造を用いた場合)● 任意部分木と根付き部分木で差はみられない● shortの場合は全ての場合で有意に上回る● longの場合は顕著な差は現れない12
結果(解析器を用いた場合)● shortの場合は提案手法の方が劣化が大きい13
結果(文間依存木の有無)● 木の深さ情報が重要箇所の同定に寄与14
結果(部分木抽出手法の比較)● 目的節、that節のほうが重要な場合に有用15
まとめ● 入れ子依存木の構築によりROUGEが向上● 根にこだわらない任意部分木抽出手法が有用● 修辞構造解析器による精度への影響を確認16