文書生成のための文の並べ替え

文書生成のための文の並べ替え長岡技術科学大学電気系大田浩志, 山本和英１

背景と目的 • 文の並び順は文書の読みやすさに影響をあたえる [Barzilay et al.,02] • 自動で文を尤もらしい順に並べる = 文書生成
文脈を統計的にとらえることを考える並べ替え対象による異なりを調査する 2

問題設定：文を元の並びに戻す • • • • １.人手実験 • 人間はどの程度並べ替えができるか • 新聞記事・レビューによる差異があるか
２.自動並べ替え • 文脈をとらえることができるか 3 1ーーーーーー。 2ーーーーーー。 3ーーーーーー。 3ーーーーー。 1ーーーーー。 2ーーーーー。 ?ーーーーーー。 ?ーーーーーー。 ?ーーーーーー。バラバラ並べる

関連研究複数文書要約 • 要約元文書の時間情報等を用いた並べ替え [Mckeown et al.,1999] • 複数の手法を組み合わせることで並べ替え精度向上 [Bollegala
et al.,05] 4

予備実験・人手による文の並べ替え(1) • 目的 • ２つの対象の性質の違いを確認新聞記事レビュー • 実験方法 •
文順序をバラバラにして提示、並べ替え • 並べ替えを行ったあと自己評価 5

予備実験・人手による文の並べ替え(2) • 並べ替えた結果を評価評価(1) 並べ替えた順序以外では読みにくい評価(2) 他の順序でも読めるが、並べ替えた順序が　　　尤もらしい評価(3)
順序を持たない文を含む 6

予備実験・人手による文の並べ替え(3) • 相関値：元々の順序 - 並べ替え順序 • ケンドールの順位相関係数τ 文順序の尤もらしさの自動評価に有効[Lapata,05] 7

予備実験・人手による文の並べ替え(4) • レビューは新聞記事と比較して、 • 文の並びの自由度が高い＝決まった構成がない（or少ない） • 統計的にとらえることができるもの • 新聞：新聞の構造、文書らしさ
• レビュー：文書らしさ（文脈） 8

既存手法 • 統計による文の並べ替え[Lapata,03] • 文の連接しやすさ • 文の連接確率を単語の連接確率の積で表す
Sentence S i : S j : Word 9

提案：文の連接しにくさの尺度文の連接しにくさ • 単語の連接しにくさの総加平均 • 単語の連接しにくさ連続する２文における共起１文書内での共起 f(a,b): a,bの共起頻度
N:文書数 10

実験：文の連接しにくさの尺度 • a文離れた文同士のスコアを算出ーーーーーーーー。ーーーーーー。ーーーーーー。ーーーーーーー。 a=3 +a 11

提案手法による文の並べ替え • 文の連接しにくさだけでは並べ替えはできない • 相互情報量に基づく指標 • 方向を持たない • 単語の連接しやすさと単語の連接しにくさを
併せて用いる 12

実験：異なる文数のレビュー • 学習はレビュー • 相関係数τ 13

実験：学習データと並べ替え対象 • 文脈をとらえることができたか 14

まとめ • 統計情報を用いた文の並べ替え手法を提案 • 文の連接しにくさの尺度を提案 • 既存手法とは異なる結果 • 新聞記事とレビュー記事を並べ替え •
レビューの文順序は自由度が高い • 生成したい文書を考慮した学習データの選択が必要 15

計算式：ケンドールの順位相関係数 • 文書１：1,2,3 • 文書２：2,1,3 • I=1

計算式：PMI • f(a <i,j> ):i文目のj個目の単語aの出現回数 • N d :文書dの総数

文書生成のための文の並べ替え

文書生成のための文の並べ替え

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript