【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents

Slide 1

Slide 1 text

Discourse-Aware Unsupervised Summarization of Long Scientiﬁc Documents Dong et al., EACL 2021 杉本海人 Aizawa Lab. B4 2021/03/08 1 / 25

Slide 2

Slide 2 text

紹介する論文 • EACL 2021 • https://arxiv.org/abs/2005.00513 2 / 25

Slide 3

Slide 3 text

読んだ理由 • 学術論文の要約に最近関心を持っている • 学術論文の NLP では abstract を一種の要約とみなして他のタスクに活用することが多いが, 情報の圧縮形式として必ずしも最適とは限らないかもしれない（論文の分野によっても異なるかもしれない） 3 / 25

Slide 4

Slide 4 text

どんな論文？ • 学術論文向けの, 論文のセクション構造を考慮した教師無し抽出型要約を提案 • 背景には Graph-based summarization model というテーマがある 4 / 25

Slide 5

Slide 5 text

学術論文における教師無し抽出型要約の意義・魅力 • 近年の言語モデルの進化により非抽出型（生成型）要約の研究も進んでいるが, このタイプだと事実とは異なる要約を生成してしまう可能性もある. 抽出型では本文を抜き出すだけなのでそのような心配がない. • ニュース要約などの汎用的なトピックと異なり, 学術論文は domain-speciﬁc であり, 抽出型要約のための訓練データを用意するのが難しい（abstract を ground-truth として, それに対して ROUGE が最も高くなるような抽出型要約を ORACLE とみなすことが多い） 5 / 25

Slide 6

Slide 6 text

Graph-based summarization model TextRank / LexRank (2004) （Graph-based method のさきがけ） ↓ PACSUM (ACL 2019) （Graph-based method の再訪） ↓ HIPORANK (本研究) （学術論文向けの Graph-based method） 6 / 25

Slide 7

Slide 7 text

TextRank (2004) Google 検索の PageRank など, コンテンツの重要度を決める Graph-based ranking algorithms を, 文章の要約に活用したものコンセプトとしては「投票」グラフ上のある頂点について, その点に向かっている辺が多ければ多いほど, より多くの票が投票されており「重要」だとみなされ, かつ「重要」な点からの投票の方がより重視される 7 / 25

Slide 8

Slide 8 text

TextRank (2004) 画像は Wikipedia の PageRank の記事から 8 / 25

Slide 9

Slide 9 text

TextRank (2004) PageRank における, i 番目の頂点のスコアを計算する式 j が i 番目の頂点へ入力する辺を持つ頂点 d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたどり着く確率を表す（逆に 1 − d は直接あるサイトにたどり着く確率）. PageRank では d = 0.85 としている. 適当な初期値を与えて収束するまで計算を繰り返す 9 / 25

Slide 10

Slide 10 text

TextRank (2004) TextRank では？ • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類似度を辺の重みとする, 重み付き無向グラフを考え, PageRank と同様に各頂点の重要度を計算する. 最も重要度の高い数文が Extractive Summarization となる. • 文の類似度は色々考えられる. • TextRank では以下の式. • LexRank (2004) では代わりに tf-idf を用いた 10 / 25

Slide 11

Slide 11 text

TextRank (2004) PageRank と若干異なる点 • 無向グラフなので, 各辺は入力辺でもあり出力辺でもある • 重要度を計算する際, 辺の重みによる加重平均を使ったものになる 11 / 25

Slide 12

Slide 12 text

TextRank (2004) 12 / 25

Slide 13

Slide 13 text

PACSUM (ACL 2019) Position-Augmented Centrality based Summarization 以下の 2 種類の観点で Graph-based model の手法を修正 1 文章間の類似度計算に BERT を用いる 2 辺の重みを方向によって変えるニュース記事要約において効果を検証 13 / 25

Slide 14

Slide 14 text

PACSUM (ACL 2019) 文章間の類似度計算に BERT を用いる事前学習済みの BERT に, （Word2Vec のような要領で）隣接した前後の文章を正例, 残りを負例とした学習により ﬁne-tuning を行う. 14 / 25

Slide 15

Slide 15 text

PACSUM (ACL 2019) 辺の重みを方向によって変えるドキュメントの中には, 要約に寄与する central な文章とそうでない marginal な文章がある（修辞構造理論）ニュース記事要約では LEAD-3 が強い baseline になることからも分かるように, 前の方にある文章が central である傾向にある → ある文章の組 A, B（B は A よりドキュメントの後の方にある）があるとき, A->B よりも B->A の辺の重みを大きくした方が良いという仮説 15 / 25

Slide 16

Slide 16 text

PACSUM (ACL 2019) 16 / 25

Slide 17

Slide 17 text

PACSUM (ACL 2019) 17 / 25

Slide 18

Slide 18 text

HIPORANK (EACL 2021) Hierarchical and Positional Ranking model PACSUM で考案された「文章間の位置により辺の重みを変える」というアイデアをさらに強化し, 学術論文のようなセクション構造を組み込む. ポイントは以下の通り 1 同じセクションにおいては文章と文章の類似度を計算する (sentence-sentence edges) のに対し, 異なるセクションにおいては文章とセクションの類似度 (section-sentence edges) のみ計算する 2 sentence-sentence edges においては, 最初と最後の方にある文章に向かう辺の重みを大きくする section-sentence edges においては, 最初と最後の方にあるセクションに対する辺の重みを大きくする 18 / 25

Slide 19

Slide 19 text

HIPORANK (EACL 2021) 19 / 25

Slide 20

Slide 20 text

HIPORANK (EACL 2021) sentence-sentence edges（I 番目のセクションの文章 i と文章 j） section-sentence edges (I 番目のセクションの文章 i と J 番目のセクション) 各文の最終的な重要度は, sentence-sentence edges と section-sentence edges の重み付き平均になる（この重みはハイパーパラメータ） 20 / 25

Slide 21

Slide 21 text

HIPORANK (EACL 2021) 21 / 25

Slide 22

Slide 22 text

HIPORANK (EACL 2021) PACSUM では「前の方にある文章の方が central」という inductive bias が導入されているので, 結果的に文章のはじめの方に偏った要約が生成されるが, HIPORANK では階層的に前の方と後ろの方が選択されるのでバランスが良い 22 / 25

Slide 23

Slide 23 text

HIPORANK (EACL 2021) 23 / 25

Slide 24

Slide 24 text

HIPORANK (EACL 2021) その文章が abstract の中身を含んでいるか (content-coverage) その文章が abstract の中身にないものだとしても、goal-oriented なユーザーにとって重要かどうか (importance) 24 / 25

Slide 25

Slide 25 text

感想 • 学術論文のセクション構造をうまく利用していて面白い • ハイパラが多いので調整が難しそう • shorter summary や longer summary にも使えるかどうか？ • Abstract と比較した時, 生成された文章の Quality はどうなのか？ • Abstract と比較した時, 埋め込みにより適しているのはどちらなのか？ 25 / 25