Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Discourse-Aware Unsupervised Summarization of Long Scientific Documents Dong et al., EACL 2021 杉本 海人 Aizawa Lab. B4 2021/03/08 1 / 25
Slide 2
Slide 2 text
紹介する論文 • EACL 2021 • https://arxiv.org/abs/2005.00513 2 / 25
Slide 3
Slide 3 text
読んだ理由 • 学術論文の要約に最近関心を持っている • 学術論文の NLP では abstract を一種の要約とみなして他のタス クに活用することが多いが, 情報の圧縮形式として必ずしも最適 とは限らないかもしれない (論文の分野によっても異なるかもしれない) 3 / 25
Slide 4
Slide 4 text
どんな論文? • 学術論文向けの, 論文のセクション構造を考慮した教師無し抽出 型要約を提案 • 背景には Graph-based summarization model というテーマがある 4 / 25
Slide 5
Slide 5 text
学術論文における教師無し抽出型要約の意義・魅力 • 近年の言語モデルの進化により非抽出型(生成型)要約の研究も 進んでいるが, このタイプだと事実とは異なる要約を生成してし まう可能性もある. 抽出型では本文を抜き出すだけなのでそのような心配がない. • ニュース要約などの汎用的なトピックと異なり, 学術論文は domain-specific であり, 抽出型要約のための訓練データを用意す るのが難しい (abstract を ground-truth として, それに対して ROUGE が最も高 くなるような抽出型要約を ORACLE とみなすことが多い) 5 / 25
Slide 6
Slide 6 text
Graph-based summarization model TextRank / LexRank (2004) (Graph-based method のさきがけ) ↓ PACSUM (ACL 2019) (Graph-based method の再訪) ↓ HIPORANK (本研究) (学術論文向けの Graph-based method) 6 / 25
Slide 7
Slide 7 text
TextRank (2004) Google 検索の PageRank など, コンテンツの重要度を決める Graph-based ranking algorithms を, 文章の要約に活用したもの コンセプトとしては「投票」 グラフ上のある頂点について, その点に向かっている辺が多ければ多 いほど, より多くの票が投票されており「重要」だとみなされ, かつ 「重要」な点からの投票の方がより重視される 7 / 25
Slide 8
Slide 8 text
TextRank (2004) 画像は Wikipedia の PageRank の記事から 8 / 25
Slide 9
Slide 9 text
TextRank (2004) PageRank における, i 番目の頂点のスコアを計算する式 j が i 番目の頂点へ入力する辺を持つ頂点 d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたど り着く確率を表す(逆に 1 − d は直接あるサイトにたどり着く確率). PageRank では d = 0.85 としている. 適当な初期値を与えて収束するまで計算を繰り返す 9 / 25
Slide 10
Slide 10 text
TextRank (2004) TextRank では? • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類 似度を辺の重みとする, 重み付き無向グラフを考え, PageRank と 同様に各頂点の重要度を計算する. 最も重要度の高い数文が Extractive Summarization となる. • 文の類似度は色々考えられる. • TextRank では以下の式. • LexRank (2004) では代わりに tf-idf を用いた 10 / 25
Slide 11
Slide 11 text
TextRank (2004) PageRank と若干異なる点 • 無向グラフなので, 各辺は入力辺でもあり出力辺でもある • 重要度を計算する際, 辺の重みによる加重平均を使ったものに なる 11 / 25
Slide 12
Slide 12 text
TextRank (2004) 12 / 25
Slide 13
Slide 13 text
PACSUM (ACL 2019) Position-Augmented Centrality based Summarization 以下の 2 種類の観点で Graph-based model の手法を修正 1 文章間の類似度計算に BERT を用いる 2 辺の重みを方向によって変える ニュース記事要約において効果を検証 13 / 25
Slide 14
Slide 14 text
PACSUM (ACL 2019) 文章間の類似度計算に BERT を用いる 事前学習済みの BERT に, (Word2Vec のような要領で)隣接した前後 の文章を正例, 残りを負例とした学習により fine-tuning を行う. 14 / 25
Slide 15
Slide 15 text
PACSUM (ACL 2019) 辺の重みを方向によって変える ドキュメントの中には, 要約に寄与する central な文章とそうでない marginal な文章がある(修辞構造理論) ニュース記事要約では LEAD-3 が強い baseline になることからも分か るように, 前の方にある文章が central である傾向にある → ある文章の組 A, B(B は A よりドキュメントの後の方にある)があ るとき, A->B よりも B->A の辺の重みを大きくした方が良いという 仮説 15 / 25
Slide 16
Slide 16 text
PACSUM (ACL 2019) 16 / 25
Slide 17
Slide 17 text
PACSUM (ACL 2019) 17 / 25
Slide 18
Slide 18 text
HIPORANK (EACL 2021) Hierarchical and Positional Ranking model PACSUM で考案された「文章間の位置により辺の重みを変える」とい うアイデアをさらに強化し, 学術論文のようなセクション構造を組み 込む. ポイントは以下の通り 1 同じセクションにおいては文章と文章の類似度を計算する (sentence-sentence edges) のに対し, 異なるセクションにおいては 文章とセクションの類似度 (section-sentence edges) のみ計算する 2 sentence-sentence edges においては, 最初と最後の方にある文章 に向かう辺の重みを大きくする section-sentence edges においては, 最初と最後の方にあるセク ションに対する辺の重みを大きくする 18 / 25
Slide 19
Slide 19 text
HIPORANK (EACL 2021) 19 / 25
Slide 20
Slide 20 text
HIPORANK (EACL 2021) sentence-sentence edges(I 番目のセクションの文章 i と文章 j) section-sentence edges (I 番目のセクションの文章 i と J 番目のセク ション) 各文の最終的な重要度は, sentence-sentence edges と section-sentence edges の重み付き平均になる(この重みはハイパーパラメータ) 20 / 25
Slide 21
Slide 21 text
HIPORANK (EACL 2021) 21 / 25
Slide 22
Slide 22 text
HIPORANK (EACL 2021) PACSUM では「前の方にある文章の方が central」という inductive bias が導入されているので, 結果的に文章のはじめの方に偏った要約が生 成されるが, HIPORANK では階層的に前の方と後ろの方が選択される のでバランスが良い 22 / 25
Slide 23
Slide 23 text
HIPORANK (EACL 2021) 23 / 25
Slide 24
Slide 24 text
HIPORANK (EACL 2021) その文章が abstract の中身を含んでいるか (content-coverage) その文章が abstract の中身にないものだとしても、goal-oriented な ユーザーにとって重要かどうか (importance) 24 / 25
Slide 25
Slide 25 text
感想 • 学術論文のセクション構造をうまく利用していて面白い • ハイパラが多いので調整が難しそう • shorter summary や longer summary にも使えるかどうか? • Abstract と比較した時, 生成された文章の Quality はどうなのか? • Abstract と比較した時, 埋め込みにより適しているのはどちらな のか? 25 / 25