Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents

【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

March 08, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Discourse-Aware Unsupervised Summarization of Long Scientific Documents Dong et al.,

    EACL 2021 杉本 海人 Aizawa Lab. B4 2021/03/08 1 / 25
  2. 読んだ理由 • 学術論文の要約に最近関心を持っている • 学術論文の NLP では abstract を一種の要約とみなして他のタス クに活用することが多いが,

    情報の圧縮形式として必ずしも最適 とは限らないかもしれない (論文の分野によっても異なるかもしれない) 3 / 25
  3. Graph-based summarization model TextRank / LexRank (2004) (Graph-based method のさきがけ)

    ↓ PACSUM (ACL 2019) (Graph-based method の再訪) ↓ HIPORANK (本研究) (学術論文向けの Graph-based method) 6 / 25
  4. TextRank (2004) Google 検索の PageRank など, コンテンツの重要度を決める Graph-based ranking algorithms

    を, 文章の要約に活用したもの コンセプトとしては「投票」 グラフ上のある頂点について, その点に向かっている辺が多ければ多 いほど, より多くの票が投票されており「重要」だとみなされ, かつ 「重要」な点からの投票の方がより重視される 7 / 25
  5. TextRank (2004) PageRank における, i 番目の頂点のスコアを計算する式 j が i 番目の頂点へ入力する辺を持つ頂点

    d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたど り着く確率を表す(逆に 1 − d は直接あるサイトにたどり着く確率). PageRank では d = 0.85 としている. 適当な初期値を与えて収束するまで計算を繰り返す 9 / 25
  6. TextRank (2004) TextRank では? • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類 似度を辺の重みとする, 重み付き無向グラフを考え,

    PageRank と 同様に各頂点の重要度を計算する. 最も重要度の高い数文が Extractive Summarization となる. • 文の類似度は色々考えられる. • TextRank では以下の式. • LexRank (2004) では代わりに tf-idf を用いた 10 / 25
  7. PACSUM (ACL 2019) Position-Augmented Centrality based Summarization 以下の 2 種類の観点で

    Graph-based model の手法を修正 1 文章間の類似度計算に BERT を用いる 2 辺の重みを方向によって変える ニュース記事要約において効果を検証 13 / 25
  8. PACSUM (ACL 2019) 文章間の類似度計算に BERT を用いる 事前学習済みの BERT に, (Word2Vec

    のような要領で)隣接した前後 の文章を正例, 残りを負例とした学習により fine-tuning を行う. 14 / 25
  9. PACSUM (ACL 2019) 辺の重みを方向によって変える ドキュメントの中には, 要約に寄与する central な文章とそうでない marginal な文章がある(修辞構造理論)

    ニュース記事要約では LEAD-3 が強い baseline になることからも分か るように, 前の方にある文章が central である傾向にある → ある文章の組 A, B(B は A よりドキュメントの後の方にある)があ るとき, A->B よりも B->A の辺の重みを大きくした方が良いという 仮説 15 / 25
  10. HIPORANK (EACL 2021) Hierarchical and Positional Ranking model PACSUM で考案された「文章間の位置により辺の重みを変える」とい

    うアイデアをさらに強化し, 学術論文のようなセクション構造を組み 込む. ポイントは以下の通り 1 同じセクションにおいては文章と文章の類似度を計算する (sentence-sentence edges) のに対し, 異なるセクションにおいては 文章とセクションの類似度 (section-sentence edges) のみ計算する 2 sentence-sentence edges においては, 最初と最後の方にある文章 に向かう辺の重みを大きくする section-sentence edges においては, 最初と最後の方にあるセク ションに対する辺の重みを大きくする 18 / 25
  11. HIPORANK (EACL 2021) sentence-sentence edges(I 番目のセクションの文章 i と文章 j) section-sentence

    edges (I 番目のセクションの文章 i と J 番目のセク ション) 各文の最終的な重要度は, sentence-sentence edges と section-sentence edges の重み付き平均になる(この重みはハイパーパラメータ) 20 / 25
  12. 感想 • 学術論文のセクション構造をうまく利用していて面白い • ハイパラが多いので調整が難しそう • shorter summary や longer

    summary にも使えるかどうか? • Abstract と比較した時, 生成された文章の Quality はどうなのか? • Abstract と比較した時, 埋め込みにより適しているのはどちらな のか? 25 / 25