Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents

【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

March 08, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Discourse-Aware Unsupervised Summarization
    of Long Scientific Documents
    Dong et al., EACL 2021
    杉本 海人
    Aizawa Lab. B4
    2021/03/08
    1 / 25

    View Slide

  2. 紹介する論文
    • EACL 2021
    • https://arxiv.org/abs/2005.00513
    2 / 25

    View Slide

  3. 読んだ理由
    • 学術論文の要約に最近関心を持っている
    • 学術論文の NLP では abstract を一種の要約とみなして他のタス
    クに活用することが多いが, 情報の圧縮形式として必ずしも最適
    とは限らないかもしれない
    (論文の分野によっても異なるかもしれない)
    3 / 25

    View Slide

  4. どんな論文?
    • 学術論文向けの, 論文のセクション構造を考慮した教師無し抽出
    型要約を提案
    • 背景には Graph-based summarization model というテーマがある
    4 / 25

    View Slide

  5. 学術論文における教師無し抽出型要約の意義・魅力
    • 近年の言語モデルの進化により非抽出型(生成型)要約の研究も
    進んでいるが, このタイプだと事実とは異なる要約を生成してし
    まう可能性もある.
    抽出型では本文を抜き出すだけなのでそのような心配がない.
    • ニュース要約などの汎用的なトピックと異なり, 学術論文は
    domain-specific であり, 抽出型要約のための訓練データを用意す
    るのが難しい
    (abstract を ground-truth として, それに対して ROUGE が最も高
    くなるような抽出型要約を ORACLE とみなすことが多い)
    5 / 25

    View Slide

  6. Graph-based summarization model
    TextRank / LexRank (2004) (Graph-based method のさきがけ)

    PACSUM (ACL 2019) (Graph-based method の再訪)

    HIPORANK (本研究) (学術論文向けの Graph-based method)
    6 / 25

    View Slide

  7. TextRank (2004)
    Google 検索の PageRank など, コンテンツの重要度を決める
    Graph-based ranking algorithms を, 文章の要約に活用したもの
    コンセプトとしては「投票」
    グラフ上のある頂点について, その点に向かっている辺が多ければ多
    いほど, より多くの票が投票されており「重要」だとみなされ, かつ
    「重要」な点からの投票の方がより重視される
    7 / 25

    View Slide

  8. TextRank (2004)
    画像は Wikipedia の PageRank の記事から
    8 / 25

    View Slide

  9. TextRank (2004)
    PageRank における, i 番目の頂点のスコアを計算する式
    j が i 番目の頂点へ入力する辺を持つ頂点
    d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたど
    り着く確率を表す(逆に 1 − d は直接あるサイトにたどり着く確率).
    PageRank では d = 0.85 としている.
    適当な初期値を与えて収束するまで計算を繰り返す
    9 / 25

    View Slide

  10. TextRank (2004)
    TextRank では?
    • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類
    似度を辺の重みとする, 重み付き無向グラフを考え, PageRank と
    同様に各頂点の重要度を計算する.
    最も重要度の高い数文が Extractive Summarization となる.
    • 文の類似度は色々考えられる.
    • TextRank では以下の式.
    • LexRank (2004) では代わりに tf-idf を用いた
    10 / 25

    View Slide

  11. TextRank (2004)
    PageRank と若干異なる点
    • 無向グラフなので, 各辺は入力辺でもあり出力辺でもある
    • 重要度を計算する際, 辺の重みによる加重平均を使ったものに
    なる
    11 / 25

    View Slide

  12. TextRank (2004)
    12 / 25

    View Slide

  13. PACSUM (ACL 2019)
    Position-Augmented Centrality based Summarization
    以下の 2 種類の観点で Graph-based model の手法を修正
    1
    文章間の類似度計算に BERT を用いる
    2
    辺の重みを方向によって変える
    ニュース記事要約において効果を検証
    13 / 25

    View Slide

  14. PACSUM (ACL 2019)
    文章間の類似度計算に BERT を用いる
    事前学習済みの BERT に, (Word2Vec のような要領で)隣接した前後
    の文章を正例, 残りを負例とした学習により fine-tuning を行う.
    14 / 25

    View Slide

  15. PACSUM (ACL 2019)
    辺の重みを方向によって変える
    ドキュメントの中には, 要約に寄与する central な文章とそうでない
    marginal な文章がある(修辞構造理論)
    ニュース記事要約では LEAD-3 が強い baseline になることからも分か
    るように, 前の方にある文章が central である傾向にある
    → ある文章の組 A, B(B は A よりドキュメントの後の方にある)があ
    るとき, A->B よりも B->A の辺の重みを大きくした方が良いという
    仮説
    15 / 25

    View Slide

  16. PACSUM (ACL 2019)
    16 / 25

    View Slide

  17. PACSUM (ACL 2019)
    17 / 25

    View Slide

  18. HIPORANK (EACL 2021)
    Hierarchical and Positional Ranking model
    PACSUM で考案された「文章間の位置により辺の重みを変える」とい
    うアイデアをさらに強化し, 学術論文のようなセクション構造を組み
    込む.
    ポイントは以下の通り
    1
    同じセクションにおいては文章と文章の類似度を計算する
    (sentence-sentence edges) のに対し, 異なるセクションにおいては
    文章とセクションの類似度 (section-sentence edges) のみ計算する
    2
    sentence-sentence edges においては, 最初と最後の方にある文章
    に向かう辺の重みを大きくする
    section-sentence edges においては, 最初と最後の方にあるセク
    ションに対する辺の重みを大きくする
    18 / 25

    View Slide

  19. HIPORANK (EACL 2021)
    19 / 25

    View Slide

  20. HIPORANK (EACL 2021)
    sentence-sentence edges(I 番目のセクションの文章 i と文章 j)
    section-sentence edges (I 番目のセクションの文章 i と J 番目のセク
    ション)
    各文の最終的な重要度は, sentence-sentence edges と section-sentence
    edges の重み付き平均になる(この重みはハイパーパラメータ)
    20 / 25

    View Slide

  21. HIPORANK (EACL 2021)
    21 / 25

    View Slide

  22. HIPORANK (EACL 2021)
    PACSUM では「前の方にある文章の方が central」という inductive bias
    が導入されているので, 結果的に文章のはじめの方に偏った要約が生
    成されるが, HIPORANK では階層的に前の方と後ろの方が選択される
    のでバランスが良い
    22 / 25

    View Slide

  23. HIPORANK (EACL 2021)
    23 / 25

    View Slide

  24. HIPORANK (EACL 2021)
    その文章が abstract の中身を含んでいるか (content-coverage)
    その文章が abstract の中身にないものだとしても、goal-oriented な
    ユーザーにとって重要かどうか (importance)
    24 / 25

    View Slide

  25. 感想
    • 学術論文のセクション構造をうまく利用していて面白い
    • ハイパラが多いので調整が難しそう
    • shorter summary や longer summary にも使えるかどうか?
    • Abstract と比較した時, 生成された文章の Quality はどうなのか?
    • Abstract と比較した時, 埋め込みにより適しているのはどちらな
    のか?
    25 / 25

    View Slide