Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Discourse-Aware Unsupervised Summarizatio...
Search
Kaito Sugimoto
March 08, 2021
Research
0
80
【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
March 08, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
100
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
210
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
240
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
440
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
210
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
140
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
400
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
880
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
240
Other Decks in Research
See All in Research
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
0
120
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
370
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
2
150
「熊本県内バス・電車無料デー」の振り返りとその後の展開@土木計画学SS:成功失敗事例に学ぶ公共交通運賃設定
trafficbrain
0
210
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
460
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
760
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
530
セミコン地域における総合交通戦略
trafficbrain
0
110
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
200
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
270
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
450
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
10
2.5k
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
182
22k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Designing for Performance
lara
604
68k
Why Our Code Smells
bkeepers
PRO
336
57k
What's in a price? How to price your products and services
michaelherold
244
12k
Scaling GitHub
holman
459
140k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Thoughts on Productivity
jonyablonski
69
4.5k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
Discourse-Aware Unsupervised Summarization of Long Scientific Documents Dong et al.,
EACL 2021 杉本 海人 Aizawa Lab. B4 2021/03/08 1 / 25
紹介する論文 • EACL 2021 • https://arxiv.org/abs/2005.00513 2 / 25
読んだ理由 • 学術論文の要約に最近関心を持っている • 学術論文の NLP では abstract を一種の要約とみなして他のタス クに活用することが多いが,
情報の圧縮形式として必ずしも最適 とは限らないかもしれない (論文の分野によっても異なるかもしれない) 3 / 25
どんな論文? • 学術論文向けの, 論文のセクション構造を考慮した教師無し抽出 型要約を提案 • 背景には Graph-based summarization model
というテーマがある 4 / 25
学術論文における教師無し抽出型要約の意義・魅力 • 近年の言語モデルの進化により非抽出型(生成型)要約の研究も 進んでいるが, このタイプだと事実とは異なる要約を生成してし まう可能性もある. 抽出型では本文を抜き出すだけなのでそのような心配がない. • ニュース要約などの汎用的なトピックと異なり, 学術論文は
domain-specific であり, 抽出型要約のための訓練データを用意す るのが難しい (abstract を ground-truth として, それに対して ROUGE が最も高 くなるような抽出型要約を ORACLE とみなすことが多い) 5 / 25
Graph-based summarization model TextRank / LexRank (2004) (Graph-based method のさきがけ)
↓ PACSUM (ACL 2019) (Graph-based method の再訪) ↓ HIPORANK (本研究) (学術論文向けの Graph-based method) 6 / 25
TextRank (2004) Google 検索の PageRank など, コンテンツの重要度を決める Graph-based ranking algorithms
を, 文章の要約に活用したもの コンセプトとしては「投票」 グラフ上のある頂点について, その点に向かっている辺が多ければ多 いほど, より多くの票が投票されており「重要」だとみなされ, かつ 「重要」な点からの投票の方がより重視される 7 / 25
TextRank (2004) 画像は Wikipedia の PageRank の記事から 8 / 25
TextRank (2004) PageRank における, i 番目の頂点のスコアを計算する式 j が i 番目の頂点へ入力する辺を持つ頂点
d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたど り着く確率を表す(逆に 1 − d は直接あるサイトにたどり着く確率). PageRank では d = 0.85 としている. 適当な初期値を与えて収束するまで計算を繰り返す 9 / 25
TextRank (2004) TextRank では? • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類 似度を辺の重みとする, 重み付き無向グラフを考え,
PageRank と 同様に各頂点の重要度を計算する. 最も重要度の高い数文が Extractive Summarization となる. • 文の類似度は色々考えられる. • TextRank では以下の式. • LexRank (2004) では代わりに tf-idf を用いた 10 / 25
TextRank (2004) PageRank と若干異なる点 • 無向グラフなので, 各辺は入力辺でもあり出力辺でもある • 重要度を計算する際, 辺の重みによる加重平均を使ったものに
なる 11 / 25
TextRank (2004) 12 / 25
PACSUM (ACL 2019) Position-Augmented Centrality based Summarization 以下の 2 種類の観点で
Graph-based model の手法を修正 1 文章間の類似度計算に BERT を用いる 2 辺の重みを方向によって変える ニュース記事要約において効果を検証 13 / 25
PACSUM (ACL 2019) 文章間の類似度計算に BERT を用いる 事前学習済みの BERT に, (Word2Vec
のような要領で)隣接した前後 の文章を正例, 残りを負例とした学習により fine-tuning を行う. 14 / 25
PACSUM (ACL 2019) 辺の重みを方向によって変える ドキュメントの中には, 要約に寄与する central な文章とそうでない marginal な文章がある(修辞構造理論)
ニュース記事要約では LEAD-3 が強い baseline になることからも分か るように, 前の方にある文章が central である傾向にある → ある文章の組 A, B(B は A よりドキュメントの後の方にある)があ るとき, A->B よりも B->A の辺の重みを大きくした方が良いという 仮説 15 / 25
PACSUM (ACL 2019) 16 / 25
PACSUM (ACL 2019) 17 / 25
HIPORANK (EACL 2021) Hierarchical and Positional Ranking model PACSUM で考案された「文章間の位置により辺の重みを変える」とい
うアイデアをさらに強化し, 学術論文のようなセクション構造を組み 込む. ポイントは以下の通り 1 同じセクションにおいては文章と文章の類似度を計算する (sentence-sentence edges) のに対し, 異なるセクションにおいては 文章とセクションの類似度 (section-sentence edges) のみ計算する 2 sentence-sentence edges においては, 最初と最後の方にある文章 に向かう辺の重みを大きくする section-sentence edges においては, 最初と最後の方にあるセク ションに対する辺の重みを大きくする 18 / 25
HIPORANK (EACL 2021) 19 / 25
HIPORANK (EACL 2021) sentence-sentence edges(I 番目のセクションの文章 i と文章 j) section-sentence
edges (I 番目のセクションの文章 i と J 番目のセク ション) 各文の最終的な重要度は, sentence-sentence edges と section-sentence edges の重み付き平均になる(この重みはハイパーパラメータ) 20 / 25
HIPORANK (EACL 2021) 21 / 25
HIPORANK (EACL 2021) PACSUM では「前の方にある文章の方が central」という inductive bias が導入されているので, 結果的に文章のはじめの方に偏った要約が生
成されるが, HIPORANK では階層的に前の方と後ろの方が選択される のでバランスが良い 22 / 25
HIPORANK (EACL 2021) 23 / 25
HIPORANK (EACL 2021) その文章が abstract の中身を含んでいるか (content-coverage) その文章が abstract の中身にないものだとしても、goal-oriented
な ユーザーにとって重要かどうか (importance) 24 / 25
感想 • 学術論文のセクション構造をうまく利用していて面白い • ハイパラが多いので調整が難しそう • shorter summary や longer
summary にも使えるかどうか? • Abstract と比較した時, 生成された文章の Quality はどうなのか? • Abstract と比較した時, 埋め込みにより適しているのはどちらな のか? 25 / 25