Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Discourse-Aware Unsupervised Summarizatio...
Search
Kaito Sugimoto
March 08, 2021
Research
0
98
【論文紹介】Discourse-Aware Unsupervised Summarization of Long Scientific Documents
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
March 08, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
140
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
310
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
280
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
530
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
310
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
170
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
490
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1.1k
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
300
Other Decks in Research
See All in Research
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
250
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
340
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
450
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
420
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
110
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
miso2024
0
190
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
180
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
satai
3
430
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
290
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
63
35k
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1k
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
350
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
0
840
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
120
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
286
14k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
23
What's in a price? How to price your products and services
michaelherold
246
13k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.1k
How Software Deployment tools have changed in the past 20 years
geshan
0
29k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
310
Transcript
Discourse-Aware Unsupervised Summarization of Long Scientific Documents Dong et al.,
EACL 2021 杉本 海人 Aizawa Lab. B4 2021/03/08 1 / 25
紹介する論文 • EACL 2021 • https://arxiv.org/abs/2005.00513 2 / 25
読んだ理由 • 学術論文の要約に最近関心を持っている • 学術論文の NLP では abstract を一種の要約とみなして他のタス クに活用することが多いが,
情報の圧縮形式として必ずしも最適 とは限らないかもしれない (論文の分野によっても異なるかもしれない) 3 / 25
どんな論文? • 学術論文向けの, 論文のセクション構造を考慮した教師無し抽出 型要約を提案 • 背景には Graph-based summarization model
というテーマがある 4 / 25
学術論文における教師無し抽出型要約の意義・魅力 • 近年の言語モデルの進化により非抽出型(生成型)要約の研究も 進んでいるが, このタイプだと事実とは異なる要約を生成してし まう可能性もある. 抽出型では本文を抜き出すだけなのでそのような心配がない. • ニュース要約などの汎用的なトピックと異なり, 学術論文は
domain-specific であり, 抽出型要約のための訓練データを用意す るのが難しい (abstract を ground-truth として, それに対して ROUGE が最も高 くなるような抽出型要約を ORACLE とみなすことが多い) 5 / 25
Graph-based summarization model TextRank / LexRank (2004) (Graph-based method のさきがけ)
↓ PACSUM (ACL 2019) (Graph-based method の再訪) ↓ HIPORANK (本研究) (学術論文向けの Graph-based method) 6 / 25
TextRank (2004) Google 検索の PageRank など, コンテンツの重要度を決める Graph-based ranking algorithms
を, 文章の要約に活用したもの コンセプトとしては「投票」 グラフ上のある頂点について, その点に向かっている辺が多ければ多 いほど, より多くの票が投票されており「重要」だとみなされ, かつ 「重要」な点からの投票の方がより重視される 7 / 25
TextRank (2004) 画像は Wikipedia の PageRank の記事から 8 / 25
TextRank (2004) PageRank における, i 番目の頂点のスコアを計算する式 j が i 番目の頂点へ入力する辺を持つ頂点
d は 0 から 1 の間を取る変数で, リンクを経由してあるサイトにたど り着く確率を表す(逆に 1 − d は直接あるサイトにたどり着く確率). PageRank では d = 0.85 としている. 適当な初期値を与えて収束するまで計算を繰り返す 9 / 25
TextRank (2004) TextRank では? • 要約させたいドキュメントに対し, それぞれの文を頂点, 文の類 似度を辺の重みとする, 重み付き無向グラフを考え,
PageRank と 同様に各頂点の重要度を計算する. 最も重要度の高い数文が Extractive Summarization となる. • 文の類似度は色々考えられる. • TextRank では以下の式. • LexRank (2004) では代わりに tf-idf を用いた 10 / 25
TextRank (2004) PageRank と若干異なる点 • 無向グラフなので, 各辺は入力辺でもあり出力辺でもある • 重要度を計算する際, 辺の重みによる加重平均を使ったものに
なる 11 / 25
TextRank (2004) 12 / 25
PACSUM (ACL 2019) Position-Augmented Centrality based Summarization 以下の 2 種類の観点で
Graph-based model の手法を修正 1 文章間の類似度計算に BERT を用いる 2 辺の重みを方向によって変える ニュース記事要約において効果を検証 13 / 25
PACSUM (ACL 2019) 文章間の類似度計算に BERT を用いる 事前学習済みの BERT に, (Word2Vec
のような要領で)隣接した前後 の文章を正例, 残りを負例とした学習により fine-tuning を行う. 14 / 25
PACSUM (ACL 2019) 辺の重みを方向によって変える ドキュメントの中には, 要約に寄与する central な文章とそうでない marginal な文章がある(修辞構造理論)
ニュース記事要約では LEAD-3 が強い baseline になることからも分か るように, 前の方にある文章が central である傾向にある → ある文章の組 A, B(B は A よりドキュメントの後の方にある)があ るとき, A->B よりも B->A の辺の重みを大きくした方が良いという 仮説 15 / 25
PACSUM (ACL 2019) 16 / 25
PACSUM (ACL 2019) 17 / 25
HIPORANK (EACL 2021) Hierarchical and Positional Ranking model PACSUM で考案された「文章間の位置により辺の重みを変える」とい
うアイデアをさらに強化し, 学術論文のようなセクション構造を組み 込む. ポイントは以下の通り 1 同じセクションにおいては文章と文章の類似度を計算する (sentence-sentence edges) のに対し, 異なるセクションにおいては 文章とセクションの類似度 (section-sentence edges) のみ計算する 2 sentence-sentence edges においては, 最初と最後の方にある文章 に向かう辺の重みを大きくする section-sentence edges においては, 最初と最後の方にあるセク ションに対する辺の重みを大きくする 18 / 25
HIPORANK (EACL 2021) 19 / 25
HIPORANK (EACL 2021) sentence-sentence edges(I 番目のセクションの文章 i と文章 j) section-sentence
edges (I 番目のセクションの文章 i と J 番目のセク ション) 各文の最終的な重要度は, sentence-sentence edges と section-sentence edges の重み付き平均になる(この重みはハイパーパラメータ) 20 / 25
HIPORANK (EACL 2021) 21 / 25
HIPORANK (EACL 2021) PACSUM では「前の方にある文章の方が central」という inductive bias が導入されているので, 結果的に文章のはじめの方に偏った要約が生
成されるが, HIPORANK では階層的に前の方と後ろの方が選択される のでバランスが良い 22 / 25
HIPORANK (EACL 2021) 23 / 25
HIPORANK (EACL 2021) その文章が abstract の中身を含んでいるか (content-coverage) その文章が abstract の中身にないものだとしても、goal-oriented
な ユーザーにとって重要かどうか (importance) 24 / 25
感想 • 学術論文のセクション構造をうまく利用していて面白い • ハイパラが多いので調整が難しそう • shorter summary や longer
summary にも使えるかどうか? • Abstract と比較した時, 生成された文章の Quality はどうなのか? • Abstract と比較した時, 埋め込みにより適しているのはどちらな のか? 25 / 25