Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 EMNLP2021 | Decision-Focused Summarization
Search
cocomoff
June 07, 2022
Research
0
200
論文読み会 EMNLP2021 | Decision-Focused Summarization
論文読み会の資料です.
(A slide for the paper-reading activity at my company, written in Japanese.)
cocomoff
June 07, 2022
Tweet
Share
More Decks by cocomoff
See All by cocomoff
論文読み会 NeurIPS2024 | UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction
cocomoff
1
53
論文読み会 AMAI | Personalized choice prediction with less user information
cocomoff
0
40
論文読み会 KDD2024 | Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations
cocomoff
0
220
論文読み会 KDD2022 | Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation
cocomoff
0
120
論文読み会 AISTATS2024 | Deep Learning-Based Alternative Route Computation
cocomoff
0
37
論文読み会 AAAI2021 | Knowledge-Enhanced Top-K Recommendation in Poincaré Ball
cocomoff
0
73
論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking
cocomoff
0
290
ClimaX: A foundation model for weather and climate
cocomoff
0
570
論文読み会 AAAI2022 | MIP-GNN: A Data-Driven Framework for Guiding Combinatorial Solvers
cocomoff
0
230
Other Decks in Research
See All in Research
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
510
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
170
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
370
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
satai
3
220
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
410
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
630
言語モデルの内部機序:解析と解釈
eumesy
PRO
44
17k
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
420
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
350
Featured
See All Featured
How GitHub (no longer) Works
holman
314
140k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
A better future with KSS
kneath
239
17k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Stop Working from a Prison Cell
hatefulcrawdad
269
20k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
16
920
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
52
2.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Music & Morning Musume
bryan
46
6.6k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.8k
Transcript
Decision-Focused Summarization 著者: Hsu, C.-C. and Tan, C. (Univ. of
Chicago) 学会: EMNLP2021 @cocomoff 1/18
概要 文書要約: 何らかの基準によって文書情報を抽出するタスク 抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ 抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ 本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した
提案手法が評価指標と人の評価の両方で優れていることを実験で確認した 後段タスク? 学習とか最適化した後に行う、本当に解きたいタスクのこと 本論文では「Yelpのレート予測」が後段のタスク ナイーブ: Yelpのレートを予測するモデル を学習する 抽出型文書要約: を選択する Decision-focused要約: が っぽくなるように要約する 最適化 + 学習 でタスクを解く 2/18
どういう旨味があるか? 後段を気にしないPreSummは、スコアが良いものを選んで終わり モデルベースの説明手法(IG)は、真ん中を選べなかった 提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ 3/18
著者のTwitterに貼られてた図 4/18
目次 概要 定義 ロス 実装 モデルについて、実験、その他 5/18
定義 Decision-focused summarization 入力の文書集合( 文) から、決定 をサポートする部分集合 を抽出する 学習データがある Yelpデータにおける問題
: 最初の レビューのテキスト : 最初の レビューにおける平均レート( ) タスク: 最初の レビューのうち、 レビュー以降のレート予測に役立つ 文章だけを要約として抽出してくる は普通の教師あり学習を思えばいい 6/18
ロス: 3 desideratum Loss: 1: Decision faithfulness と は、後段のタスクで似た役割を果たしてほしい: ロス
2: Decision representativeness 値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein 元データ 、抽出したデータ ロス 3: Textual non-redundancy 文書レベルに相互に似ていない集合が望ましい 文書 のSentBERTによる埋め込みベクトルを として ロス 7/18
アルゴリズム: 1つずつ選ぶ 個のセンテンスを選ぶまで、ロス最小になる文を選び続ける(パラメータ と最 初の文 のときのみ、出来るだけ全体から取ってくる例外がある) 8/18
モデルについて(Yelpデータセットでの実装方法) Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test) モデル 文が長い(平均1621トークン)ので、Longformer を使って回帰モデルを fine-tune する(ここが一番計算時間がかかる。これを除くと、他の部分はテス トデータに対して1時間以内でスッと終わる、と書いてあった)
他のモデルとしてはロジスティック回帰とDAN (deep averaging networks 知らない) を使って比較した 文が長いのでLongformerがreasonableだった 9/18
補足 何がreasonableかよく分からんけど… Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ...
の群) 10/18
実験設定 比較手法 モデル単体: PreSumm、BART、Random モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention
評価指標(人以外) 最初の レビューでのFaithfulness (ロス1項目) Representativenessスコア = (ロス2項目) テキストを使った要約評価スコア SUM-QE レビュー以降での予測誤差MSE イントロで言っていた後段タスクにおける誤差 評価指標(人) レビューで同じ平均スコアぐらいのレストランを2つ出してきて、 以降 でどちらが良いレストランになりそうか?をAMTで人に聞く 11/18
図 (AMT) 12/18
実験結果: Decision Faithfulness MSE full: 最初の レビューに対 するMSE 提案手法は後段の予測誤差を下げ ようとしているので、文書のみ手法・
モデルベース手法より低い : deep-ver. MMR だけでも強い MSE: レビュー以降の真のレー トと予測レートの比較 全データを使う場合(0.135)と比較 して、近い数値(0.135~0.565)が 得られた(要約出来た) 他の手法はこれを下げる目的がない ので悪い 13/18
実験結果: Representativeness (Wasserstein Distance) 全体ロスに入っているので( )、一番良い の場合でも良い → Decision-focusedの良さ は他の手法より
のpaired -testで有意に良い 14/18
実験結果: 選んだ文のsentiment 広範囲のsentimentな文を選んでいる(BERT-based fine-tuned sentiment analysis toolを使った) 15/18
実験結果: SUM-QEによる評価 SUM-QE = BERT-based summary quality estimation model (EMNLP-
IJCNLP2019で提案) 他の手法と比較して遜色ない(たぶん) 16/18
実験結果: 人間評価 DecSumは他の手法より精度が高い(76.1%) 4手法(DecSum、Random、PreSumm、IG)で作った要約を見て人が当てられる か?を調べると、DecSumはチャンスレートを超えた(54.7%) DecSumは唯一90%以上正解する参加者がいた 17/18
例 18/18