Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 EMNLP2021 | Decision-Focused Summarization
Search
cocomoff
June 07, 2022
Research
0
150
論文読み会 EMNLP2021 | Decision-Focused Summarization
論文読み会の資料です.
(A slide for the paper-reading activity at my company, written in Japanese.)
cocomoff
June 07, 2022
Tweet
Share
More Decks by cocomoff
See All by cocomoff
論文読み会 AAAI2021 | Knowledge-Enhanced Top-K Recommendation in Poincaré Ball
cocomoff
0
33
論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking
cocomoff
0
220
ClimaX: A foundation model for weather and climate
cocomoff
0
400
論文読み会 AAAI2022 | MIP-GNN: A Data-Driven Framework for Guiding Combinatorial Solvers
cocomoff
0
140
論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems
cocomoff
0
390
論文読み会 HT2010 | Automatic Construction of Travel Itineraries Using Social Breadcrumbs
cocomoff
0
87
論文読み会 SIG-SPATIAL'21 | Brownian Bridge Interpolation for Human Mobility?
cocomoff
0
250
論文読み会 SIG-SPATIAL'20 | Spatio-Temporal Hierarchical Adaptive Dispatching for Ridesharing Systems
cocomoff
0
44
論文読み会 SDM2021 | LDFeRR: A Fuel-efficient Route Recommendation Approach for Long-distance Driving Based on Historical Trajectories
cocomoff
0
59
Other Decks in Research
See All in Research
自然言語とVision&Language
kuehara
19
4.4k
1on1ガイドへの想い(chachaki編)
chachakix
0
150
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
950
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
420
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
410
SSII2024 [PD] 画像センシングの未来
ssii
PRO
0
290
LLM based AI Agents Overview -What, Why, How-
masatoto
1
120
20240523 Japan Investment Conference 2024
cfajapan
0
730
IVILab. Research Introduction
ysugano
0
260
機械学習と数理最適化の融合-文脈付き確率的最短路を例として-
mickey_kubo
2
670
The Future of AI: Beyond Completion Models to Systematic Innovation
sunghopark0
0
120
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.1k
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
64
5.2k
Building a Modern Day E-commerce SEO Strategy
aleyda
25
6.7k
It's Worth the Effort
3n
181
27k
Learning to Love Humans: Emotional Interface Design
aarron
269
39k
Optimizing for Happiness
mojombo
373
69k
The MySQL Ecosystem @ GitHub 2015
samlambert
248
12k
The Brand Is Dead. Long Live the Brand.
mthomps
52
36k
Building Your Own Lightsaber
phodgson
101
5.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
18
1.2k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
20
7.2k
Designing for Performance
lara
604
67k
Being A Developer After 40
akosma
72
580k
Transcript
Decision-Focused Summarization 著者: Hsu, C.-C. and Tan, C. (Univ. of
Chicago) 学会: EMNLP2021 @cocomoff 1/18
概要 文書要約: 何らかの基準によって文書情報を抽出するタスク 抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ 抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ 本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した
提案手法が評価指標と人の評価の両方で優れていることを実験で確認した 後段タスク? 学習とか最適化した後に行う、本当に解きたいタスクのこと 本論文では「Yelpのレート予測」が後段のタスク ナイーブ: Yelpのレートを予測するモデル を学習する 抽出型文書要約: を選択する Decision-focused要約: が っぽくなるように要約する 最適化 + 学習 でタスクを解く 2/18
どういう旨味があるか? 後段を気にしないPreSummは、スコアが良いものを選んで終わり モデルベースの説明手法(IG)は、真ん中を選べなかった 提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ 3/18
著者のTwitterに貼られてた図 4/18
目次 概要 定義 ロス 実装 モデルについて、実験、その他 5/18
定義 Decision-focused summarization 入力の文書集合( 文) から、決定 をサポートする部分集合 を抽出する 学習データがある Yelpデータにおける問題
: 最初の レビューのテキスト : 最初の レビューにおける平均レート( ) タスク: 最初の レビューのうち、 レビュー以降のレート予測に役立つ 文章だけを要約として抽出してくる は普通の教師あり学習を思えばいい 6/18
ロス: 3 desideratum Loss: 1: Decision faithfulness と は、後段のタスクで似た役割を果たしてほしい: ロス
2: Decision representativeness 値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein 元データ 、抽出したデータ ロス 3: Textual non-redundancy 文書レベルに相互に似ていない集合が望ましい 文書 のSentBERTによる埋め込みベクトルを として ロス 7/18
アルゴリズム: 1つずつ選ぶ 個のセンテンスを選ぶまで、ロス最小になる文を選び続ける(パラメータ と最 初の文 のときのみ、出来るだけ全体から取ってくる例外がある) 8/18
モデルについて(Yelpデータセットでの実装方法) Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test) モデル 文が長い(平均1621トークン)ので、Longformer を使って回帰モデルを fine-tune する(ここが一番計算時間がかかる。これを除くと、他の部分はテス トデータに対して1時間以内でスッと終わる、と書いてあった)
他のモデルとしてはロジスティック回帰とDAN (deep averaging networks 知らない) を使って比較した 文が長いのでLongformerがreasonableだった 9/18
補足 何がreasonableかよく分からんけど… Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ...
の群) 10/18
実験設定 比較手法 モデル単体: PreSumm、BART、Random モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention
評価指標(人以外) 最初の レビューでのFaithfulness (ロス1項目) Representativenessスコア = (ロス2項目) テキストを使った要約評価スコア SUM-QE レビュー以降での予測誤差MSE イントロで言っていた後段タスクにおける誤差 評価指標(人) レビューで同じ平均スコアぐらいのレストランを2つ出してきて、 以降 でどちらが良いレストランになりそうか?をAMTで人に聞く 11/18
図 (AMT) 12/18
実験結果: Decision Faithfulness MSE full: 最初の レビューに対 するMSE 提案手法は後段の予測誤差を下げ ようとしているので、文書のみ手法・
モデルベース手法より低い : deep-ver. MMR だけでも強い MSE: レビュー以降の真のレー トと予測レートの比較 全データを使う場合(0.135)と比較 して、近い数値(0.135~0.565)が 得られた(要約出来た) 他の手法はこれを下げる目的がない ので悪い 13/18
実験結果: Representativeness (Wasserstein Distance) 全体ロスに入っているので( )、一番良い の場合でも良い → Decision-focusedの良さ は他の手法より
のpaired -testで有意に良い 14/18
実験結果: 選んだ文のsentiment 広範囲のsentimentな文を選んでいる(BERT-based fine-tuned sentiment analysis toolを使った) 15/18
実験結果: SUM-QEによる評価 SUM-QE = BERT-based summary quality estimation model (EMNLP-
IJCNLP2019で提案) 他の手法と比較して遜色ない(たぶん) 16/18
実験結果: 人間評価 DecSumは他の手法より精度が高い(76.1%) 4手法(DecSum、Random、PreSumm、IG)で作った要約を見て人が当てられる か?を調べると、DecSumはチャンスレートを超えた(54.7%) DecSumは唯一90%以上正解する参加者がいた 17/18
例 18/18