Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 EMNLP2021 | Decision-Focused Summarization
Search
cocomoff
June 07, 2022
Research
0
180
論文読み会 EMNLP2021 | Decision-Focused Summarization
論文読み会の資料です.
(A slide for the paper-reading activity at my company, written in Japanese.)
cocomoff
June 07, 2022
Tweet
Share
More Decks by cocomoff
See All by cocomoff
論文読み会 KDD2024 | Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations
cocomoff
0
140
論文読み会 KDD2022 | Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation
cocomoff
0
60
論文読み会 AISTATS2024 | Deep Learning-Based Alternative Route Computation
cocomoff
0
28
論文読み会 AAAI2021 | Knowledge-Enhanced Top-K Recommendation in Poincaré Ball
cocomoff
0
57
論文読み会 WWW2022 | Learning Probabilistic Box Embeddings for Effective and Efficient Ranking
cocomoff
0
260
ClimaX: A foundation model for weather and climate
cocomoff
0
500
論文読み会 AAAI2022 | MIP-GNN: A Data-Driven Framework for Guiding Combinatorial Solvers
cocomoff
0
170
論文読み会 AAAI2022 | Online Certification of Preference-based Fairness for Personalized Recommender Systems
cocomoff
0
420
論文読み会 HT2010 | Automatic Construction of Travel Itineraries Using Social Breadcrumbs
cocomoff
0
91
Other Decks in Research
See All in Research
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
220
Weekly AI Agents News!
masatoto
30
45k
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
550
機械学習でヒトの行動を変える
hiromu1996
1
450
第79回 産総研人工知能セミナー 発表資料
agiats
3
190
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
230
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
350
Whoisの闇
hirachan
3
220
大規模言語モデルのバイアス
yukinobaba
PRO
4
820
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
140
最近のVisual Odometryと Depth Estimation
sgk
1
340
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
460
Featured
See All Featured
Building Applications with DynamoDB
mza
93
6.2k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Code Review Best Practice
trishagee
65
17k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Visualization
eitanlees
146
15k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
The Language of Interfaces
destraynor
155
24k
How GitHub (no longer) Works
holman
312
140k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
350
Transcript
Decision-Focused Summarization 著者: Hsu, C.-C. and Tan, C. (Univ. of
Chicago) 学会: EMNLP2021 @cocomoff 1/18
概要 文書要約: 何らかの基準によって文書情報を抽出するタスク 抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ 抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ 本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した
提案手法が評価指標と人の評価の両方で優れていることを実験で確認した 後段タスク? 学習とか最適化した後に行う、本当に解きたいタスクのこと 本論文では「Yelpのレート予測」が後段のタスク ナイーブ: Yelpのレートを予測するモデル を学習する 抽出型文書要約: を選択する Decision-focused要約: が っぽくなるように要約する 最適化 + 学習 でタスクを解く 2/18
どういう旨味があるか? 後段を気にしないPreSummは、スコアが良いものを選んで終わり モデルベースの説明手法(IG)は、真ん中を選べなかった 提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ 3/18
著者のTwitterに貼られてた図 4/18
目次 概要 定義 ロス 実装 モデルについて、実験、その他 5/18
定義 Decision-focused summarization 入力の文書集合( 文) から、決定 をサポートする部分集合 を抽出する 学習データがある Yelpデータにおける問題
: 最初の レビューのテキスト : 最初の レビューにおける平均レート( ) タスク: 最初の レビューのうち、 レビュー以降のレート予測に役立つ 文章だけを要約として抽出してくる は普通の教師あり学習を思えばいい 6/18
ロス: 3 desideratum Loss: 1: Decision faithfulness と は、後段のタスクで似た役割を果たしてほしい: ロス
2: Decision representativeness 値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein 元データ 、抽出したデータ ロス 3: Textual non-redundancy 文書レベルに相互に似ていない集合が望ましい 文書 のSentBERTによる埋め込みベクトルを として ロス 7/18
アルゴリズム: 1つずつ選ぶ 個のセンテンスを選ぶまで、ロス最小になる文を選び続ける(パラメータ と最 初の文 のときのみ、出来るだけ全体から取ってくる例外がある) 8/18
モデルについて(Yelpデータセットでの実装方法) Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test) モデル 文が長い(平均1621トークン)ので、Longformer を使って回帰モデルを fine-tune する(ここが一番計算時間がかかる。これを除くと、他の部分はテス トデータに対して1時間以内でスッと終わる、と書いてあった)
他のモデルとしてはロジスティック回帰とDAN (deep averaging networks 知らない) を使って比較した 文が長いのでLongformerがreasonableだった 9/18
補足 何がreasonableかよく分からんけど… Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ...
の群) 10/18
実験設定 比較手法 モデル単体: PreSumm、BART、Random モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention
評価指標(人以外) 最初の レビューでのFaithfulness (ロス1項目) Representativenessスコア = (ロス2項目) テキストを使った要約評価スコア SUM-QE レビュー以降での予測誤差MSE イントロで言っていた後段タスクにおける誤差 評価指標(人) レビューで同じ平均スコアぐらいのレストランを2つ出してきて、 以降 でどちらが良いレストランになりそうか?をAMTで人に聞く 11/18
図 (AMT) 12/18
実験結果: Decision Faithfulness MSE full: 最初の レビューに対 するMSE 提案手法は後段の予測誤差を下げ ようとしているので、文書のみ手法・
モデルベース手法より低い : deep-ver. MMR だけでも強い MSE: レビュー以降の真のレー トと予測レートの比較 全データを使う場合(0.135)と比較 して、近い数値(0.135~0.565)が 得られた(要約出来た) 他の手法はこれを下げる目的がない ので悪い 13/18
実験結果: Representativeness (Wasserstein Distance) 全体ロスに入っているので( )、一番良い の場合でも良い → Decision-focusedの良さ は他の手法より
のpaired -testで有意に良い 14/18
実験結果: 選んだ文のsentiment 広範囲のsentimentな文を選んでいる(BERT-based fine-tuned sentiment analysis toolを使った) 15/18
実験結果: SUM-QEによる評価 SUM-QE = BERT-based summary quality estimation model (EMNLP-
IJCNLP2019で提案) 他の手法と比較して遜色ない(たぶん) 16/18
実験結果: 人間評価 DecSumは他の手法より精度が高い(76.1%) 4手法(DecSum、Random、PreSumm、IG)で作った要約を見て人が当てられる か?を調べると、DecSumはチャンスレートを超えた(54.7%) DecSumは唯一90%以上正解する参加者がいた 17/18
例 18/18