論文読み会 EMNLP2021 | Decision-Focused Summarization

Decision-Focused Summarization 著者: Hsu, C.-C. and Tan, C. (Univ. of
Chicago) 学会: EMNLP2021 @cocomoff 1/18

概要文書要約: 何らかの基準によって文書情報を抽出するタスク抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した
提案手法が評価指標と人の評価の両方で優れていることを実験で確認した後段タスク？学習とか最適化した後に行う、本当に解きたいタスクのこと本論文では「Yelpのレート予測」が後段のタスクナイーブ: Yelpのレートを予測するモデルを学習する抽出型文書要約: を選択する Decision-focused要約: がっぽくなるように要約する最適化 + 学習でタスクを解く 2/18

どういう旨味があるか？後段を気にしないPreSummは、スコアが良いものを選んで終わりモデルベースの説明手法（IG）は、真ん中を選べなかった提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ 3/18

著者のTwitterに貼られてた図 4/18

目次概要定義ロス実装モデルについて、実験、その他 5/18

定義 Decision-focused summarization 入力の文書集合（文）から、決定をサポートする部分集合を抽出する学習データがある Yelpデータにおける問題
: 最初のレビューのテキスト : 最初のレビューにおける平均レート（）タスク: 最初のレビューのうち、レビュー以降のレート予測に役立つ文章だけを要約として抽出してくるは普通の教師あり学習を思えばいい 6/18

ロス: 3 desideratum Loss: 1: Decision faithfulness とは、後段のタスクで似た役割を果たしてほしい: ロス
2: Decision representativeness 値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein 元データ、抽出したデータロス 3: Textual non-redundancy 文書レベルに相互に似ていない集合が望ましい文書のSentBERTによる埋め込みベクトルをとしてロス 7/18

アルゴリズム: 1つずつ選ぶ個のセンテンスを選ぶまで、ロス最小になる文を選び続ける（パラメータと最初の文のときのみ、出来るだけ全体から取ってくる例外がある） 8/18

モデルについて（Yelpデータセットでの実装方法） Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test) モデル文が長い（平均1621トークン）ので、Longformer を使って回帰モデルを fine-tune する（ここが一番計算時間がかかる。これを除くと、他の部分はテストデータに対して1時間以内でスッと終わる、と書いてあった）
他のモデルとしてはロジスティック回帰とDAN (deep averaging networks 知らない) を使って比較した文が長いのでLongformerがreasonableだった 9/18

補足何がreasonableかよく分からんけど… Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ...
の群) 10/18

実験設定比較手法モデル単体: PreSumm、BART、Random モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention
評価指標（人以外）最初のレビューでのFaithfulness （ロス1項目） Representativenessスコア = （ロス2項目）テキストを使った要約評価スコア SUM-QE レビュー以降での予測誤差MSE イントロで言っていた後段タスクにおける誤差評価指標（人）レビューで同じ平均スコアぐらいのレストランを2つ出してきて、以降でどちらが良いレストランになりそうか？をAMTで人に聞く 11/18

図 (AMT) 12/18

実験結果: Decision Faithfulness MSE full: 最初のレビューに対するMSE 提案手法は後段の予測誤差を下げようとしているので、文書のみ手法・
モデルベース手法より低い : deep-ver. MMR だけでも強い MSE: レビュー以降の真のレートと予測レートの比較全データを使う場合（0.135）と比較して、近い数値（0.135～0.565）が得られた（要約出来た）他の手法はこれを下げる目的がないので悪い 13/18

実験結果: Representativeness (Wasserstein Distance) 全体ロスに入っているので（）、一番良いの場合でも良い → Decision-focusedの良さは他の手法より
のpaired -testで有意に良い 14/18

実験結果: 選んだ文のsentiment 広範囲のsentimentな文を選んでいる（BERT-based fine-tuned sentiment analysis toolを使った） 15/18

実験結果: SUM-QEによる評価 SUM-QE = BERT-based summary quality estimation model (EMNLP-
IJCNLP2019で提案) 他の手法と比較して遜色ない（たぶん） 16/18

実験結果: 人間評価 DecSumは他の手法より精度が高い（76.1%） 4手法（DecSum、Random、PreSumm、IG）で作った要約を見て人が当てられるか？を調べると、DecSumはチャンスレートを超えた（54.7%） DecSumは唯一90%以上正解する参加者がいた 17/18

例 18/18

論文読み会 EMNLP2021 | Decision-Focused Summarization

論文読み会 EMNLP2021 | Decision-Focused Summarization

cocomoff

More Decks by cocomoff

Other Decks in Research

Featured

Transcript

Decision-Focused Summarization 著者: Hsu, C.-C. and Tan, C. (Univ. of

どういう旨味があるか？後段を気にしないPreSummは、スコアが良いものを選んで終わりモデルベースの説明手法（IG）は、真ん中を選べなかった提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ 3/18

著者のTwitterに貼られてた図 4/18

目次概要定義ロス実装モデルについて、実験、その他 5/18

定義 Decision-focused summarization 入力の文書集合（文）から、決定をサポートする部分集合を抽出する学習データがある Yelpデータにおける問題

ロス: 3 desideratum Loss: 1: Decision faithfulness とは、後段のタスクで似た役割を果たしてほしい: ロス

アルゴリズム: 1つずつ選ぶ個のセンテンスを選ぶまで、ロス最小になる文を選び続ける（パラメータと最初の文のときのみ、出来るだけ全体から取ってくる例外がある） 8/18

補足何がreasonableかよく分からんけど… Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ...

実験設定比較手法モデル単体: PreSumm、BART、Random モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention

図 (AMT) 12/18

実験結果: Decision Faithfulness MSE full: 最初のレビューに対するMSE 提案手法は後段の予測誤差を下げようとしているので、文書のみ手法・

実験結果: Representativeness (Wasserstein Distance) 全体ロスに入っているので（）、一番良いの場合でも良い → Decision-focusedの良さは他の手法より

実験結果: 選んだ文のsentiment 広範囲のsentimentな文を選んでいる（BERT-based fine-tuned sentiment analysis toolを使った） 15/18

実験結果: SUM-QEによる評価 SUM-QE = BERT-based summary quality estimation model (EMNLP-

例 18/18