論文読み会の資料です.
(A slide for the paper-reading activity at my company, written in Japanese.)
Decision-Focused Summarization著者: Hsu, C.-C. and Tan, C. (Univ. of Chicago)学会: EMNLP2021@cocomoff1/18
View Slide
概要文書要約: 何らかの基準によって文書情報を抽出するタスク抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した提案手法が評価指標と人の評価の両方で優れていることを実験で確認した後段タスク?学習とか最適化した後に行う、本当に解きたいタスクのこと本論文では「Yelpのレート予測」が後段のタスクナイーブ: Yelpのレートを予測するモデル を学習する抽出型文書要約: を選択するDecision-focused要約: が っぽくなるように要約する最適化 + 学習 でタスクを解く2/18
どういう旨味があるか?後段を気にしないPreSummは、スコアが良いものを選んで終わりモデルベースの説明手法(IG)は、真ん中を選べなかった提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ3/18
著者のTwitterに貼られてた図 4/18
目次概要定義ロス実装モデルについて、実験、その他5/18
定義Decision-focused summarization入力の文書集合( 文) から、決定 をサポートする部分集合を抽出する学習データがあるYelpデータにおける問題: 最初の レビューのテキスト: 最初の レビューにおける平均レート( )タスク: 最初の レビューのうち、 レビュー以降のレート予測に役立つ文章だけを要約として抽出してくるは普通の教師あり学習を思えばいい6/18
ロス: 3 desideratumLoss:1: Decision faithfulnessと は、後段のタスクで似た役割を果たしてほしい:ロス2: Decision representativeness値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein元データ 、抽出したデータロス3: Textual non-redundancy文書レベルに相互に似ていない集合が望ましい文書 のSentBERTによる埋め込みベクトルを としてロス7/18
アルゴリズム: 1つずつ選ぶ個のセンテンスを選ぶまで、ロス最小になる文を選び続ける(パラメータ と最初の文 のときのみ、出来るだけ全体から取ってくる例外がある)8/18
モデルについて(Yelpデータセットでの実装方法)Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test)モデル文が長い(平均1621トークン)ので、Longformer を使って回帰モデルをfine-tune する(ここが一番計算時間がかかる。これを除くと、他の部分はテストデータに対して1時間以内でスッと終わる、と書いてあった)他のモデルとしてはロジスティック回帰とDAN (deep averaging networks知らない) を使って比較した文が長いのでLongformerがreasonableだった9/18
補足何がreasonableかよく分からんけど…Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ... の群)10/18
実験設定比較手法モデル単体: PreSumm、BART、Randomモデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention評価指標(人以外)最初の レビューでのFaithfulness (ロス1項目)Representativenessスコア = (ロス2項目)テキストを使った要約評価スコア SUM-QEレビュー以降での予測誤差MSEイントロで言っていた後段タスクにおける誤差評価指標(人)レビューで同じ平均スコアぐらいのレストランを2つ出してきて、 以降でどちらが良いレストランになりそうか?をAMTで人に聞く11/18
図 (AMT)12/18
実験結果: Decision FaithfulnessMSE full: 最初の レビューに対するMSE提案手法は後段の予測誤差を下げようとしているので、文書のみ手法・モデルベース手法より低い: deep-ver. MMRだけでも強いMSE: レビュー以降の真のレートと予測レートの比較全データを使う場合(0.135)と比較して、近い数値(0.135~0.565)が得られた(要約出来た)他の手法はこれを下げる目的がないので悪い13/18
実験結果: Representativeness (Wasserstein Distance)全体ロスに入っているので( )、一番良いの場合でも良い → Decision-focusedの良さは他の手法より のpaired -testで有意に良い14/18
実験結果: 選んだ文のsentiment広範囲のsentimentな文を選んでいる(BERT-based fine-tuned sentimentanalysis toolを使った)15/18
実験結果: SUM-QEによる評価SUM-QE = BERT-based summary quality estimation model (EMNLP-IJCNLP2019で提案)他の手法と比較して遜色ない(たぶん)16/18
実験結果: 人間評価DecSumは他の手法より精度が高い(76.1%)4手法(DecSum、Random、PreSumm、IG)で作った要約を見て人が当てられるか?を調べると、DecSumはチャンスレートを超えた(54.7%)DecSumは唯一90%以上正解する参加者がいた17/18
例18/18