Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 EMNLP2021 | Decision-Focused Summarization

論文読み会 EMNLP2021 | Decision-Focused Summarization

論文読み会の資料です.

(A slide for the paper-reading activity at my company, written in Japanese.)

cocomoff

June 07, 2022
Tweet

More Decks by cocomoff

Other Decks in Research

Transcript

  1. Decision-Focused Summarization

    著者: Hsu, C.-C. and Tan, C. (Univ. of Chicago)

    学会: EMNLP2021

    @cocomoff
    1/18

    View Slide

  2. 概要
    文書要約: 何らかの基準によって文書情報を抽出するタスク
    抽出型要約 (extractive): 文書集合から文書を選んでくるタイプ
    抽象型要約 (abstractive): 特徴量を抽出して、文書を生成するタイプ
    本論文では「抽出型要約」のタスクにおいて「後段タスクを考慮した手法」を提案した
    提案手法が評価指標と人の評価の両方で優れていることを実験で確認した
    後段タスク?
    学習とか最適化した後に行う、本当に解きたいタスクのこと
    本論文では「Yelpのレート予測」が後段のタスク
    ナイーブ: Yelpのレートを予測するモデル を学習する
    抽出型文書要約: を選択する
    Decision-focused要約: が っぽくなるように要約する
    最適化 + 学習 でタスクを解く
    2/18

    View Slide

  3. どういう旨味があるか?
    後段を気にしないPreSummは、スコアが良いものを選んで終わり
    モデルベースの説明手法(IG)は、真ん中を選べなかった
    提案手法のDecSumは、分布をいい感じにカバーしつつ選ぶ
    3/18

    View Slide

  4. 著者のTwitterに貼られてた図



    4/18

    View Slide

  5. 目次
    概要
    定義
    ロス
    実装
    モデルについて、実験、その他
    5/18

    View Slide

  6. 定義
    Decision-focused summarization
    入力の文書集合( 文) から、決定 をサポートする部分集合
    を抽出する
    学習データがある
    Yelpデータにおける問題
    : 最初の レビューのテキスト
    : 最初の レビューにおける平均レート( )
    タスク: 最初の レビューのうち、 レビュー以降のレート予測に役立つ
    文章だけを要約として抽出してくる
    は普通の教師あり学習を思えばいい
    6/18

    View Slide

  7. ロス: 3 desideratum
    Loss:
    1: Decision faithfulness
    と は、後段のタスクで似た役割を果たしてほしい:
    ロス
    2: Decision representativeness
    値だけではなく分布レベルでも元のデータを近似してほしい = Wasserstein
    元データ 、抽出したデータ
    ロス
    3: Textual non-redundancy
    文書レベルに相互に似ていない集合が望ましい
    文書 のSentBERTによる埋め込みベクトルを として
    ロス
    7/18

    View Slide

  8. アルゴリズム: 1つずつ選ぶ
    個のセンテンスを選ぶまで、ロス最小になる文を選び続ける(パラメータ と最
    初の文 のときのみ、出来るだけ全体から取ってくる例外がある)
    8/18

    View Slide

  9. モデルについて(Yelpデータセットでの実装方法)
    Yelpデータセットを64%/16%/20% に分けた (Train/Val/Test)
    モデル
    文が長い(平均1621トークン)ので、Longformer を使って回帰モデルを
    fine-tune する(ここが一番計算時間がかかる。これを除くと、他の部分はテス
    トデータに対して1時間以内でスッと終わる、と書いてあった)
    他のモデルとしてはロジスティック回帰とDAN (deep averaging networks
    知らない) を使って比較した
    文が長いのでLongformerがreasonableだった
    9/18

    View Slide

  10. 補足
    何がreasonableかよく分からんけど…
    Group 2/3/4/5 (レート [1.5, 2.5), [2.5, 3.5), ... の群)
    10/18

    View Slide

  11. 実験設定
    比較手法
    モデル単体: PreSumm、BART、Random
    モデルベースの手法 (w/ Longfomer): IG (Integrated Gradients)、Attention
    評価指標(人以外)
    最初の レビューでのFaithfulness (ロス1項目)
    Representativenessスコア = (ロス2項目)
    テキストを使った要約評価スコア SUM-QE
    レビュー以降での予測誤差MSE
    イントロで言っていた後段タスクにおける誤差
    評価指標(人)
    レビューで同じ平均スコアぐらいのレストランを2つ出してきて、 以降
    でどちらが良いレストランになりそうか?をAMTで人に聞く
    11/18

    View Slide

  12. 図 (AMT)
    12/18

    View Slide

  13. 実験結果: Decision Faithfulness
    MSE full: 最初の レビューに対
    するMSE
    提案手法は後段の予測誤差を下げ
    ようとしているので、文書のみ手法・
    モデルベース手法より低い
    : deep-ver. MMR
    だけでも強い
    MSE: レビュー以降の真のレー
    トと予測レートの比較
    全データを使う場合(0.135)と比較
    して、近い数値(0.135~0.565)が
    得られた(要約出来た)
    他の手法はこれを下げる目的がない
    ので悪い
    13/18

    View Slide

  14. 実験結果: Representativeness (Wasserstein Distance)
    全体ロスに入っているので( )、一番良い
    の場合でも良い → Decision-focusedの良さ
    は他の手法より のpaired -testで有意に良い
    14/18

    View Slide

  15. 実験結果: 選んだ文のsentiment
    広範囲のsentimentな文を選んでいる(BERT-based fine-tuned sentiment
    analysis toolを使った)
    15/18

    View Slide

  16. 実験結果: SUM-QEによる評価
    SUM-QE = BERT-based summary quality estimation model (EMNLP-
    IJCNLP2019で提案)
    他の手法と比較して遜色ない(たぶん)
    16/18

    View Slide

  17. 実験結果: 人間評価
    DecSumは他の手法より精度が高い(76.1%)
    4手法(DecSum、Random、PreSumm、IG)で作った要約を見て人が当てられる
    か?を調べると、DecSumはチャンスレートを超えた(54.7%)
    DecSumは唯一90%以上正解する参加者がいた


    17/18

    View Slide


  18. 18/18

    View Slide