Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Deep Reinforced Model for Abstractive Summarization

peinan
March 29, 2019

A Deep Reinforced Model for Abstractive Summarization

Paper Friday @AI Lab, CyberAgent, Inc.

peinan

March 29, 2019
Tweet

More Decks by peinan

Other Decks in Research

Transcript

  1. Meta Information ▪ Organization: Salesforce Research ▪ Conference: ICLR 2018

    スタンフォード大学で Ph.D を取得し、助教を経て今は Salesforce のチーフサイエン ティストを務める。かつて Chris Manning や Andrew Ng ら と同じ研究チームで NLP と画 像処理が専門。2018 年の採択 内訳は ACL×2, EMNLP×2, Interspeech×1, ICLR×6, CVPR×1, ICASSP×1
  2. TL;DR どんなタスク? 生成型要約(abstractive summarization) 新規性は? ▪ repetitive に対処するために intra-attention を考案

    ▪ reinforcement learning を取り入れた目的関数で学習 ▪ これらにより長い入力・出力に頑健になり、より自然な要約に どう評価した? ▪ 定量: ROUGE ▪ 定性: アンケート調査 ▪ 定量・定性ともに性能の向上が見られた
  3. Summarization Extractive vs. Abstractive ▪ 前者は「抽出型要約」、後者は「生成型要約」と訳される ▪ 抽出型要約 ▫ 元文章の中に存在する重要だと思われるフレーズを抽出して要約を作成する。

    文法的に崩壊したりしにくい。 ▫ 有名な手法に LexRank [Erkan et al., 2004] や TextRank [Mihalcea et al., 2004] などがある。 ▪ 生成型要約 ▫ 元文章の意味を考慮した上で再構築を行う。なので元文章に存在しない 単語が使われたり、そもそもの構成が変わる可能性がある。 ▫ 一般的にニューラルな手法、中でも Encoder-Decoder がよく使われる。
  4. 要約の評価指標: ROUGE ROUGE-N N は N-gram の N を表しており、元文章と要約の N-gram

    のオーバーラップ を測る指標 ROUGE-1: 0.667 ROUGE-2: 0.375 Summarization ROUGEを訪ねて三千里:より良い要約の評価を求めて - Qiita ➦
  5. 起源は AutoEncoder (だと個人的に思っている) ▪ 当初は y を X に近づくように学習させていた ▪

    出力 y より Hidden State が注目された次元削減装置だと思われていた ▪ Encoder / Decoder 部はシンプルな FF だった 機械翻訳タスクで良い精度が出る ▪ Decoder を利用した生成タスクに使えると人類は気づく ▪ 機械翻訳じゃなくても pair-wise なデータなら何でも良いと人類は気づく ▪ Encoder / Decoder は別に FF じゃなく、CNN / RNN と何でも良いと人ry Encoder Hidden State Decoder X y Encoder-Decoder | History
  6. 今現在 ▪ Encoder-Decoder / seq2seq などと呼ばれ、生成タスクで使われる ことが多い ▪ 機械翻訳、対話、要約と数多くの NLP

    の分野で使われている ▪ Encoder / Decoder には RNN / CNN が使われることが多い ▪ Attention (注意機構)なるものが考案される Encoder Hidden State Decoder X y Encoder-Decoder | History
  7. 今現在 ▪ Encoder-Decoder / seq2seq などと呼ばれ、生成タスクで使われる ことが多い ▪ 機械翻訳、対話、要約と数多くの NLP

    の分野で使われている ▪ Encoder / Decoder には RNN / CNN が使われることが多い ▪ Attention (注意機構)なるものが考案される Encoder Hidden State Decoder X y Encoder-Decoder | History
  8. Free Running ▪ Decoder が RNN のとき、ステップ t のときに入力に w

    t-1 を使うこと ▫ 例えば t=1 での出力単語 w 1 をそのまま t=2 の入力として使う ▪ しかしこの方法だと、もし t=1 で間違った単語を 出力しても、それがそのまま t=2, 3, … で使わ れるため、連鎖的に誤差が重なっていく ▪ よって学習が不安定で収束が遅い Encoder-decoderモデルとTeacher Forcing,Scheduled Sampling,Professor Forcing ➦ Encoder-Decoder | Teacher Forcing
  9. Encoder-Decoder | Teacher Forcing Encoder-decoderモデルとTeacher Forcing,Scheduled Sampling,Professor Forcing ➦ Teacher

    Forcing & Exposure Bias ▪ そこで考え出されたのが Teacher Forcing と呼ばれる方法 ▫ これは学習時に正解(Target)をそのまま Decoder の入力として使う方法 ▫ これで学習が安定し収束も早くなった ▪ が、評価時は正解がない Free Running 状態なので 学習データにない入力が来たりすると同様に 誤差が蓄積されていく ▪ これを Exposure Bias と呼ぶ ▫ この対策に Scheduled sampling や Professor forcing などがある (今回は詳しく触れない)
  10. Encoder-Decoder | History Encoder Hidden State Decoder 今現在 ▪ Encoder-Decoder

    / seq2seq などと呼ばれ、生成タスクで使われる ことが多い ▪ 機械翻訳、対話、要約と数多くの NLP の分野で使われている ▪ Encoder / Decoder には RNN / CNN が使われることが多い ▪ Attention (注意機構)なるものが考案される 前回 @chck さんの発表で 説明されてたので今回は省略 X y
  11. Encoder-Decoder | Pointer Networks ▪ 従来の Encoder-Decoder は OOV (Out-Of-Vocabulary)

    問題に非常に弱い ▫ 評価時に訓練データにない単語が来たりすると上手く対処できない ▪ そこで考え出されたのが Pointer Networks [Vinyals et al., 2015] ▪ これは decode 時に入力の attention 情報を用いて(選択|コピー)する (Point) ことで、OOV を克服しようという発想 ▪ また、この発想に基づく CopyNet [Gu et al., 2016] や Pointer- Generator Network [See et al., 2017] なども後に考案される
  12. Reinforcement Learning エージェントが、環境内での現状態から、取るべき次の行動を決定 し、最大の報酬をもらえる方策を獲得するように学習すること ▪ 状態 (state): 環境から得られる情報 ▪ 行動

    (action): 環境で行うアクション ▪ 報酬 (reward): 環境から得られる利益 ▪ 方策 (policy): 状態から行動を決定する関数 深層強化学習の最前線 - Speaker Deck ➦
  13. Reinforcement Learning 価値ベースと方策ベース ▪ 価値ベース (Value-Based methods) ▫ 行動価値関数を用いて、間接的に方策を表現 ▫

    学習が速いが、行動空間が連続だと扱えない ▫ 例: Q 学習 ▪ 方策ベース (Policy-Based methods) ▫ 方策を直接最適化 ▫ 学習は遅いが、行動空間が連続でも扱える ▫ 例: 方策勾配法 (Policy Gradient Algorithm)
  14. Reinforcement Learning 方策勾配法 (Policy Gradient Algorithm) ▪ 収益の期待値 J を最大化するように、方策

    π を θ でパラメタ ライズして、θ で J の勾配を求めて θ を更新する ▪ 選択した行動が良ければ選択確率を上げ、悪ければ下げる 深層強化学習の最前線 - Speaker Deck ➦
  15. Introduction RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫

    繰り返し(repetitive) ▫ 首尾一貫しない(incoherent) これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function
  16. Introduction RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫

    繰り返し(repetitive) ▫ 首尾一貫しない(incoherent) これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function
  17. Intra-Attention Architecture decode 用の中間表現は encoder の context vector c と

    decoder の隠れ状態 h であることが一般的 ここが新しい
  18. 単語生成は softmax と pointer mechanism を併用 ▪ u t は

    0/1 のバイナリ値 ▪ これによって Out-Of-Vocabulary 問題を軽減 Token Generation softmax pointer pointer を使う確率 x i をコピーするかどうかの確率を attention の確率分布から取得する
  19. Introduction RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫

    繰り返し(repetitive) ▫ 首尾一貫しない(incoherent) これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function
  20. 混ぜた loss 実験では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss 学習時に 25% の確率で正解ではなく t-1 で生成された token を使用するこ とで、exposure bias を軽減する試み
  21. 混ぜた loss 実験では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss self-critical sequence training という手法を使用
  22. Self-critical Sequence Training for Image Captioning [Rennie et al., 2017]

    Self-critical sequence training ちょっと何言ってるのか わからないです
  23. Self-critical sequence training baseline: 最も良かった出力単語列 (=L ml で得られる出力) 生成中の単語列をサンプリング L

    rl を最小化することは生成結果である ys が baseline よりも良い報酬を 得られるように最大化することと同義 reward: 正解 y* との差 (ROUGE-1, 2, L)
  24. 混ぜた loss 実験では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss
  25. RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫ 繰り返し(repetitive)

    ▫ 首尾一貫しない(incoherent) これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function Introduction
  26. Setup ▪ maximum-likelihood (ML) ▫ w/ intra-attention ▫ w/o intra-attention

    ▪ reinforcement learning (RL) ▪ ML+RL Experiments Datasets ▪ CNN/Daily Mail ▫ split: 287113 / 13368 / 11490 ▫ ave in/out length: 632 / 53 tokens ▪ New York Times ▫ split: 589284 / 32736 / 32739 ▫ ave in/out length: 549 / 40 tokens ▪ どちらのデータセットでも in/out がそれぞれ 800/100 以下のものに制限 ▪ 前処理: stemming, lower case, 数字を 0 に置換, “s” や “(m)” を削除など
  27. ▪ 正解要約文の文長ごとの intra-attention を追加した際の ROUGE-1 の増減傾向 ▪ 文長が長いほど intra-attention による

    精度向上が見られる ▪ 逆に短いと精度低下する 傾向がある ▪ だから NYT データセット では w/o intra-attention のほうが結果が良かった Experiments | Quantitative Analysis
  28. Experiments | Quantitative Analysis ▪ 他にも同じ NYT データセットで当時 SOTA の抽出型要約を

    ROUGE recall で上回るなど ▪ recall しか書いていないあたり recall 以外は勝てなかったの だと思われ…
  29. アンケート調査 ▪ CNN/Daily Mail データセットを使用 ▪ ML, RL, ML+RL からそれぞれ

    100 生成要約を抜き出し評価 ▫ すべて w/ inter-attention ▪ 原文と生成要約、正解要約を並べて見せる ▪ 読みやすさ(Readability)と妥当性(Relevance)の指標 ▪ 各指標は 1 - 10 の 10 段階。10 が最も良い ▪ 1 要約につき 5 人の評価者 Experiments | Qualitative Analysis
  30. Experiments | Qualitative Analysis ▪ 定性評価では Readability / Relevance の両方で

    ML+RL が もっとも高いスコア ▪ 定量評価で ROUGE が高かった RL は一番低いスコア ▪ これは ROUGE しか最適化してないと、ROUGE でカバーでき ない文法性や一貫性の部分のクオリティが低下する
  31. Summary | TL;DR どんなタスク? 生成型要約(abstractive summarization) 新規性は? ▪ repetitive に対処するために

    intra-attention を考案 ▪ reinforcement learning を取り入れた目的関数で学習 ▪ これらにより長い入力・出力に頑健になり、より自然な要約に どう評価した? ▪ 定量: ROUGE ▪ 定性: アンケート調査 ▪ 定量・定性ともに性能の向上が見られた
  32. Summary | Critiques ▪ 結局実験時に入出力文の文長を制限してるから長い文に も頑健という説得力がちょっと減る ▪ 短い文 (を|に) 要約するときはあまり有用じゃない?

    ▪ repetition を回避するための手段が提案手法以外に ヒューリスティックに trigram limitation も施している が、その効果についての記述がないからどの施策が一番 効いてるのかが分からない ▪ incoherent にうまく対処したとあるが、human evaluation でしか評価してないから他にもなにか欲しかった
  33. 参考資料 ▪ Paulus et al., A Deep Reinforced Model For

    Abstractive Summarization, ICLR 2018 ➦ ▪ Richard Socher - Home Page ➦ ▪ Your TL;DR by an AI: A Deep Reinforced Model for Abstractive Summarization - Salesforce.com ➦ ▪ Erkan et al., Lexrank: Graph-based lexical centrality as salience in text summarization, JAIR 2004 ➦ ▪ Mihalcea et al., TextRank: Bringing Order into Texts, EMNLP 2004 ➦ ▪ ROUGEを訪ねて三千里:より良い要約の評価を求めて - Qiita ➦ ▪ Encoder-decoderモデルとTeacher Forcing,Scheduled Sampling,Professor Forcing ➦ ▪ Vinyals et al., Pointer Networks, NIPS 2015 ➦ ▪ Gu et al., Incorporating Copying Mechanism in Sequence-to-Sequence Learning, ACL 2016 ➦ ▪ See et al., Get To The Point: Summarization with Pointer-Generator Networks, ACL 2017 ➦ ▪ 言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- - SlideShare ➦ ▪ 深層強化学習の最前線 - Speaker Deck ➦ ▪ Rennie et al., Self-Critical Sequence Training for Image Captioning, CVPR 2017 ➦ ▪ Self-Critical Sequence Training for Image Captioning - SlideShare ➦ ▪ 論文解説 Attention Is All You Need (Transformer) ➦
  34. Feedbacks ▪ Table 1 の ROUGE-2 の黒字の位置おかしくね? ▫ 確かに…ッ! ▪

    正解文が長すぎても intra-attention による精度向上が少ない? ▫ 正解データの分布の問題かもしれない。論文では言及されていなかったけど単純に長め の正解要約文が少なかっただけの可能性 ▪ 強化学習の報酬関数を上手く設計するのがキーになりそう ▪ 強化学習は学習アルゴリズムよりも報酬関数のが重要 ▫ 同感。いい感じの報酬関数を教えてください ▪ ROUGE 以外の評価指標はなにかありますか ▫ METEOR, NIST, BLEU など。具体的の違いは牛久先生のスライドを参照 ▪ 日本語でなにかいい要約データセットある? ▫ 自分も知りたい。平易化コーパスとかの言い換え用のものはあるけど… ▪ ROUGE は n-gram のオーバーラップを取るから、語順があまり重要じゃな い言語など、言語ごとに性質が違いそう