A Deep Reinforced Model for Abstractive Summarization

A Deep Reinforced Model for Abstractive Summarization Peinan Zhang, AI
Lab Paper Friday 2019-03-29

Meta Information ▪ Organization: Salesforce Research ▪ Conference: ICLR 2018

Meta Information ▪ Organization: Salesforce Research ▪ Conference: ICLR 2018
スタンフォード大学で Ph.D を取得し、助教を経て今は Salesforce のチーフサイエンティストを務める。かつて Chris Manning や Andrew Ng らと同じ研究チームで NLP と画像処理が専門。2018 年の採択内訳は ACL×2, EMNLP×2, Interspeech×1, ICLR×6, CVPR×1, ICASSP×1

Richard Socher

Richard Socher ImageNet GloVe Sentiment Treebank

TL;DR どんなタスク？生成型要約（abstractive summarization）新規性は？ ▪ repetitive に対処するために intra-attention を考案
▪ reinforcement learning を取り入れた目的関数で学習 ▪ これらにより長い入力・出力に頑健になり、より自然な要約にどう評価した？ ▪ 定量: ROUGE ▪ 定性: アンケート調査 ▪ 定量・定性ともに性能の向上が見られた

おさらい Summarization Encoder-Decoder Reinforcement Learning

Summarization Extractive vs. Abstractive ▪ 前者は「抽出型要約」、後者は「生成型要約」と訳される ▪ 抽出型要約 ▫ 元文章の中に存在する重要だと思われるフレーズを抽出して要約を作成する。
文法的に崩壊したりしにくい。 ▫ 有名な手法に LexRank [Erkan et al., 2004] や TextRank [Mihalcea et al., 2004] などがある。 ▪ 生成型要約 ▫ 元文章の意味を考慮した上で再構築を行う。なので元文章に存在しない単語が使われたり、そもそもの構成が変わる可能性がある。 ▫ 一般的にニューラルな手法、中でも Encoder-Decoder がよく使われる。

要約の評価指標: ROUGE ROUGE-N N は N-gram の N を表しており、元文章と要約の N-gram
のオーバーラップを測る指標 ROUGE-1: 0.667 ROUGE-2: 0.375 Summarization ROUGEを訪ねて三千里:より良い要約の評価を求めて - Qiita ➦

要約の評価指標: ROUGE ROUGE-L 一致する最長のシーケンス（LCS）のオーバーラップを測る指標この他にもたくさんの ROUGE ファミリーがある ROUGE-1: 0.556 ROUGE-L:
0.333 Summarization ROUGEを訪ねて三千里:より良い要約の評価を求めて - Qiita ➦

起源は AutoEncoder （だと個人的に思っている） ▪ 当初は y を X に近づくように学習させていた ▪
出力 y より Hidden State が注目された次元削減装置だと思われていた ▪ Encoder / Decoder 部はシンプルな FF だった機械翻訳タスクで良い精度が出る ▪ Decoder を利用した生成タスクに使えると人類は気づく ▪ 機械翻訳じゃなくても pair-wise なデータなら何でも良いと人類は気づく ▪ Encoder / Decoder は別に FF じゃなく、CNN / RNN と何でも良いと人ｒｙ Encoder Hidden State Decoder X y Encoder-Decoder | History

今現在 ▪ Encoder-Decoder / seq2seq などと呼ばれ、生成タスクで使われることが多い ▪ 機械翻訳、対話、要約と数多くの NLP
の分野で使われている ▪ Encoder / Decoder には RNN / CNN が使われることが多い ▪ Attention （注意機構）なるものが考案される Encoder Hidden State Decoder X y Encoder-Decoder | History

Free Running ▪ Decoder が RNN のとき、ステップ t のときに入力に w
t-1 を使うこと ▫ 例えば t=1 での出力単語 w 1 をそのまま t=2 の入力として使う ▪ しかしこの方法だと、もし t=1 で間違った単語を出力しても、それがそのまま t=2, 3, … で使われるため、連鎖的に誤差が重なっていく ▪ よって学習が不安定で収束が遅い Encoder-decoderモデルとTeacher Forcing，Scheduled Sampling，Professor Forcing ➦ Encoder-Decoder | Teacher Forcing

Encoder-Decoder | Teacher Forcing Encoder-decoderモデルとTeacher Forcing，Scheduled Sampling，Professor Forcing ➦ Teacher
Forcing & Exposure Bias ▪ そこで考え出されたのが Teacher Forcing と呼ばれる方法 ▫ これは学習時に正解（Target）をそのまま Decoder の入力として使う方法 ▫ これで学習が安定し収束も早くなった ▪ が、評価時は正解がない Free Running 状態なので学習データにない入力が来たりすると同様に誤差が蓄積されていく ▪ これを Exposure Bias と呼ぶ ▫ この対策に Scheduled sampling や Professor forcing などがある（今回は詳しく触れない）

Encoder-Decoder | History Encoder Hidden State Decoder 今現在 ▪ Encoder-Decoder
/ seq2seq などと呼ばれ、生成タスクで使われることが多い ▪ 機械翻訳、対話、要約と数多くの NLP の分野で使われている ▪ Encoder / Decoder には RNN / CNN が使われることが多い ▪ Attention （注意機構）なるものが考案される前回 @chck さんの発表で説明されてたので今回は省略 X y

Encoder-Decoder | Pointer Networks ▪ 従来の Encoder-Decoder は OOV (Out-Of-Vocabulary)
問題に非常に弱い ▫ 評価時に訓練データにない単語が来たりすると上手く対処できない ▪ そこで考え出されたのが Pointer Networks [Vinyals et al., 2015] ▪ これは decode 時に入力の attention 情報を用いて（選択|コピー）する (Point) ことで、OOV を克服しようという発想 ▪ また、この発想に基づく CopyNet [Gu et al., 2016] や Pointer- Generator Network [See et al., 2017] なども後に考案される

Reinforcement Learning エージェントが、環境内での現状態から、取るべき次の行動を決定し、最大の報酬をもらえる方策を獲得するように学習すること ▪ 状態 (state): 環境から得られる情報 ▪ 行動
(action): 環境で行うアクション ▪ 報酬 (reward): 環境から得られる利益 ▪ 方策 (policy): 状態から行動を決定する関数深層強化学習の最前線 - Speaker Deck ➦

Reinforcement Learning 価値ベースと方策ベース ▪ 価値ベース (Value-Based methods) ▫ 行動価値関数を用いて、間接的に方策を表現 ▫
学習が速いが、行動空間が連続だと扱えない ▫ 例: Q 学習 ▪ 方策ベース (Policy-Based methods) ▫ 方策を直接最適化 ▫ 学習は遅いが、行動空間が連続でも扱える ▫ 例: 方策勾配法 (Policy Gradient Algorithm)

Reinforcement Learning 方策勾配法 (Policy Gradient Algorithm) ▪ 収益の期待値 J を最大化するように、方策
π を θ でパラメタライズして、θ で J の勾配を求めて θ を更新する ▪ 選択した行動が良ければ選択確率を上げ、悪ければ下げる深層強化学習の最前線 - Speaker Deck ➦

Keywords

本編

Introduction RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫
繰り返し（repetitive） ▫ 首尾一貫しない（incoherent）これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function

Intra-Attention 端的にいうと t-1 ステップまでの decoder attention を考慮することによって、同じ単語をなるべく出力しないようにした

Architecture Intra-Attention

Intra-Attention Architecture decode 用の中間表現は encoder の context vector c と
decoder の隠れ状態 h であることが一般的

Intra-Attention Architecture decode 用の中間表現は encoder の context vector c と
decoder の隠れ状態 h であることが一般的ここが新しい

Architecture Intra-Attention

単語生成は softmax と pointer mechanism を併用 ▪ u t は
0/1 のバイナリ値 ▪ これによって Out-Of-Vocabulary 問題を軽減 Token Generation softmax pointer pointer を使う確率 x i をコピーするかどうかの確率を attention の確率分布から取得する

Other Techniques ▪ Sharing Decoder Weights ▪ Trigram Limit 言葉のもつ広がりを、モデルの学習に活かそう
-one-hot to distribution in language modeling- - SlideShare ➦

Introduction RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫
繰り返し（repetitive） ▫ 首尾一貫しない（incoherent）これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function

混ぜた loss 実験では γ =0.9984 Hybrid Learning Objective Teacher Forcing
+ Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss 学習時に 25% の確率で正解ではなく t-1 で生成された token を使用することで、exposure bias を軽減する試み

+ Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss self-critical sequence training という手法を使用

Self-critical Sequence Training for Image Captioning [Rennie et al., 2017]
Self-critical sequence training

Self-critical Sequence Training for Image Captioning [Rennie et al., 2017]
Self-critical sequence training ちょっと何言ってるのかわからないです

Self-critical sequence training

本論文

Self-critical sequence training baseline: 最も良かった出力単語列（=L ml で得られる出力）生成中の単語列をサンプリング L
rl を最小化することは生成結果である ys が baseline よりも良い報酬を得られるように最大化することと同義 reward: 正解 y* との差 (ROUGE-1, 2, L)

+ Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y と正解 y* との maximum-likelihood policy learning の loss

RNN ベースの encoder-decoder を用いた生成型要約 ▪ 短い入出力では良い性能を発揮 ▪ 長い入出力が上手くできない ▫ 繰り返し（repetitive）
▫ 首尾一貫しない（incoherent）これらに対処するため、以下の改善を施した ▪ Intra-attention ▪ New objective function Introduction

実験

Setup ▪ maximum-likelihood (ML) ▫ w/ intra-attention ▫ w/o intra-attention
▪ reinforcement learning (RL) ▪ ML+RL Experiments Datasets ▪ CNN/Daily Mail ▫ split: 287113 / 13368 / 11490 ▫ ave in/out length: 632 / 53 tokens ▪ New York Times ▫ split: 589284 / 32736 / 32739 ▫ ave in/out length: 549 / 40 tokens ▪ どちらのデータセットでも in/out がそれぞれ 800/100 以下のものに制限 ▪ 前処理: stemming, lower case, 数字を 0 に置換, “s” や “(m)” を削除など

Experiments | Quantitative Analysis

▪ 正解要約文の文長ごとの intra-attention を追加した際の ROUGE-1 の増減傾向 ▪ 文長が長いほど intra-attention による
精度向上が見られる ▪ 逆に短いと精度低下する傾向がある ▪ だから NYT データセットでは w/o intra-attention のほうが結果が良かった Experiments | Quantitative Analysis

Experiments | Quantitative Analysis ▪ 他にも同じ NYT データセットで当時 SOTA の抽出型要約を
ROUGE recall で上回るなど ▪ recall しか書いていないあたり recall 以外は勝てなかったのだと思われ…

アンケート調査 ▪ CNN/Daily Mail データセットを使用 ▪ ML, RL, ML+RL からそれぞれ
100 生成要約を抜き出し評価 ▫ すべて w/ inter-attention ▪ 原文と生成要約、正解要約を並べて見せる ▪ 読みやすさ（Readability）と妥当性（Relevance）の指標 ▪ 各指標は 1 - 10 の 10 段階。10 が最も良い ▪ 1 要約につき 5 人の評価者 Experiments | Qualitative Analysis

Experiments | Qualitative Analysis ▪ 定性評価では Readability / Relevance の両方で
ML+RL がもっとも高いスコア ▪ 定量評価で ROUGE が高かった RL は一番低いスコア ▪ これは ROUGE しか最適化してないと、ROUGE でカバーできない文法性や一貫性の部分のクオリティが低下する

Experiments | Qualitative Analysis

Summary | TL;DR どんなタスク？生成型要約（abstractive summarization）新規性は？ ▪ repetitive に対処するために
intra-attention を考案 ▪ reinforcement learning を取り入れた目的関数で学習 ▪ これらにより長い入力・出力に頑健になり、より自然な要約にどう評価した？ ▪ 定量: ROUGE ▪ 定性: アンケート調査 ▪ 定量・定性ともに性能の向上が見られた

Summary | Critiques ▪ 結局実験時に入出力文の文長を制限してるから長い文にも頑健という説得力がちょっと減る ▪ 短い文 (を|に) 要約するときはあまり有用じゃない？
▪ repetition を回避するための手段が提案手法以外にヒューリスティックに trigram limitation も施しているが、その効果についての記述がないからどの施策が一番効いてるのかが分からない ▪ incoherent にうまく対処したとあるが、human evaluation でしか評価してないから他にもなにか欲しかった

参考資料 ▪ Paulus et al., A Deep Reinforced Model For
Abstractive Summarization, ICLR 2018 ➦ ▪ Richard Socher - Home Page ➦ ▪ Your TL;DR by an AI: A Deep Reinforced Model for Abstractive Summarization - Salesforce.com ➦ ▪ Erkan et al., Lexrank: Graph-based lexical centrality as salience in text summarization, JAIR 2004 ➦ ▪ Mihalcea et al., TextRank: Bringing Order into Texts, EMNLP 2004 ➦ ▪ ROUGEを訪ねて三千里:より良い要約の評価を求めて - Qiita ➦ ▪ Encoder-decoderモデルとTeacher Forcing，Scheduled Sampling，Professor Forcing ➦ ▪ Vinyals et al., Pointer Networks, NIPS 2015 ➦ ▪ Gu et al., Incorporating Copying Mechanism in Sequence-to-Sequence Learning, ACL 2016 ➦ ▪ See et al., Get To The Point: Summarization with Pointer-Generator Networks, ACL 2017 ➦ ▪ 言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- - SlideShare ➦ ▪ 深層強化学習の最前線 - Speaker Deck ➦ ▪ Rennie et al., Self-Critical Sequence Training for Image Captioning, CVPR 2017 ➦ ▪ Self-Critical Sequence Training for Image Captioning - SlideShare ➦ ▪ 論文解説 Attention Is All You Need (Transformer) ➦

Appendix

Appendix | Source Target Attention 論文解説 Attention Is All You
Need (Transformer) ➦

Appendix | Hyper Parameters

Feedbacks ▪ Table 1 の ROUGE-2 の黒字の位置おかしくね？ ▫ 確かに…ッ！ ▪
正解文が長すぎても intra-attention による精度向上が少ない？ ▫ 正解データの分布の問題かもしれない。論文では言及されていなかったけど単純に長めの正解要約文が少なかっただけの可能性 ▪ 強化学習の報酬関数を上手く設計するのがキーになりそう ▪ 強化学習は学習アルゴリズムよりも報酬関数のが重要 ▫ 同感。いい感じの報酬関数を教えてください ▪ ROUGE 以外の評価指標はなにかありますか ▫ METEOR, NIST, BLEU など。具体的の違いは牛久先生のスライドを参照 ▪ 日本語でなにかいい要約データセットある？ ▫ 自分も知りたい。平易化コーパスとかの言い換え用のものはあるけど… ▪ ROUGE は n-gram のオーバーラップを取るから、語順があまり重要じゃない言語など、言語ごとに性質が違いそう

A Deep Reinforced Model for Abstractive Summari...

A Deep Reinforced Model for Abstractive Summarization

More Decks by peinan

Other Decks in Research

Featured

Transcript