Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

A Deep Reinforced Model for Abstractive Summari...

Avatar for peinan peinan
March 29, 2019

A Deep Reinforced Model for Abstractive Summarization

Paper Friday @AI Lab, CyberAgent, Inc.

Avatar for peinan

peinan

March 29, 2019
Tweet

More Decks by peinan

Other Decks in Research

Transcript

  1. Meta Information ▪ Organization: Salesforce Research ▪ Conference: ICLR 2018

    スタンフォヌド倧孊で Ph.D を取埗し、助教を経お今は Salesforce のチヌフサむ゚ン ティストを務める。か぀お Chris Manning や Andrew Ng ら ず同じ研究チヌムで NLP ず画 像凊理が専門。2018 幎の採択 内蚳は ACL×2, EMNLP×2, Interspeech×1, ICLR×6, CVPR×1, ICASSP×1
  2. TL;DR どんなタスク 生成型芁玄abstractive summarization 新芏性は ▪ repetitive に察凊するために intra-attention を考案

    ▪ reinforcement learning を取り入れた目的関数で孊習 ▪ これらにより長い入力・出力に頑健になり、より自然な芁玄に どう評䟡した ▪ 定量: ROUGE ▪ 定性: アンケヌト調査 ▪ 定量・定性ずもに性胜の向䞊が芋られた
  3. Summarization Extractive vs. Abstractive ▪ 前者は「抜出型芁玄」、埌者は「生成型芁玄」ず蚳される ▪ 抜出型芁玄 ▫ 元文章の䞭に存圚する重芁だず思われるフレヌズを抜出しお芁玄を䜜成する。

    文法的に厩壊したりしにくい。 ▫ 有名な手法に LexRank [Erkan et al., 2004] や TextRank [Mihalcea et al., 2004] などがある。 ▪ 生成型芁玄 ▫ 元文章の意味を考慮した䞊で再構築を行う。なので元文章に存圚しない 単語が䜿われたり、そもそもの構成が倉わる可胜性がある。 ▫ 䞀般的にニュヌラルな手法、䞭でも Encoder-Decoder がよく䜿われる。
  4. 芁玄の評䟡指暙: ROUGE ROUGE-N N は N-gram の N を衚しおおり、元文章ず芁玄の N-gram

    のオヌバヌラップ を枬る指暙 ROUGE-1: 0.667 ROUGE-2: 0.375 Summarization ROUGEを蚪ねお䞉千里:より良い芁玄の評䟡を求めお - Qiita ➊
  5. 起源は AutoEncoder だず個人的に思っおいる ▪ 圓初は y を X に近づくように孊習させおいた ▪

    出力 y より Hidden State が泚目された次元削枛装眮だず思われおいた ▪ Encoder / Decoder 郚はシンプルな FF だった 機械翻蚳タスクで良い粟床が出る ▪ Decoder を利甚した生成タスクに䜿えるず人類は気づく ▪ 機械翻蚳じゃなくおも pair-wise なデヌタなら䜕でも良いず人類は気づく ▪ Encoder / Decoder は別に FF じゃなく、CNN / RNN ず䜕でも良いず人 Encoder Hidden State Decoder X y Encoder-Decoder | History
  6. 今珟圚 ▪ Encoder-Decoder / seq2seq などず呌ばれ、生成タスクで䜿われる こずが倚い ▪ 機械翻蚳、察話、芁玄ず数倚くの NLP

    の分野で䜿われおいる ▪ Encoder / Decoder には RNN / CNN が䜿われるこずが倚い ▪ Attention 泚意機構なるものが考案される Encoder Hidden State Decoder X y Encoder-Decoder | History
  7. 今珟圚 ▪ Encoder-Decoder / seq2seq などず呌ばれ、生成タスクで䜿われる こずが倚い ▪ 機械翻蚳、察話、芁玄ず数倚くの NLP

    の分野で䜿われおいる ▪ Encoder / Decoder には RNN / CNN が䜿われるこずが倚い ▪ Attention 泚意機構なるものが考案される Encoder Hidden State Decoder X y Encoder-Decoder | History
  8. Free Running ▪ Decoder が RNN のずき、ステップ t のずきに入力に w

    t-1 を䜿うこず ▫ 䟋えば t=1 での出力単語 w 1 をそのたた t=2 の入力ずしお䜿う ▪ しかしこの方法だず、もし t=1 で間違った単語を 出力しおも、それがそのたた t=2, 3, 
 で䜿わ れるため、連鎖的に誀差が重なっおいく ▪ よっお孊習が䞍安定で収束が遅い Encoder-decoderモデルずTeacher ForcingScheduled SamplingProfessor Forcing ➊ Encoder-Decoder | Teacher Forcing
  9. Encoder-Decoder | Teacher Forcing Encoder-decoderモデルずTeacher ForcingScheduled SamplingProfessor Forcing ➊ Teacher

    Forcing & Exposure Bias ▪ そこで考え出されたのが Teacher Forcing ず呌ばれる方法 ▫ これは孊習時に正解Targetをそのたた Decoder の入力ずしお䜿う方法 ▫ これで孊習が安定し収束も早くなった ▪ が、評䟡時は正解がない Free Running 状態なので 孊習デヌタにない入力が来たりするず同様に 誀差が蓄積されおいく ▪ これを Exposure Bias ず呌ぶ ▫ この察策に Scheduled sampling や Professor forcing などがある 今回は詳しく觊れない
  10. Encoder-Decoder | History Encoder Hidden State Decoder 今珟圚 ▪ Encoder-Decoder

    / seq2seq などず呌ばれ、生成タスクで䜿われる こずが倚い ▪ 機械翻蚳、察話、芁玄ず数倚くの NLP の分野で䜿われおいる ▪ Encoder / Decoder には RNN / CNN が䜿われるこずが倚い ▪ Attention 泚意機構なるものが考案される 前回 @chck さんの発衚で 説明されおたので今回は省略 X y
  11. Encoder-Decoder | Pointer Networks ▪ 埓来の Encoder-Decoder は OOV (Out-Of-Vocabulary)

    問題に非垞に匱い ▫ 評䟡時に蚓緎デヌタにない単語が来たりするず䞊手く察凊できない ▪ そこで考え出されたのが Pointer Networks [Vinyals et al., 2015] ▪ これは decode 時に入力の attention 情報を甚いお遞択|コピヌする (Point) こずで、OOV を克服しようずいう発想 ▪ たた、この発想に基づく CopyNet [Gu et al., 2016] や Pointer- Generator Network [See et al., 2017] なども埌に考案される
  12. Reinforcement Learning ゚ヌゞェントが、環境内での珟状態から、取るべき次の行動を決定 し、最倧の報酬をもらえる方策を獲埗するように孊習するこず ▪ 状態 (state): 環境から埗られる情報 ▪ 行動

    (action): 環境で行うアクション ▪ 報酬 (reward): 環境から埗られる利益 ▪ 方策 (policy): 状態から行動を決定する関数 深局匷化孊習の最前線 - Speaker Deck ➊
  13. Reinforcement Learning 䟡倀ベヌスず方策ベヌス ▪ 䟡倀ベヌス (Value-Based methods) ▫ 行動䟡倀関数を甚いお、間接的に方策を衚珟 ▫

    孊習が速いが、行動空間が連続だず扱えない ▫ 䟋: Q å­Šç¿’ ▪ 方策ベヌス (Policy-Based methods) ▫ 方策を盎接最適化 ▫ 孊習は遅いが、行動空間が連続でも扱える ▫ 䟋: 方策募配法 (Policy Gradient Algorithm)
  14. Reinforcement Learning 方策募配法 (Policy Gradient Algorithm) ▪ 収益の期埅倀 J を最倧化するように、方策

    π を Ξ でパラメタ ラむズしお、Ξ で J の募配を求めお Ξ を曎新する ▪ 遞択した行動が良ければ遞択確率を䞊げ、悪ければ䞋げる 深局匷化孊習の最前線 - Speaker Deck ➊
  15. Introduction RNN ベヌスの encoder-decoder を甚いた生成型芁玄 ▪ 短い入出力では良い性胜を発揮 ▪ 長い入出力が䞊手くできない ▫

    繰り返しrepetitive ▫ 銖尟䞀貫しないincoherent これらに察凊するため、以䞋の改善を斜した ▪ Intra-attention ▪ New objective function
  16. Introduction RNN ベヌスの encoder-decoder を甚いた生成型芁玄 ▪ 短い入出力では良い性胜を発揮 ▪ 長い入出力が䞊手くできない ▫

    繰り返しrepetitive ▫ 銖尟䞀貫しないincoherent これらに察凊するため、以䞋の改善を斜した ▪ Intra-attention ▪ New objective function
  17. Intra-Attention Architecture decode 甚の䞭間衚珟は encoder の context vector c ず

    decoder の隠れ状態 h であるこずが䞀般的
  18. Intra-Attention Architecture decode 甚の䞭間衚珟は encoder の context vector c ず

    decoder の隠れ状態 h であるこずが䞀般的 ここが新しい
  19. 単語生成は softmax ず pointer mechanism を䜵甚 ▪ u t は

    0/1 のバむナリ倀 ▪ これによっお Out-Of-Vocabulary 問題を軜枛 Token Generation softmax pointer pointer を䜿う確率 x i をコピヌするかどうかの確率を attention の確率分垃から取埗する
  20. Introduction RNN ベヌスの encoder-decoder を甚いた生成型芁玄 ▪ 短い入出力では良い性胜を発揮 ▪ 長い入出力が䞊手くできない ▫

    繰り返しrepetitive ▫ 銖尟䞀貫しないincoherent これらに察凊するため、以䞋の改善を斜した ▪ Intra-attention ▪ New objective function
  21. 混ぜた loss 実隓では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y ず正解 y* ずの maximum-likelihood policy learning の loss 孊習時に 25% の確率で正解ではなく t-1 で生成された token を䜿甚するこ ずで、exposure bias を軜枛する詊み
  22. 混ぜた loss 実隓では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y ず正解 y* ずの maximum-likelihood policy learning の loss self-critical sequence training ずいう手法を䜿甚
  23. Self-critical Sequence Training for Image Captioning [Rennie et al., 2017]

    Self-critical sequence training ちょっず䜕蚀っおるのか わからないです
  24. Self-critical sequence training baseline: 最も良かった出力単語列 =L ml で埗られる出力 生成䞭の単語列をサンプリング L

    rl を最小化するこずは生成結果である ys が baseline よりも良い報酬を 埗られるように最倧化するこずず同矩 reward: 正解 y* ずの差 (ROUGE-1, 2, L)
  25. 混ぜた loss 実隓では γ =0.9984 Hybrid Learning Objective Teacher Forcing

    + Policy Learning ▪ Teacher Forcing loss L ml ▪ Policy Learning loss L rl ▪ Mixed loss L mixed 出力 y ず正解 y* ずの maximum-likelihood policy learning の loss
  26. RNN ベヌスの encoder-decoder を甚いた生成型芁玄 ▪ 短い入出力では良い性胜を発揮 ▪ 長い入出力が䞊手くできない ▫ 繰り返しrepetitive

    ▫ 銖尟䞀貫しないincoherent これらに察凊するため、以䞋の改善を斜した ▪ Intra-attention ▪ New objective function Introduction
  27. Setup ▪ maximum-likelihood (ML) ▫ w/ intra-attention ▫ w/o intra-attention

    ▪ reinforcement learning (RL) ▪ ML+RL Experiments Datasets ▪ CNN/Daily Mail ▫ split: 287113 / 13368 / 11490 ▫ ave in/out length: 632 / 53 tokens ▪ New York Times ▫ split: 589284 / 32736 / 32739 ▫ ave in/out length: 549 / 40 tokens ▪ どちらのデヌタセットでも in/out がそれぞれ 800/100 以䞋のものに制限 ▪ 前凊理: stemming, lower case, 数字を 0 に眮換, “s” や “(m)” を削陀など
  28. ▪ 正解芁玄文の文長ごずの intra-attention を远加した際の ROUGE-1 の増枛傟向 ▪ 文長が長いほど intra-attention による

    粟床向䞊が芋られる ▪ 逆に短いず粟床䜎䞋する 傟向がある ▪ だから NYT デヌタセット では w/o intra-attention のほうが結果が良かった Experiments | Quantitative Analysis
  29. Experiments | Quantitative Analysis ▪ 他にも同じ NYT デヌタセットで圓時 SOTA の抜出型芁玄を

    ROUGE recall で䞊回るなど ▪ recall しか曞いおいないあたり recall 以倖は勝おなかったの だず思われ 
  30. アンケヌト調査 ▪ CNN/Daily Mail デヌタセットを䜿甚 ▪ ML, RL, ML+RL からそれぞれ

    100 生成芁玄を抜き出し評䟡 ▫ すべお w/ inter-attention ▪ 原文ず生成芁玄、正解芁玄を䞊べお芋せる ▪ 読みやすさReadabilityず劥圓性Relevanceの指暙 ▪ 各指暙は 1 - 10 の 10 段階。10 が最も良い ▪ 1 芁玄に぀き 5 人の評䟡者 Experiments | Qualitative Analysis
  31. Experiments | Qualitative Analysis ▪ 定性評䟡では Readability / Relevance の䞡方で

    ML+RL が もっずも高いスコア ▪ 定量評䟡で ROUGE が高かった RL は䞀番䜎いスコア ▪ これは ROUGE しか最適化しおないず、ROUGE でカバヌでき ない文法性や䞀貫性の郚分のクオリティが䜎䞋する
  32. Summary | TL;DR どんなタスク 生成型芁玄abstractive summarization 新芏性は ▪ repetitive に察凊するために

    intra-attention を考案 ▪ reinforcement learning を取り入れた目的関数で孊習 ▪ これらにより長い入力・出力に頑健になり、より自然な芁玄に どう評䟡した ▪ 定量: ROUGE ▪ 定性: アンケヌト調査 ▪ 定量・定性ずもに性胜の向䞊が芋られた
  33. Summary | Critiques ▪ 結局実隓時に入出力文の文長を制限しおるから長い文に も頑健ずいう説埗力がちょっず枛る ▪ 短い文 (を|に) 芁玄するずきはあたり有甚じゃない

    ▪ repetition を回避するための手段が提案手法以倖に ヒュヌリスティックに trigram limitation も斜しおいる が、その効果に぀いおの蚘述がないからどの斜策が䞀番 効いおるのかが分からない ▪ incoherent にうたく察凊したずあるが、human evaluation でしか評䟡しおないから他にもなにか欲しかった
  34. 参考資料 ▪ Paulus et al., A Deep Reinforced Model For

    Abstractive Summarization, ICLR 2018 ➊ ▪ Richard Socher - Home Page ➊ ▪ Your TL;DR by an AI: A Deep Reinforced Model for Abstractive Summarization - Salesforce.com ➊ ▪ Erkan et al., Lexrank: Graph-based lexical centrality as salience in text summarization, JAIR 2004 ➊ ▪ Mihalcea et al., TextRank: Bringing Order into Texts, EMNLP 2004 ➊ ▪ ROUGEを蚪ねお䞉千里:より良い芁玄の評䟡を求めお - Qiita ➊ ▪ Encoder-decoderモデルずTeacher ForcingScheduled SamplingProfessor Forcing ➊ ▪ Vinyals et al., Pointer Networks, NIPS 2015 ➊ ▪ Gu et al., Incorporating Copying Mechanism in Sequence-to-Sequence Learning, ACL 2016 ➊ ▪ See et al., Get To The Point: Summarization with Pointer-Generator Networks, ACL 2017 ➊ ▪ 蚀葉のも぀広がりを、モデルの孊習に掻かそう -one-hot to distribution in language modeling- - SlideShare ➊ ▪ 深局匷化孊習の最前線 - Speaker Deck ➊ ▪ Rennie et al., Self-Critical Sequence Training for Image Captioning, CVPR 2017 ➊ ▪ Self-Critical Sequence Training for Image Captioning - SlideShare ➊ ▪ 論文解説 Attention Is All You Need (Transformer) ➊
  35. Feedbacks ▪ Table 1 の ROUGE-2 の黒字の䜍眮おかしくね ▫ 確かに ッ ▪

    正解文が長すぎおも intra-attention による粟床向䞊が少ない ▫ 正解デヌタの分垃の問題かもしれない。論文では蚀及されおいなかったけど単玔に長め の正解芁玄文が少なかっただけの可胜性 ▪ 匷化孊習の報酬関数を䞊手く蚭蚈するのがキヌになりそう ▪ 匷化孊習は孊習アルゎリズムよりも報酬関数のが重芁 ▫ 同感。いい感じの報酬関数を教えおください ▪ ROUGE 以倖の評䟡指暙はなにかありたすか ▫ METEOR, NIST, BLEU など。具䜓的の違いは牛久先生のスラむドを参照 ▪ 日本語でなにかいい芁玄デヌタセットある ▫ 自分も知りたい。平易化コヌパスずかの蚀い換え甚のものはあるけど  ▪ ROUGE は n-gram のオヌバヌラップを取るから、語順があたり重芁じゃな い蚀語など、蚀語ごずに性質が違いそう