Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

第11回最先端NLP勉強会で読んだ ACL 2019 Best Long Paper の
Bridging the Gap between Training and Inference for Neural Machine Translation
についての資料です。ニューラル機械翻訳や文書要約、キャプション生成などの文生成タスクにおいて生じる、Exposure Bias と呼ばれる偏りについての解決策を提示する論文です。

Be0f86176276318b4b9775d795278f7e?s=128

Yoshitaka Ushiku

September 27, 2019
Tweet

Transcript

  1. SNLP2019 Bridging the Gap between Training and Inference for Neural

    Machine Translation 牛久 祥孝 losnuevetoros
  2. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師

    (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-i Outside Chief Research Officer [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  3. 昔話(自分の修士論文黒歴史) 入力画像に類似した画像のキャプションを 組合せたら入力画像のキャプションになる? A small gray dog on a leash.

    A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力画像 データセット内の説明文つき画像
  4. Training Dataset A woman posing on a red scooter. White

    and gray kitten lying on its side. A white van parked in an empty lot. A white cat rests head on a stone. Silver car parked on side of road. A small gray dog on a leash. A black dog standing in a grassy area. A small white dog wearing a flannel warmer. Input Image A small white dog wearing a flannel warmer. A small gray dog on a leash. A black dog standing in a grassy area. Nearest Captions A small white dog wearing a flannel warm A small gray dog on a leash. A black dog standing in a grassy area. A small white dog standing on a leash.
  5. Encoder-Decoder による文生成タスク • Encoder が文特徴抽出 – 機械翻訳 [Sutskever+, NIPS 2014]

    – 文章要約 [Rush+, EMNLP 2015] • Encoder が画像特徴量抽出 – 画像キャプション生成 [Vinyals+, CVPR 2015] • Decoder(後処理)はRNNによる文生成で共通 – 近年は Transformer も登場 入力 出力
  6. 問題点と関連研究

  7. 問題点① Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は −

    1番目までの 教師データ • テスト時:Free running – 入力は − 1番目までで 自身が推定したデータ テスト時に生成する系列が学習時に見たことのある 系列から外れだすと、エラーが蓄積して失敗する
  8. 問題点② Overcorrection 過剰な修正への対処 • reference: We should comply with the

    rule. 私たちはその規則を守るべきだ。 • cand1: We should abide with the rule. 私たちはその規則のもとにとどまるべきだ。 comply with と abide with の違い(abide を使うなら by が正しい) • cand2: We should abide by the law. 私たちは法律を守るべきだ。 単語 abide のあとに by を正しく推定できても、その後の単語列が by につられて参照訳と違うものになる可能性がある • cand3: We should abide by the rule. 私たちは規則を守るべきだ。 これが望ましい出力例である
  9. 解決アプローチ① 文生成中の条件の工夫 Scheduled sampling [Venkatraman+, AAAI 2015] Data As Demonstrator

    [Bengio+, NIPS 2015] • 毎回コイントスして – 教師系列から次を推定 – 生成中の系列から次を推定 のどちらかを選ぶ • 次第に生成中の系列のみを選ぶスケジュール Professor forcing [Lamb+, NIPS 2016] • RNNの隠れ変数の – Teacher forcing 後 – Free running 後 を近づける敵対的学習 • ドメイン適応の一種
  10. 解決アプローチ② 強化学習の利用 Cross-Entropyで学習しても評価に用いるのはBLEUな ど → 生成したキャプションの評価指標を 直接最適化するべきでは? • 評価指標の直接最適化 –

    機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! 短い文へのペナルティ N-gramのPrecision
  11. 解決アプローチ② 強化学習の利用 MIXER [Ranzato+, ICLR 2016] • 評価指標を報酬として、方策勾配による強化学習 • Exposure

    Biasの解消と直接最適化を同時に実現 – 機械翻訳ならBLEUで最適化 – 文章要約ならROUGEで最適化 – 画像キャプション生成ならCIDErで最適化 state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション
  12. その後の展開 • Self-Critical Sequence Training for Image Captioning [Rennie+, CVPR

    2017] – REINFORCEの方策勾配のベースラインを その時点で生成してみたキャプションの報酬に – MIXERでは = 0→勾配の分散大、学習が不安定 • An Actor-Critic Algorithm for Sequence Prediction [Bahdanau+, ICLR 2017] – REINFORCE → Actor-Critic – つまり勾配の分散の考慮…あれ↑と似てるぞ…
  13. 提案手法

  14. 提案手法の概要 各単語の推定時に用いる系列を確率的に選択 • 1 − で oracle(現モデルが生成できたBLUE値最大)の単語 • で ground

    truth の単語 • = +exp / – はハイパーパラメタ(本論文では = 12) – はエポック数:エポックが進むとが単調減少する あれ、Scheduled Samplingと同じだぞ…
  15. Oracle Sentence 条件付き文生成の「条件」の Oracle をどう選ぶか? • 最新のパラメータによる生成器で – Oracle Word:

    1単語だけ加えるとき、参照訳との BLEU が最大となる 単語を検索 – Oracle Sentence: 最後まで文を生成し BLEU が最大となる文を検索、 現在デコーダが生成中の位置の単語をこの Oracle から抽出 • これが Scheduled Sampling との違いの一つ目という主張 • 文長を Ground Truth と揃えるために – Force Decoding – かっこいい名前と丁寧な説明がついているが、 • EOS を用いないで Ground Truth と同じだけの単語列を生成 • Ground Truth の文長 ∗ と同じになった時点で EOS を強制的にくっつける
  16. Gumbel-Max Oracle の単語または文の候補を生成する時だけ利用 • もっとも事後確率が高い単語だけを並べる?(上図) • もっとも事後確率が高い単語の選択がカテゴリカル分布の サンプリングに相当するようにノイズを追加(下図)

  17. 実験結果~まとめ

  18. Zh→En の実験結果 • 提案手法が比較手法を上回る – SS-NMT: Scheduled Sampling – OR-NMT:

    提案手法 • Transformer との組合せでも効果を確認 – Oracle については文単位の方が効果あり
  19. Ablation Study と En→De • Ablation Study – Zh→En –

    単語より文単位の Oracle の方がよい – ノイズを加えた Gumbel-Max はどちらにも有効 • En→De – GRU、Transformer 双方で提案手法が最も良い
  20. 学習曲線による比較 Zh→Enでの実験 • 提案手法が最良 – WO: Word Oracle – SO:

    Sentence Oracle • SO+ノイズ有が安定 – RNNsearchはオーバー フィッティング – ノイズを入れた方が Validation データでの BLEUが高い
  21. その他の考察 • テストデータにおける BLEU の変化 • 文長ごとの比較 – RNNsearch と

    OR-NMT – 文が長い方が OR-NMT 有利…?
  22. まとめ Exposure Bias • 文生成の訓練時とテスト時における条件付き生成の乖離 提案手法 • 訓練中の文生成に用いる系列の確率的な選択 – Oracle:

    現在のデコーダーによる生成文で BLEU が最大のもの – Ground Truth: 学習が進むにつれ Oracle を選びやすくする • 単語レベルの Oracle から文レベルの Oracle への拡張 • Gumbel-Max によるカテゴリカル分布からのサンプリング 機構 実験結果:機械翻訳における比較と考察 • 単語より文の Oracle がよい • ノイズを用いる Gumbel-Max の方がよい
  23. …どうして Best Paper? ACL 2019 の受賞理由スライドを何となく訳すと • 本論文は、seq2seqにおけるExposure Biasという長年 の問題を扱っている

    • 提案された解決策は、参照訳の単語と、デコーダー自 身の出力からのoracleとして選択された単語とによる による条件付き生成を交互に行うことである • このアプローチは、現在のTeacher Forcingによる訓練 パラダイム内で作用し、Scheduled Samplingを改善す る • 堅実な実験で、結果は説得力があり、MTにおける将来 の研究に影響を与える可能性がある • この手法は他のseq2seqタスクにも適用できる
  24. 議論 やっぱりどうしてBest Paper? • 全く新規な問題設定? – Cf. Grouding from Video

    [Yu+Siskind, ACL 2019] • 革新的な手法の提案? – Cf. Non-Line-of-Sight Shape Reconstruction [Wang+, CVPR 2019] • 実験を超頑張った? – Cf. Taskonomy [Zamir+, CVPR 2018] もう少し実験結果を知りたい • Sentence-Level Oracle の選択は BLEU でよかったのか? – BLEU は文ごとの評価指標としては人間の評価とあまり相関しない – 論文中にも Rouge や GLEU への言及があるが、試したらどうか? • 強化学習系の新しい手法との比較もみたかった • 他の文生成タスクも評価してほしかった