Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

第11回最先端NLP勉強会で読んだ ACL 2019 Best Long Paper の
Bridging the Gap between Training and Inference for Neural Machine Translation
についての資料です。ニューラル機械翻訳や文書要約、キャプション生成などの文生成タスクにおいて生じる、Exposure Bias と呼ばれる偏りについての解決策を提示する論文です。

Yoshitaka Ushiku

September 27, 2019
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Transcript

  1. SNLP2019 Bridging the Gap between Training and Inference for Neural

    Machine Translation 牛久 祥孝 losnuevetoros
  2. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師

    (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社Ridge-i Outside Chief Research Officer [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  3. 昔話(自分の修士論文黒歴史) 入力画像に類似した画像のキャプションを 組合せたら入力画像のキャプションになる? A small gray dog on a leash.

    A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力画像 データセット内の説明文つき画像
  4. Training Dataset A woman posing on a red scooter. White

    and gray kitten lying on its side. A white van parked in an empty lot. A white cat rests head on a stone. Silver car parked on side of road. A small gray dog on a leash. A black dog standing in a grassy area. A small white dog wearing a flannel warmer. Input Image A small white dog wearing a flannel warmer. A small gray dog on a leash. A black dog standing in a grassy area. Nearest Captions A small white dog wearing a flannel warm A small gray dog on a leash. A black dog standing in a grassy area. A small white dog standing on a leash.
  5. Encoder-Decoder による文生成タスク • Encoder が文特徴抽出 – 機械翻訳 [Sutskever+, NIPS 2014]

    – 文章要約 [Rush+, EMNLP 2015] • Encoder が画像特徴量抽出 – 画像キャプション生成 [Vinyals+, CVPR 2015] • Decoder(後処理)はRNNによる文生成で共通 – 近年は Transformer も登場 入力 出力
  6. 問題点① Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は −

    1番目までの 教師データ • テスト時:Free running – 入力は − 1番目までで 自身が推定したデータ テスト時に生成する系列が学習時に見たことのある 系列から外れだすと、エラーが蓄積して失敗する
  7. 問題点② Overcorrection 過剰な修正への対処 • reference: We should comply with the

    rule. 私たちはその規則を守るべきだ。 • cand1: We should abide with the rule. 私たちはその規則のもとにとどまるべきだ。 comply with と abide with の違い(abide を使うなら by が正しい) • cand2: We should abide by the law. 私たちは法律を守るべきだ。 単語 abide のあとに by を正しく推定できても、その後の単語列が by につられて参照訳と違うものになる可能性がある • cand3: We should abide by the rule. 私たちは規則を守るべきだ。 これが望ましい出力例である
  8. 解決アプローチ① 文生成中の条件の工夫 Scheduled sampling [Venkatraman+, AAAI 2015] Data As Demonstrator

    [Bengio+, NIPS 2015] • 毎回コイントスして – 教師系列から次を推定 – 生成中の系列から次を推定 のどちらかを選ぶ • 次第に生成中の系列のみを選ぶスケジュール Professor forcing [Lamb+, NIPS 2016] • RNNの隠れ変数の – Teacher forcing 後 – Free running 後 を近づける敵対的学習 • ドメイン適応の一種
  9. 解決アプローチ② 強化学習の利用 Cross-Entropyで学習しても評価に用いるのはBLEUな ど → 生成したキャプションの評価指標を 直接最適化するべきでは? • 評価指標の直接最適化 –

    機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! 短い文へのペナルティ N-gramのPrecision
  10. 解決アプローチ② 強化学習の利用 MIXER [Ranzato+, ICLR 2016] • 評価指標を報酬として、方策勾配による強化学習 • Exposure

    Biasの解消と直接最適化を同時に実現 – 機械翻訳ならBLEUで最適化 – 文章要約ならROUGEで最適化 – 画像キャプション生成ならCIDErで最適化 state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション
  11. その後の展開 • Self-Critical Sequence Training for Image Captioning [Rennie+, CVPR

    2017] – REINFORCEの方策勾配のベースラインを その時点で生成してみたキャプションの報酬に – MIXERでは = 0→勾配の分散大、学習が不安定 • An Actor-Critic Algorithm for Sequence Prediction [Bahdanau+, ICLR 2017] – REINFORCE → Actor-Critic – つまり勾配の分散の考慮…あれ↑と似てるぞ…
  12. 提案手法の概要 各単語の推定時に用いる系列を確率的に選択 • 1 − で oracle(現モデルが生成できたBLUE値最大)の単語 • で ground

    truth の単語 • = +exp / – はハイパーパラメタ(本論文では = 12) – はエポック数:エポックが進むとが単調減少する あれ、Scheduled Samplingと同じだぞ…
  13. Oracle Sentence 条件付き文生成の「条件」の Oracle をどう選ぶか? • 最新のパラメータによる生成器で – Oracle Word:

    1単語だけ加えるとき、参照訳との BLEU が最大となる 単語を検索 – Oracle Sentence: 最後まで文を生成し BLEU が最大となる文を検索、 現在デコーダが生成中の位置の単語をこの Oracle から抽出 • これが Scheduled Sampling との違いの一つ目という主張 • 文長を Ground Truth と揃えるために – Force Decoding – かっこいい名前と丁寧な説明がついているが、 • EOS を用いないで Ground Truth と同じだけの単語列を生成 • Ground Truth の文長 ∗ と同じになった時点で EOS を強制的にくっつける
  14. Zh→En の実験結果 • 提案手法が比較手法を上回る – SS-NMT: Scheduled Sampling – OR-NMT:

    提案手法 • Transformer との組合せでも効果を確認 – Oracle については文単位の方が効果あり
  15. Ablation Study と En→De • Ablation Study – Zh→En –

    単語より文単位の Oracle の方がよい – ノイズを加えた Gumbel-Max はどちらにも有効 • En→De – GRU、Transformer 双方で提案手法が最も良い
  16. 学習曲線による比較 Zh→Enでの実験 • 提案手法が最良 – WO: Word Oracle – SO:

    Sentence Oracle • SO+ノイズ有が安定 – RNNsearchはオーバー フィッティング – ノイズを入れた方が Validation データでの BLEUが高い
  17. まとめ Exposure Bias • 文生成の訓練時とテスト時における条件付き生成の乖離 提案手法 • 訓練中の文生成に用いる系列の確率的な選択 – Oracle:

    現在のデコーダーによる生成文で BLEU が最大のもの – Ground Truth: 学習が進むにつれ Oracle を選びやすくする • 単語レベルの Oracle から文レベルの Oracle への拡張 • Gumbel-Max によるカテゴリカル分布からのサンプリング 機構 実験結果:機械翻訳における比較と考察 • 単語より文の Oracle がよい • ノイズを用いる Gumbel-Max の方がよい
  18. …どうして Best Paper? ACL 2019 の受賞理由スライドを何となく訳すと • 本論文は、seq2seqにおけるExposure Biasという長年 の問題を扱っている

    • 提案された解決策は、参照訳の単語と、デコーダー自 身の出力からのoracleとして選択された単語とによる による条件付き生成を交互に行うことである • このアプローチは、現在のTeacher Forcingによる訓練 パラダイム内で作用し、Scheduled Samplingを改善す る • 堅実な実験で、結果は説得力があり、MTにおける将来 の研究に影響を与える可能性がある • この手法は他のseq2seqタスクにも適用できる
  19. 議論 やっぱりどうしてBest Paper? • 全く新規な問題設定? – Cf. Grouding from Video

    [Yu+Siskind, ACL 2019] • 革新的な手法の提案? – Cf. Non-Line-of-Sight Shape Reconstruction [Wang+, CVPR 2019] • 実験を超頑張った? – Cf. Taskonomy [Zamir+, CVPR 2018] もう少し実験結果を知りたい • Sentence-Level Oracle の選択は BLEU でよかったのか? – BLEU は文ごとの評価指標としては人間の評価とあまり相関しない – 論文中にも Rouge や GLEU への言及があるが、試したらどうか? • 強化学習系の新しい手法との比較もみたかった • 他の文生成タスクも評価してほしかった