SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

SNLP2019 Bridging the Gap between Training and Inference for Neural
Machine Translation 牛久祥孝 losnuevetoros

自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員 2016.4～2018.9 東京大学講師
(原田・牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社Ridge-i Outside Chief Research Officer [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成主観的な感性表現を持つ画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.

昔話（自分の修士論文黒歴史）入力画像に類似した画像のキャプションを組合せたら入力画像のキャプションになる？ A small gray dog on a leash.
A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力画像データセット内の説明文つき画像

Training Dataset A woman posing on a red scooter. White
and gray kitten lying on its side. A white van parked in an empty lot. A white cat rests head on a stone. Silver car parked on side of road. A small gray dog on a leash. A black dog standing in a grassy area. A small white dog wearing a flannel warmer. Input Image A small white dog wearing a flannel warmer. A small gray dog on a leash. A black dog standing in a grassy area. Nearest Captions A small white dog wearing a flannel warm A small gray dog on a leash. A black dog standing in a grassy area. A small white dog standing on a leash.

Encoder-Decoder による文生成タスク • Encoder が文特徴抽出 – 機械翻訳 [Sutskever+, NIPS 2014]
– 文章要約 [Rush+, EMNLP 2015] • Encoder が画像特徴量抽出 – 画像キャプション生成 [Vinyals+, CVPR 2015] • Decoder(後処理)はRNNによる文生成で共通 – 近年は Transformer も登場入力出力

問題点と関連研究

問題点① Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時：Teacher forcing – 入力は −
1番目までの教師データ • テスト時：Free running – 入力は − 1番目までで自身が推定したデータテスト時に生成する系列が学習時に見たことのある系列から外れだすと、エラーが蓄積して失敗する

問題点② Overcorrection 過剰な修正への対処 • reference: We should comply with the
rule. 私たちはその規則を守るべきだ。 • cand1: We should abide with the rule. 私たちはその規則のもとにとどまるべきだ。 comply with と abide with の違い（abide を使うなら by が正しい） • cand2: We should abide by the law. 私たちは法律を守るべきだ。単語 abide のあとに by を正しく推定できても、その後の単語列が by につられて参照訳と違うものになる可能性がある • cand3: We should abide by the rule. 私たちは規則を守るべきだ。これが望ましい出力例である

解決アプローチ① 文生成中の条件の工夫 Scheduled sampling [Venkatraman+, AAAI 2015] Data As Demonstrator
[Bengio+, NIPS 2015] • 毎回コイントスして – 教師系列から次を推定 – 生成中の系列から次を推定のどちらかを選ぶ • 次第に生成中の系列のみを選ぶスケジュール Professor forcing [Lamb+, NIPS 2016] • RNNの隠れ変数の – Teacher forcing 後 – Free running 後を近づける敵対的学習 • ドメイン適応の一種

解決アプローチ② 強化学習の利用 Cross-Entropyで学習しても評価に用いるのはBLEUなど → 生成したキャプションの評価指標を直接最適化するべきでは？ • 評価指標の直接最適化 –
機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…？ – 勾配が求められないから学習できない！！短い文へのペナルティ N-gramのPrecision

解決アプローチ② 強化学習の利用 MIXER [Ranzato+, ICLR 2016] • 評価指標を報酬として、方策勾配による強化学習 • Exposure
Biasの解消と直接最適化を同時に実現 – 機械翻訳ならBLEUで最適化 – 文章要約ならROUGEで最適化 – 画像キャプション生成ならCIDErで最適化 state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション

その後の展開 • Self-Critical Sequence Training for Image Captioning [Rennie+, CVPR
2017] – REINFORCEの方策勾配のベースラインをその時点で生成してみたキャプションの報酬に – MIXERでは = 0→勾配の分散大、学習が不安定 • An Actor-Critic Algorithm for Sequence Prediction [Bahdanau+, ICLR 2017] – REINFORCE → Actor-Critic – つまり勾配の分散の考慮…あれ↑と似てるぞ…

提案手法

提案手法の概要各単語の推定時に用いる系列を確率的に選択 • 1 − で oracle（現モデルが生成できたBLUE値最大）の単語 • で ground
truth の単語 • = +exp / – はハイパーパラメタ（本論文では = 12） – はエポック数：エポックが進むとが単調減少するあれ、Scheduled Samplingと同じだぞ…

Oracle Sentence 条件付き文生成の「条件」の Oracle をどう選ぶか？ • 最新のパラメータによる生成器で – Oracle Word:
1単語だけ加えるとき、参照訳との BLEU が最大となる単語を検索 – Oracle Sentence: 最後まで文を生成し BLEU が最大となる文を検索、現在デコーダが生成中の位置の単語をこの Oracle から抽出 • これが Scheduled Sampling との違いの一つ目という主張 • 文長を Ground Truth と揃えるために – Force Decoding – かっこいい名前と丁寧な説明がついているが、 • EOS を用いないで Ground Truth と同じだけの単語列を生成 • Ground Truth の文長 ∗ と同じになった時点で EOS を強制的にくっつける

Gumbel-Max Oracle の単語または文の候補を生成する時だけ利用 • もっとも事後確率が高い単語だけを並べる？（上図） • もっとも事後確率が高い単語の選択がカテゴリカル分布のサンプリングに相当するようにノイズを追加（下図）

実験結果～まとめ

Zh→En の実験結果 • 提案手法が比較手法を上回る – SS-NMT: Scheduled Sampling – OR-NMT:
提案手法 • Transformer との組合せでも効果を確認 – Oracle については文単位の方が効果あり

Ablation Study と En→De • Ablation Study – Zh→En –
単語より文単位の Oracle の方がよい – ノイズを加えた Gumbel-Max はどちらにも有効 • En→De – GRU、Transformer 双方で提案手法が最も良い

学習曲線による比較 Zh→Enでの実験 • 提案手法が最良 – WO: Word Oracle – SO:
Sentence Oracle • SO+ノイズ有が安定 – RNNsearchはオーバーフィッティング – ノイズを入れた方が Validation データでの BLEUが高い

その他の考察 • テストデータにおける BLEU の変化 • 文長ごとの比較 – RNNsearch と
OR-NMT – 文が長い方が OR-NMT 有利…？

まとめ Exposure Bias • 文生成の訓練時とテスト時における条件付き生成の乖離提案手法 • 訓練中の文生成に用いる系列の確率的な選択 – Oracle:
現在のデコーダーによる生成文で BLEU が最大のもの – Ground Truth: 学習が進むにつれ Oracle を選びやすくする • 単語レベルの Oracle から文レベルの Oracle への拡張 • Gumbel-Max によるカテゴリカル分布からのサンプリング機構実験結果：機械翻訳における比較と考察 • 単語より文の Oracle がよい • ノイズを用いる Gumbel-Max の方がよい

…どうして Best Paper？ ACL 2019 の受賞理由スライドを何となく訳すと • 本論文は、seq2seqにおけるExposure Biasという長年の問題を扱っている
• 提案された解決策は、参照訳の単語と、デコーダー自身の出力からのoracleとして選択された単語とによるによる条件付き生成を交互に行うことである • このアプローチは、現在のTeacher Forcingによる訓練パラダイム内で作用し、Scheduled Samplingを改善する • 堅実な実験で、結果は説得力があり、MTにおける将来の研究に影響を与える可能性がある • この手法は他のseq2seqタスクにも適用できる

議論やっぱりどうしてBest Paper? • 全く新規な問題設定？ – Cf. Grouding from Video
[Yu+Siskind, ACL 2019] • 革新的な手法の提案？ – Cf. Non-Line-of-Sight Shape Reconstruction [Wang+, CVPR 2019] • 実験を超頑張った？ – Cf. Taskonomy [Zamir+, CVPR 2018] もう少し実験結果を知りたい • Sentence-Level Oracle の選択は BLEU でよかったのか？ – BLEU は文ごとの評価指標としては人間の評価とあまり相関しない – 論文中にも Rouge や GLEU への言及があるが、試したらどうか？ • 強化学習系の新しい手法との比較もみたかった • 他の文生成タスクも評価してほしかった

SNLP2019 Bridging the Gap between Training and ...

SNLP2019 Bridging the Gap between Training and Inference for Neural Machine Translation

Yoshitaka Ushiku PRO

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Featured

Transcript