ACL読み会2020_Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation

Abstract ・様々な自然言語処理のタスクで注目を集めているmasked languageモデルをseq2seqモデルに適用した ”jointly masked seq2seq” モデルを提案しNATに適用した・具体的にはトレーニング時にエンコーダーへの入力をマスキングし、デコーダーではn-gramのロス関数で連続的にマスキングすることで学習するもの
・ WMT14 en-de/de-en で 27.69/32.24 のBLEUスコアを達成し、自己回帰モデルの5倍の速度を実現 2

Introduction ・NATモデルの精度が落ちる理由として次の二つが先行研究で主に挙げられている　１.ソース側の情報が適切にエンコードされていないこと　２.デコーダーがタスクをうまく処理できず、繰り返しや長文における性能が低下したりする →NATモデルのエンコーダーとデコーダーの機能を実験的に研究するとエンコーダーの方がデコーダーよりも翻訳結果に影響を与えることが判明・BERTに倣ってエンコーダ―でマスキングを行うことでエンコーダーを徹底的に学習させる・デコーダーの入力に対して連続的なマスキングを行う手法とn-gramロス関数の実装を提案・二つの方法を統合してjointly masked
seq2seqモデルを実装 3

Related Work ・Non-Autoregressive Machine Translation 　ターゲット文の文脈情報を捨てて全トークンを独立に出力することによって、ターゲット文の文長nに依存しない、O(k)の計算量での翻訳が可能になった(kは定数) ・Masked Language Model
　・BERT (Devlin et al., 2018)で提案され、トランスフォーマーのエンコーダー側を扱うモデル　・XLM (Lample and Conneau, 2019)では、ソース文とターゲット文をコンキャットしてエンコーダーの入力とすることでクロスリンガルな情報を学習した　・MASS (Song et al., 2019)ではseq2seqにおける事前学習が提案されたが、モノリンガルなフレームワークだった →この論文ではATモデルのaccuracyとNATの推論速度を維持できるようなモデルに基づいた seq2seq のフレームワークでクロスリンガルな情報を扱う 4

Preliminary Study NATにおけるエンコーダーデコーダーモデルの構造を探るための実験的な研究 Nonautoregressive neural machine translation(Gu et al., 2017)で提案されたベーシックなNATモデル
を利用データセット: IWSLT14 German to English エンコーダーとデコーダーの重要性を3つの観点から調べる 5

Preliminary Study 6

Methodology 問題設定・ソース文とターゲット文　　ロス関数エンコーダーマスキング　　　個の単語をランダムに選択して　　とする　　　のうち80%を[mask], 10%をvocabからランダムに別の単語に置き換える　置き換えた後の文を　とする
　　ロス関数 7

Methodology デコーダーマスキング　ターゲット文　　　　　　　　　　が与えられたときに、連続したトークンをマスキング　エンコーダー同様にマスキングしたn-gramを　　, マスキング後の文を　　とする　ロス関数 8

Methodology 連続的なn-gramベースのロス関数(Ma et al., 2018; Shao et al., 2018, 2019)も利用(デコーダー)
　　　与えられるn-gram 　 9

Methodology 目的関数デコード方法エンコーダーの入力に特殊なトークンを加えて、そのトークンに相当する隠れベクトルから文長を予測する (Ghazvininejad et al., 2019) この文長に関するロスも上式に加えて計算文長が決まったらターゲット文を[mask]で初期化してデコーダーに入力
出力のうち確率の低かった単語を選び、隣接する単語とともにマスクをしてデコーダーに入力を繰り返す (選ぶ単語の数は線形関数的に減衰させる) 事前に決めたイテレーション数回すか結果が変わらなくなったら終了 10

実験データセット IWSLT14 German→English WMT16 English↔Romanian WMT14 English↔German Moses (Koehn
et al.,2007)でトークナイズ, Byte-Pair Encoding (BPE) (Sennrich et al., 2015)をかけてソース文、ターゲット文で32kのvocabularyになったモデル Transformer (Vaswani et al., 2017) (IWSLTにはsmall, その他にはbase) NATモデル　O(1)で推論できるものが5種類、O(k)で推論できるのを2種類先行研究から用意 sequence-level knowledge distillation(Kim and Rush, 2016)を適用 11

Result 12 O(1)のNAT O(k)のNAT

Analysis 13 encoder decoder

Ablation 14

Conclusion NATモデルの機能を実験的に調べ、エンコーダ―の学習の重要性を発見したエンコーダーの入力にマスキングを施しロス関数に基づく予測を提案することでエンコーダ―の学習を向上させたデコーダー側ではn-gram単位のマスキングとn-gramロス関数を提案し、連続して出力してしまう問題を和らげた比較対象のベースラインにした全てのNATモデルよりも提案手法は優れたスコアを出し、ATモデルの5倍以上の推論速度を達成した 15

ACL読み会2020_Jointly Masked Sequence-to-Sequence ...

ACL読み会2020_Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation

maskcott

More Decks by maskcott

Other Decks in Research

Featured

Transcript

1

Related Work ・Non-Autoregressive Machine Translation 　ターゲット文の文脈情報を捨てて全トークンを独立に出力することによって、ターゲット文の文長nに依存しない、O(k)の計算量での翻訳が可能になった(kは定数) ・Masked Language Model

Preliminary Study NATにおけるエンコーダーデコーダーモデルの構造を探るための実験的な研究 Nonautoregressive neural machine translation(Gu et al., 2017)で提案されたベーシックなNATモデル

Preliminary Study 6

Methodology デコーダーマスキング　ターゲット文　　　　　　　　　　が与えられたときに、連続したトークンをマスキング　エンコーダー同様にマスキングしたn-gramを　　, マスキング後の文を　　とする　ロス関数 8

Methodology 連続的なn-gramベースのロス関数(Ma et al., 2018; Shao et al., 2018, 2019)も利用(デコーダー)

実験データセット IWSLT14 German→English WMT16 English↔Romanian WMT14 English↔German Moses (Koehn

Result 12 O(1)のNAT O(k)のNAT

Analysis 13 encoder decoder

Ablation 14