EMNLP読み会2020_Non-Autoregressive Machine Translation with Latent Alignments

EMNLP2020 紹介者: 今藤誠一郎(TMU 小町研究室 B4) 2020/11/24 EMNLP読み会 1

Abstract 非自己回帰機械翻訳(NAT)にCTCとImputerと呼ばれる二つの手法を導入現存する他のNATに比べてシンプルな構造 CTCを用いた手法ではシングルステップのNATでSOTA Imputerを用いた手法では4ステップでtarnsformerベースのATと同等の性能 2

Intro 非自己回帰モデルにおける二つの主要な制限・出力語のトークンが全て独立して生成されることを仮定　→マルチモーダルな出力を引き起こし、繰り返し出力の原因となる　→統計的な検索アルゴリズム (Gu et al., 2018) や、イテラティブなデコード手法(Ghazvininejad
et al., 2019, 2020b) が取り組まれてきた・事前に出力文の文長を決定　→学習時にターゲット文の文長も別に学習する必要があり、推論時には文長を決めてからその条件の下で文を生成することになる　→いくつかの文長候補を挙げておいてそれぞれの結果に対してリスコアリングして出力を決定する手法(Ghazvininejad et al., 2019, 2020b)が取られたりする 3

Intro 二つの制限に取り組むため潜在的アラインメント(Latent alignment)モデルを導入ここで、”アラインメント” とは機械翻訳で使われるもの (Manning et al., 1999; Dyer
et al., 2013) ではなく、CTCの先行研究 (Graves et al., 2006, 2013; Graves and Jaitly, 2014) で定義されるもの →予測単語とターゲット文の間にマッピングされる、ターゲット文にblank tokenを挿入して事前に決めた長さにすることで作られるアラインメントからblank tokenを取り除くことで元の文を復元する 4

Latent Alignment Model 入力　、出力　　( )、　　はターゲットのvocab 二つの仮定 1) モデルの予測とターゲットはモノトニックなマッピングが存在する 2) アラインメント　を　と　間の離散的な系列として定義
関数　　 : niに対応する長さ　の全てのアラインメントを返す関数　　　: 連続しているトークンを削除した後、全ての”_”を削除例. = 10でのときに考えられるアラインメント 5

Latent Alignment Model ターゲット文の対数尤度: (1)は膨大な組み合わせが存在するため一般的に扱いづらい　→この対数尤度の計算を動的的計画法を用いて扱いやすくしたモデルが, Connectionist Temporal Classification (CTC)
(Graves et al., 2006) と Imputer (Chan et al., 2020) 6

Connectionist Temporal Classification (CTC) アラインメントに強力な独立条件を仮定 →動的計画法を用いて効果的に対数尤度を求められる　　　　　　先行研究(Graves et al., 2006)より→
推論時はアラインメントの確率分布を1ステップで生成し、この論文では貪欲に決定する 7

Imputer CTCで仮定した独立条件は複雑なマルチモーダルな分布をモデル化する能力にも制限をかける一方でATは連鎖律を利用するので複雑なマルチモーダルな分布のモデル化をする能力があるものの、デコードに文長分ステップが必要になる →これらの問題に取り組んだのがImputer 推定に定数回の生成ステップだけが必要なイテラティブな生成モデルマスクしておいて1ステップに (文長) /
(ステップ数) のアラインメントを生成 1ステップに生成される単語間のみが独立に生成される 8

Imputer アラインメントの確率分布: : 部分的にマスクされたアラインメント, : になり得るマスクをかけたもの集合　を次のにしてマスクが無くなるまで繰り返す 9 1step内では独立

MTへの適用 (再掲) Latent Alignment Modelを使うにあたっての2つの仮定 1) モデルの予測とターゲットはモノトニックなマッピングが存在する 2) 機械学習は音声認識と違ってこの二つの仮定が成立しないケースが多い 1)
→ Transformerのような強力で深いニューラルネットワークならターゲットとほぼ単調になるように文脈に応じてエンベディングを並び変えることを学習する能力があると仮定 2) → ソース文のエンベディングを単純にアップサンプリングすることで次元をs倍にする　　　　　　　　　　　　　　　 (Libovicky and Helcl (2018)) 10

Model 11

Advantages NATでしばしば問題になる2つの問題を軽減 1) 繰り返し出力が少なくなる →直接ターゲット文を生成するわけではないのが他のモデルとの大きな違い　生成されたalignmentを　　で復元する際に繰り返しを除去するので、繰り返しの出力を出しにくくなり、精度が向上する 2) 文長予測の必要が無い →
アラインメントを介して文長が決められる　アラインメントの長さは srcのものをs倍にするだけでいい　文長予測のためのモデルの構築も推論時に文長を考える必要もないのでよりシンプルなモデルになる 12

Experiments 設定: transformerのデコーダーのレイヤを2倍にして利用学習は2Mステップ回して、Imputerの学習の際は最初の1MステップはCTCの lossを利用し、残りの1MステップでImputer用の学習を行うデータセット: WMT’14 En↔De, WMT’16 En-Ro
(Sentence Pieceを利用) 知識蒸留: base Transformer と big Transformer を利用 (知識蒸留に関する分析も後ほど) 13 文をブロックに分割してブロック内の単語を b個(b<B)マスクして学習

Single Step Decoding 14

Iterative Decoding 15

Imputerの出力例 16

Analysis 1) 繰り返し出力の割合 17

Analysis 2) デコード時のイテレーション回数の影響　　パラメータ top-k: 1ステップにkトークンを代入 18

Analysis 3) 知識蒸留 19

Analysis 4) Imputerにおけるターゲットの長さ 20

Conclusion 二種類のlatent alignments model, CTCとImputerをNATに導入した先行研究と異なり、文長予測や re-scoringを用いない手法を用いており、他の encoder-decoderモデルで利用されている cross-attentionが不要な、シンプルな構造のモデル
主に音声認識で用いられている単純なlatent alignments modelの機械翻訳への適用の容易さと有効性も示せた 21

EMNLP読み会2020_Non-Autoregressive Machine Transla...

EMNLP読み会2020_Non-Autoregressive Machine Translation with Latent Alignments

maskcott

More Decks by maskcott

Other Decks in Research

Featured

Transcript

EMNLP2020 紹介者: 今藤誠一郎(TMU 小町研究室 B4) 2020/11/24 EMNLP読み会 1

Intro 二つの制限に取り組むため潜在的アラインメント(Latent alignment)モデルを導入ここで、”アラインメント” とは機械翻訳で使われるもの (Manning et al., 1999; Dyer

Latent Alignment Model 入力　、出力　　( )、　　はターゲットのvocab 二つの仮定 1) モデルの予測とターゲットはモノトニックなマッピングが存在する 2) アラインメント　を　と　間の離散的な系列として定義

Latent Alignment Model ターゲット文の対数尤度: (1)は膨大な組み合わせが存在するため一般的に扱いづらい　→この対数尤度の計算を動的的計画法を用いて扱いやすくしたモデルが, Connectionist Temporal Classification (CTC)

Connectionist Temporal Classification (CTC) アラインメントに強力な独立条件を仮定 →動的計画法を用いて効果的に対数尤度を求められる　　　　　　先行研究(Graves et al., 2006)より→