$30 off During Our Annual Pro Sale. View Details »

ACL読み会2020_Jointly Masked Sequence-to-Sequence ...

maskcott
August 07, 2020

ACL読み会2020_Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation

maskcott

August 07, 2020
Tweet

More Decks by maskcott

Other Decks in Research

Transcript

  1. 1

  2. Related Work ・Non-Autoregressive Machine Translation  ターゲット文の文脈情報を捨てて全トークンを独立に出力することによって、ターゲット文の文長nに依存 しない、O(k)の計算量での翻訳が可能になった(kは定数) ・Masked Language Model

     ・BERT (Devlin et al., 2018)で提案され、トランスフォーマーのエンコーダー側を扱うモデル  ・XLM (Lample and Conneau, 2019)では、ソース文とターゲット文をコンキャットしてエンコーダーの入 力とすることでクロスリンガルな情報を学習した  ・MASS (Song et al., 2019)ではseq2seqにおける事前学習が提案されたが、モノリンガルなフレーム ワークだった →この論文ではATモデルのaccuracyとNATの推論速度を維持できるようなモデルに基づいた seq2seq のフレームワークでクロスリンガルな情報を扱う 4
  3. Methodology 目的関数 デコード方法 エンコーダーの入力に特殊なトークンを加えて、そのトークンに相当する隠れベクトルから文長を予測する (Ghazvininejad et al., 2019) この文長に関するロスも上式に加えて計算 文長が決まったらターゲット文を[mask]で初期化してデコーダーに入力

    出力のうち確率の低かった単語を選び、隣接する単語とともにマスクをしてデコーダーに入力を繰り返す (選ぶ単語の数は線形関数的に減衰させる) 事前に決めたイテレーション数回すか結果が変わらなくなったら終了 10
  4. 実験 データセット IWSLT14 German→English WMT16 English↔Romanian WMT14 English↔German Moses (Koehn

    et al.,2007)でトークナイズ, Byte-Pair Encoding (BPE) (Sennrich et al., 2015)をかけて ソース文、ターゲット文で32kのvocabularyになった モデル Transformer (Vaswani et al., 2017) (IWSLTにはsmall, その他にはbase) NATモデル O(1)で推論できるものが5種類、O(k)で推論できるのを2種類先行研究から用意 sequence-level knowledge distillation(Kim and Rush, 2016)を適用 11