Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
EMNLP読み会2020_Non-Autoregressive Machine Translation with Latent Alignments
Search
maskcott
November 24, 2020
Research
0
21
EMNLP読み会2020_Non-Autoregressive Machine Translation with Latent Alignments
maskcott
November 24, 2020
Tweet
Share
More Decks by maskcott
See All by maskcott
論文紹介2022後期(EMNLP2022)_Towards Opening the Black Box of Neural Machine Translation: Source and Target Interpretations of the Transformer
maskcott
0
39
論文紹介2022後期(ACL2022)_DEEP: DEnoising Entity Pre-training for Neural Machine Translation
maskcott
0
16
PACLIC2022_Japanese Named Entity Recognition from Automatic Speech Recognition Using Pre-trained Models
maskcott
0
8
WAT2022_TMU NMT System with Automatic Post-Editing by Multi-Source Levenshtein Transformer for the Restricted Translation Task of WAT 2022
maskcott
0
24
論文紹介2022前期_Redistributing Low Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation
maskcott
0
30
論文紹介2021後期_Analyzing the Source and Target Contributions to Predictions in Neural Machine Translation
maskcott
0
41
WAT2021_Machine Translation with Pre-specified Target-side Words Using a Semi-autoregressive Model
maskcott
0
20
NAACL/EACL読み会2021_NEUROLOGIC DECDING: (Un)supervised Neural Text Generation with Predicate Logic Constraints
maskcott
0
24
論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences
maskcott
0
21
Other Decks in Research
See All in Research
生成AIを用いたText to SQLの最前線
masatoto
1
2.8k
継続的な研究費獲得のための考え方
moda0
2
470
新入生向けチュートリアル:文献のサーベイv2
a1da4
7
6.3k
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
310
AIを前提とした体験の実現に向けて/toward_ai_based_experiences
monochromegane
1
270
デフスポーツにおける支援技術 〜競技特性・ルールと技術との関係〜
slab
0
260
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
190
Weekly AI Agents News!
masatoto
13
4.3k
論文紹介 DSRNet: Single Image Reflection Separation via Component Synergy (ICCV 2023)
tattaka
0
190
Embodied AIについて / About Embodied AI
nttcom
1
680
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
5
3.5k
LLMマルチエージェントを俯瞰する
masatoto
26
17k
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
123
39k
For a Future-Friendly Web
brad_frost
172
9k
BBQ
matthewcrist
80
8.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
82
45k
Building an army of robots
kneath
300
41k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Git: the NoSQL Database
bkeepers
PRO
423
63k
Music & Morning Musume
bryan
41
5.6k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.1k
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
Rebuilding a faster, lazier Slack
samanthasiow
74
8.3k
Embracing the Ebb and Flow
colly
80
4.2k
Transcript
EMNLP2020 紹介者: 今藤誠一郎(TMU 小町研究室 B4) 2020/11/24 EMNLP読み会 1
Abstract 非自己回帰機械翻訳(NAT)にCTCとImputerと呼ばれる二つの手法を導入 現存する他のNATに比べてシンプルな構造 CTCを用いた手法ではシングルステップのNATでSOTA Imputerを用いた手法では4ステップでtarnsformerベースのATと同等の性能 2
Intro 非自己回帰モデルにおける二つの主要な制限 ・出力語のトークンが全て独立して生成されることを仮定 →マルチモーダルな出力を引き起こし、繰り返し出力の原因となる →統計的な検索アルゴリズム (Gu et al., 2018) や、イテラティブなデコード手法(Ghazvininejad
et al., 2019, 2020b) が取り組まれてきた ・事前に出力文の文長を決定 →学習時にターゲット文の文長も別に学習する必要があり、推論時には文長を決めてからその条 件の下で文を生成することになる →いくつかの文長候補を挙げておいてそれぞれの結果に対してリスコアリングして出力を決定する 手法(Ghazvininejad et al., 2019, 2020b)が取られたりする 3
Intro 二つの制限に取り組むため潜在的アラインメント(Latent alignment)モデルを導入 ここで、”アラインメント” とは機械翻訳で使われるもの (Manning et al., 1999; Dyer
et al., 2013) ではなく、CTCの先行研究 (Graves et al., 2006, 2013; Graves and Jaitly, 2014) で定義されるもの →予測単語とターゲット文の間にマッピングされる、ターゲット文にblank tokenを挿入し て事前に決めた長さにすることで作られる アラインメントからblank tokenを取り除くことで元の文を復元する 4
Latent Alignment Model 入力 、出力 ( )、 はターゲットのvocab 二つの仮定 1) モデルの予測とターゲットはモノトニックなマッピングが存在する 2) アラインメント を と 間の離散的な系列として定義
関数 : niに対応する長さ の全てのアラインメントを返す 関数 : 連続しているトークンを削除した後、全ての”_”を削除 例. = 10で のときに考えられるアラインメント 5
Latent Alignment Model ターゲット文の対数尤度: (1)は膨大な組み合わせが存在するため一般的に扱いづらい →この対数尤度の計算を動的的計画法を用いて扱いやすくしたモデルが, Connectionist Temporal Classification (CTC)
(Graves et al., 2006) と Imputer (Chan et al., 2020) 6
Connectionist Temporal Classification (CTC) アラインメントに強力な独立条件を仮定 →動的計画法を用いて効果的に対数尤度を求められる 先行研究(Graves et al., 2006)より→
推論時はアラインメントの確率分布を1ステップで 生成し、この論文では貪欲に決定する 7
Imputer CTCで仮定した独立条件は複雑なマルチモーダルな分布をモデル化する能力にも制限 をかける 一方でATは連鎖律を利用するので複雑なマルチモーダルな分布のモデル化をする能 力があるものの、デコードに文長分ステップが必要になる →これらの問題に取り組んだのがImputer 推定に定数回の生成ステップだけが必要なイテラティブな生成モデル マスクしておいて1ステップに (文長) /
(ステップ数) のアラインメントを生成 1ステップに生成される単語間のみが独立に生成される 8
Imputer アラインメントの確率分布: : 部分的にマスクされたアラインメント, : になり得るマスクをかけたもの集合 を次の にしてマスクが無くなるまで繰り返す 9 1step内では独立
MTへの適用 (再掲) Latent Alignment Modelを使うにあたっての2つの仮定 1) モデルの予測とターゲットはモノトニックなマッピングが存在する 2) 機械学習は音声認識と違ってこの二つの仮定が成立しないケースが多い 1)
→ Transformerのような強力で深いニューラルネットワークならターゲットとほぼ単調になるように文脈 に応じてエンベディングを並び変えることを学習する能力があると仮定 2) → ソース文のエンベディングを単純にアップサンプリングすることで次元をs倍にする (Libovicky and Helcl (2018)) 10
Model 11
Advantages NATでしばしば問題になる2つの問題を軽減 1) 繰り返し出力が少なくなる →直接ターゲット文を生成するわけではないのが他のモデルとの大きな違い 生成されたalignmentを で復元する際に繰り返しを除去するので、繰り返しの出力を出しにくくなり、精度が 向上する 2) 文長予測の必要が無い →
アラインメントを介して文長が決められる アラインメントの長さは srcのものをs倍にするだけでいい 文長予測のためのモデルの構築も推論時に文長を考える必要もないのでよりシンプルなモデルになる 12
Experiments 設定: transformerのデコーダーのレイヤを2倍にして利用 学習は2Mステップ回して、Imputerの学習の際は最初の1MステップはCTCの lossを利用し、残りの1MステップでImputer用の学習を行う データセット: WMT’14 En↔De, WMT’16 En-Ro
(Sentence Pieceを利用) 知識蒸留: base Transformer と big Transformer を利用 (知識蒸留に関する分析も後 ほど) 13 文をブロックに分割してブロック内の単語を b個(b<B)マスクして学習
Single Step Decoding 14
Iterative Decoding 15
Imputerの出力例 16
Analysis 1) 繰り返し出力の割合 17
Analysis 2) デコード時のイテレーション回数の影響 パラメータ top-k: 1ステップにkトークンを代入 18
Analysis 3) 知識蒸留 19
Analysis 4) Imputerにおけるターゲットの長さ 20
Conclusion 二種類のlatent alignments model, CTCとImputerをNATに導入した 先行研究と異なり、文長予測や re-scoringを用いない手法を用いており、他の encoder-decoderモデルで利用されている cross-attentionが不要な、シンプルな構造 のモデル
主に音声認識で用いられている単純なlatent alignments modelの機械翻訳への適用 の容易さと有効性も示せた 21