文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

Slide 1

Slide 1 text

Unsupervised Neural Machine Translation with Weight Sharing 文献紹介 (2018/08/24) 長岡技術科学大学自然言語処理研究室稲岡夢人 Zhen Yang, Wei Chen, Feng Wang, Bo Xu. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 46-55, 2018. 1

Slide 2

Slide 2 text

Abstract • Unsupervised NMTはラベル付けされたデータを使うことなく機械翻訳モデルを学習するアプローチ • 従来は異なる言語の文を同じ潜在空間に対応させるためにエンコーダを共有していた → スタイル, 用語, 文構造といった言語特有の特徴を保持しづらい • エンコーダを共有しないUnsupervised NMTを提案 2

Slide 3

Slide 3 text

Introduction • Supervised NMTは対訳コーパスを用いてモデルを訓練 • Unsupervised NMTは原言語と目的言語の単言語コーパスのみを用いて訓練 • アライメントの情報がない分Unsupervised NMTの方が困難だがコーパスの収集は単言語コーパスの方が容易 3

Slide 4

Slide 4 text

Introduction • 原言語と目的言語で同じ潜在空間にエンコードできるなら，一般的なAutoEncoderを学習させ，デコーダを変えることで翻訳が実現できる • エンコーダの共有は上の仮定を実現するが，言語特有の特徴を保持しづらい → エンコーダは別々に学習させたい Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho. Unsupervised Neural Machine Translation. ICLR 2018. 4

Slide 5

Slide 5 text

Model Architecture 5

Slide 6

Slide 6 text

Model Architecture 6

Slide 7

Slide 7 text

Model Architecture 7

Slide 8

Slide 8 text

Model Architecture 8

Slide 9

Slide 9 text

Model Architecture 9

Slide 10

Slide 10 text

Model Architecture • 各エンコーダの最後の数層と各デコーダの最初の数層はそれぞれ重みを共有 (weight-sharing constraint) • 学習済みのcross-lingual embeddingsをエンコーダの強化に使用 (embedding-reinforced encoder) embedding vectors E = {e1 , …, et } initial output sequence of the encoder stack H = {h1 , …, ht } final output sequence of the encoder Hr W1 , W2 , b is trainable parameters and shared by each encoders 10

Slide 11

Slide 11 text

Training • Denoising auto-encoding 単なるAutoEncoderは単に単語をコピーするだけで言語の内部構造を捉えないため，入力にノイズを加える • Back-translation 入力を目的言語に翻訳して，それを逆翻訳させた時に入力が復元されるような学習を行う 11

Slide 12

Slide 12 text

Datasets • 対訳コーパスから単言語コーパスを作成 • WMT14 English-French • WMT16 English-German • LDC Chinese-English • cross-lingual embeddingsは，単言語コーパスから別々に学習したembeddingから同じ潜在空間へのmapを行うことで実現 (Artetxe et al. 2017) 12

Slide 13

Slide 13 text

Baseline • Word-by-word translation (WBW): bilingual dictionaryを用いて単語毎に置換して翻訳 • Lample et al. (2017): 原言語と目的言語で同じencoder, decoderを使用する従来手法 • Supervised training: 標準的なcross-entropyを使って対訳文を学習 13

Slide 14

Slide 14 text

Results • 重み共有の層数は性能に大きな影響を与える • いずれも1層において最高 • 4つ全て共有した場合に最低 → エンコーダの共有は有害 → より遠い言語対ほど顕著 number of weight-shared layers 14

Slide 15

Slide 15 text

Results • Word-by-wordと比べてBLEUに大幅な改善 → 文脈や内部構造を効果的に使用できている • Lampleらの結果と比べても改善が見られる • Supervisedと比べるとまだまだ改善の余地があることが分かる 15

Slide 16

Slide 16 text

Results • モデルの各要素を欠落させて結果を比較 • 重み共有が最も重要 → 同一の潜在空間にマップさせるのに必須 • embedding-reinforced encoderは全ての対で有効 • GANは性能を大幅に向上させる 16

Slide 17

Slide 17 text

Conclusion • 単一のエンコーダを使用する従来手法の問題を示した • 重み共有によって言語毎のエンコーダを使用する手法を提案した • 提案手法による改善を実験により示した • Supervisedと比べると改善の余地がある → 言語モデル, 統語情報を組込み，単言語データをより効果的に活用する方法を検討したい • モデルの順序情報を強化する方法を探す 17