文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

Unsupervised Neural Machine Translation with Weight Sharing 文献紹介 (2018/08/24) 長岡技術科学大学
自然言語処理研究室稲岡夢人 Zhen Yang, Wei Chen, Feng Wang, Bo Xu. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 46-55, 2018. 1

Abstract • Unsupervised NMTはラベル付けされたデータを使うことなく機械翻訳モデルを学習するアプローチ • 従来は異なる言語の文を同じ潜在空間に対応させるためにエンコーダを共有していた → スタイル,
用語, 文構造といった言語特有の特徴を保持しづらい • エンコーダを共有しないUnsupervised NMTを提案 2

Introduction • Supervised NMTは対訳コーパスを用いてモデルを訓練 • Unsupervised NMTは原言語と目的言語の単言語コーパスのみを用いて訓練 • アライメントの情報がない分Unsupervised
NMTの方が困難だがコーパスの収集は単言語コーパスの方が容易 3

Introduction • 原言語と目的言語で同じ潜在空間にエンコードできるなら，一般的なAutoEncoderを学習させ，デコーダを変えることで翻訳が実現できる • エンコーダの共有は上の仮定を実現するが，言語特有の特徴を保持しづらい →
エンコーダは別々に学習させたい Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho. Unsupervised Neural Machine Translation. ICLR 2018. 4

Model Architecture 5

Model Architecture • 各エンコーダの最後の数層と各デコーダの最初の数層はそれぞれ重みを共有 (weight-sharing constraint) • 学習済みのcross-lingual embeddingsをエンコーダの強化に使用
(embedding-reinforced encoder) embedding vectors E = {e1 , …, et } initial output sequence of the encoder stack H = {h1 , …, ht } final output sequence of the encoder Hr W1 , W2 , b is trainable parameters and shared by each encoders 10

Training • Denoising auto-encoding 単なるAutoEncoderは単に単語をコピーするだけで言語の内部構造を捉えないため，入力にノイズを加える • Back-translation 入力を目的言語に翻訳して，それを逆翻訳させた時に入力が復元されるような学習を行う
11

Datasets • 対訳コーパスから単言語コーパスを作成 • WMT14 English-French • WMT16 English-German •
LDC Chinese-English • cross-lingual embeddingsは，単言語コーパスから別々に学習したembeddingから同じ潜在空間へのmapを行うことで実現 (Artetxe et al. 2017) 12

Baseline • Word-by-word translation (WBW): bilingual dictionaryを用いて単語毎に置換して翻訳 • Lample et
al. (2017): 原言語と目的言語で同じencoder, decoderを使用する従来手法 • Supervised training: 標準的なcross-entropyを使って対訳文を学習 13

Results • 重み共有の層数は性能に大きな影響を与える • いずれも1層において最高 • 4つ全て共有した場合に最低 → エンコーダの共有は有害
→ より遠い言語対ほど顕著 number of weight-shared layers 14

Results • Word-by-wordと比べてBLEUに大幅な改善 → 文脈や内部構造を効果的に使用できている • Lampleらの結果と比べても改善が見られる • Supervisedと比べるとまだまだ改善の余地があることが分かる 15

Results • モデルの各要素を欠落させて結果を比較 • 重み共有が最も重要 → 同一の潜在空間にマップさせるのに必須 • embedding-reinforced encoderは全ての対で有効
• GANは性能を大幅に向上させる 16

Conclusion • 単一のエンコーダを使用する従来手法の問題を示した • 重み共有によって言語毎のエンコーダを使用する手法を提案した • 提案手法による改善を実験により示した • Supervisedと比べると改善の余地がある →
言語モデル, 統語情報を組込み，単言語データをより効果的に活用する方法を検討したい • モデルの順序情報を強化する方法を探す 17

文献紹介: Unsupervised Neural Machine Translation w...

文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Unsupervised Neural Machine Translation with Weight Sharing 文献紹介 (2018/08/24) 長岡技術科学大学

Abstract • Unsupervised NMTはラベル付けされたデータを使うことなく機械翻訳モデルを学習するアプローチ • 従来は異なる言語の文を同じ潜在空間に対応させるためにエンコーダを共有していた → スタイル,

Introduction • Supervised NMTは対訳コーパスを用いてモデルを訓練 • Unsupervised NMTは原言語と目的言語の単言語コーパスのみを用いて訓練 • アライメントの情報がない分Unsupervised

Model Architecture 5

Model Architecture 6

Model Architecture 7

Model Architecture 8

Model Architecture 9

Model Architecture • 各エンコーダの最後の数層と各デコーダの最初の数層はそれぞれ重みを共有 (weight-sharing constraint) • 学習済みのcross-lingual embeddingsをエンコーダの強化に使用

Datasets • 対訳コーパスから単言語コーパスを作成 • WMT14 English-French • WMT16 English-German •

Baseline • Word-by-word translation (WBW): bilingual dictionaryを用いて単語毎に置換して翻訳 • Lample et

Results • 重み共有の層数は性能に大きな影響を与える • いずれも1層において最高 • 4つ全て共有した場合に最低 → エンコーダの共有は有害

Results • Word-by-wordと比べてBLEUに大幅な改善 → 文脈や内部構造を効果的に使用できている • Lampleらの結果と比べても改善が見られる • Supervisedと比べるとまだまだ改善の余地があることが分かる 15

Results • モデルの各要素を欠落させて結果を比較 • 重み共有が最も重要 → 同一の潜在空間にマップさせるのに必須 • embedding-reinforced encoderは全ての対で有効

Conclusion • 単一のエンコーダを使用する従来手法の問題を示した • 重み共有によって言語毎のエンコーダを使用する手法を提案した • 提案手法による改善を実験により示した • Supervisedと比べると改善の余地がある →