文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

2018/08/24の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

August 24, 2018
Tweet

Transcript

  1. Unsupervised Neural Machine Translation with Weight Sharing 文献紹介 (2018/08/24) 長岡技術科学大学

    自然言語処理研究室 稲岡 夢人 Zhen Yang, Wei Chen, Feng Wang, Bo Xu. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 46-55, 2018. 1
  2. Abstract • Unsupervised NMTはラベル付けされたデータを使うことなく 機械翻訳モデルを学習するアプローチ • 従来は異なる言語の文を同じ潜在空間に対応させるために エンコーダを共有していた → スタイル,

    用語, 文構造といった言語特有の特徴を保持しづらい • エンコーダを共有しないUnsupervised NMTを提案 2
  3. Introduction • Supervised NMTは対訳コーパスを用いてモデルを訓練 • Unsupervised NMTは原言語と目的言語の単言語コーパス のみを用いて訓練 • アライメントの情報がない分Unsupervised

    NMTの方が困難だが コーパスの収集は単言語コーパスの方が容易 3
  4. Introduction • 原言語と目的言語で同じ潜在空間にエンコードできるなら, 一般的なAutoEncoderを学習させ,デコーダを変えることで 翻訳が実現できる • エンコーダの共有は上の仮定を 実現するが,言語特有の特徴を 保持しづらい →

    エンコーダは別々に学習させたい Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho. Unsupervised Neural Machine Translation. ICLR 2018. 4
  5. Model Architecture 5

  6. Model Architecture 6

  7. Model Architecture 7

  8. Model Architecture 8

  9. Model Architecture 9

  10. Model Architecture • 各エンコーダの最後の数層と各デコーダの最初の数層は それぞれ重みを共有 (weight-sharing constraint) • 学習済みのcross-lingual embeddingsをエンコーダの強化に使用

    (embedding-reinforced encoder) embedding vectors E = {e1 , …, et } initial output sequence of the encoder stack H = {h1 , …, ht } final output sequence of the encoder Hr W1 , W2 , b is trainable parameters and shared by each encoders 10
  11. Training • Denoising auto-encoding 単なるAutoEncoderは単に単語をコピーするだけで 言語の内部構造を捉えないため,入力にノイズを加える • Back-translation 入力を目的言語に翻訳して,それを逆翻訳させた時に 入力が復元されるような学習を行う

    11
  12. Datasets • 対訳コーパスから単言語コーパスを作成 • WMT14 English-French • WMT16 English-German •

    LDC Chinese-English • cross-lingual embeddingsは,単言語コーパスから別々に学習 したembeddingから同じ潜在空間へのmapを行うことで実現 (Artetxe et al. 2017) 12
  13. Baseline • Word-by-word translation (WBW): bilingual dictionaryを用いて単語毎に置換して翻訳 • Lample et

    al. (2017): 原言語と目的言語で同じencoder, decoderを使用する従来手法 • Supervised training: 標準的なcross-entropyを使って対訳文を学習 13
  14. Results • 重み共有の層数は性能に 大きな影響を与える • いずれも1層において最高 • 4つ全て共有した場合に最低 → エンコーダの共有は有害

    → より遠い言語対ほど顕著 number of weight-shared layers 14
  15. Results • Word-by-wordと比べてBLEUに大幅な改善 → 文脈や内部構造を効果的に使用できている • Lampleらの結果と比べても改善が見られる • Supervisedと比べるとまだまだ改善の余地があることが分かる 15

  16. Results • モデルの各要素を欠落させて結果を比較 • 重み共有が最も重要 → 同一の潜在空間にマップさせるのに必須 • embedding-reinforced encoderは全ての対で有効

    • GANは性能を大幅に向上させる 16
  17. Conclusion • 単一のエンコーダを使用する従来手法の問題を示した • 重み共有によって言語毎のエンコーダを使用する手法を提案した • 提案手法による改善を実験により示した • Supervisedと比べると改善の余地がある →

    言語モデル, 統語情報を組込み,単言語データをより効果的に 活用する方法を検討したい • モデルの順序情報を強化する方法を探す 17