Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

文献紹介: Unsupervised Neural Machine Translation with Weight Sharing

2018/08/24の文献紹介で発表

Yumeto Inaoka

August 24, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Unsupervised Neural Machine
    Translation with Weight Sharing
    文献紹介 (2018/08/24)
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人
    Zhen Yang, Wei Chen, Feng Wang, Bo Xu.
    Proceedings of the 56th Annual Meeting of the Association for
    Computational Linguistics (Long Papers), pages 46-55, 2018.
    1

    View Slide

  2. Abstract
    • Unsupervised NMTはラベル付けされたデータを使うことなく
    機械翻訳モデルを学習するアプローチ
    • 従来は異なる言語の文を同じ潜在空間に対応させるために
    エンコーダを共有していた
    → スタイル, 用語, 文構造といった言語特有の特徴を保持しづらい
    • エンコーダを共有しないUnsupervised NMTを提案
    2

    View Slide

  3. Introduction
    • Supervised NMTは対訳コーパスを用いてモデルを訓練
    • Unsupervised NMTは原言語と目的言語の単言語コーパス
    のみを用いて訓練
    • アライメントの情報がない分Unsupervised NMTの方が困難だが
    コーパスの収集は単言語コーパスの方が容易
    3

    View Slide

  4. Introduction
    • 原言語と目的言語で同じ潜在空間にエンコードできるなら,
    一般的なAutoEncoderを学習させ,デコーダを変えることで
    翻訳が実現できる
    • エンコーダの共有は上の仮定を
    実現するが,言語特有の特徴を
    保持しづらい
    → エンコーダは別々に学習させたい
    Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho.
    Unsupervised Neural Machine Translation.
    ICLR 2018. 4

    View Slide

  5. Model Architecture
    5

    View Slide

  6. Model Architecture
    6

    View Slide

  7. Model Architecture
    7

    View Slide

  8. Model Architecture
    8

    View Slide

  9. Model Architecture
    9

    View Slide

  10. Model Architecture
    • 各エンコーダの最後の数層と各デコーダの最初の数層は
    それぞれ重みを共有 (weight-sharing constraint)
    • 学習済みのcross-lingual embeddingsをエンコーダの強化に使用
    (embedding-reinforced encoder)
    embedding vectors E = {e1
    , …, et
    }
    initial output sequence of the encoder stack H = {h1
    , …, ht
    }
    final output sequence of the encoder Hr
    W1
    , W2
    , b is trainable parameters and shared by each encoders
    10

    View Slide

  11. Training
    • Denoising auto-encoding
    単なるAutoEncoderは単に単語をコピーするだけで
    言語の内部構造を捉えないため,入力にノイズを加える
    • Back-translation
    入力を目的言語に翻訳して,それを逆翻訳させた時に
    入力が復元されるような学習を行う
    11

    View Slide

  12. Datasets
    • 対訳コーパスから単言語コーパスを作成
    • WMT14 English-French
    • WMT16 English-German
    • LDC Chinese-English
    • cross-lingual embeddingsは,単言語コーパスから別々に学習
    したembeddingから同じ潜在空間へのmapを行うことで実現
    (Artetxe et al. 2017)
    12

    View Slide

  13. Baseline
    • Word-by-word translation (WBW):
    bilingual dictionaryを用いて単語毎に置換して翻訳
    • Lample et al. (2017):
    原言語と目的言語で同じencoder, decoderを使用する従来手法
    • Supervised training:
    標準的なcross-entropyを使って対訳文を学習
    13

    View Slide

  14. Results
    • 重み共有の層数は性能に
    大きな影響を与える
    • いずれも1層において最高
    • 4つ全て共有した場合に最低
    → エンコーダの共有は有害
    → より遠い言語対ほど顕著
    number of weight-shared layers
    14

    View Slide

  15. Results
    • Word-by-wordと比べてBLEUに大幅な改善
    → 文脈や内部構造を効果的に使用できている
    • Lampleらの結果と比べても改善が見られる
    • Supervisedと比べるとまだまだ改善の余地があることが分かる
    15

    View Slide

  16. Results
    • モデルの各要素を欠落させて結果を比較
    • 重み共有が最も重要 → 同一の潜在空間にマップさせるのに必須
    • embedding-reinforced encoderは全ての対で有効
    • GANは性能を大幅に向上させる
    16

    View Slide

  17. Conclusion
    • 単一のエンコーダを使用する従来手法の問題を示した
    • 重み共有によって言語毎のエンコーダを使用する手法を提案した
    • 提案手法による改善を実験により示した
    • Supervisedと比べると改善の余地がある
    → 言語モデル, 統語情報を組込み,単言語データをより効果的に
    活用する方法を検討したい
    • モデルの順序情報を強化する方法を探す
    17

    View Slide