Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Unsupervised Statistical Machine Translation

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
March 20, 2019

Unsupervised Statistical Machine Translation

文献紹介
長岡技術科学大学
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

March 20, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on

    Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介  長岡技術科学大学 勝田 哲弘
  2. Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。

    2
  3. 提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual

    n-gram embeddings(Artetxe et al., 2018) 3
  4. Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4

  5. Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5

  6. Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復

    3回 6
  7. Results 7

  8. Ablation analysis 8

  9. Results 9

  10. Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10