Unsupervised Statistical Machine Translation

Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介　長岡技術科学大学勝田哲弘

Introduction • 近年では、教師なし学習モデル（NMT）が提案されているが、教師ありと比べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。この実験では、SMTが教師なし学習の設定に適しているかを調べ、新しいモデルの提案を行う。
2

提案手法基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3

Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補の値をAdamを用いて最適化する 4

Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する逆翻訳によって擬似的に対訳コーパスを生成し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5

Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文反復
3回 6

Results 7

Ablation analysis 8

Results 9

Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシステムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認将来的には半教師学習、疑似データの生成によるNMTの学習など 10

Unsupervised Statistical Machine Translation

Unsupervised Statistical Machine Translation

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript