文献紹介: Multi-Task Learning for Multiple Language Translation

Multi-Task Learning for Multiple Language Translation Daxiang Dong, Hua Wu,
Wei He, Dianhai Yu and Haifeng Wang. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, pages 1723–1732, 2015. 文献紹介 (’18/04/20) 長岡技術科学大学自然言語処理研究室稲岡夢人

Abstract • 1つの原言語から複数の目的言語に翻訳する機械翻訳モデルの学習について検討 • NMTで原言語の表現を共有し，異なる目的言語への翻訳のモデルと分離 • データセットの対訳を個別に学習するよりも大幅に高い翻訳性能を達成

Introduction • 異なる翻訳方向で同じエンコーダを共有し，目的言語毎に異なるデコーダを使用 • 異なる言語対で原言語コーパスを活用できる • 語彙だけでなくセマンティックや構造的な表現を学習することがある

Objective Function Θsrc : エンコーダのパラメータ Θ trgTp : T p
番目の目的言語のデコーダのパラメータ Np : p番目の言語対の対訳数

Optimization • ミニバッチ確率的勾配降下法 • 言語ペアを固定してミニバッチを学習し，次の言語ペアに移動

Experiments • 全ての言語対で充分なコーパスを学習に与えた時に翻訳性能が向上することを確認する実験 • 対訳が不足する言語対がある場合においてマルチタスク学習が翻訳性能を向上させることを確認する実験

Datasets • Europarlコーパスの英語，スペイン語，フランス語，ポルトガル語，オランダ語を使用 • 高頻度単語30,000語を語彙として使用 • テストセットはEuroParl Common test
setsと WMT 2013 dataset

Training Details • Initialization of all parameters are from uniform
distribution between -0.01 and 0.01. • We use stochastic gradient descent with recently proposed learning rate decay strategy Ada-Delta (Zeiler, 2012). • Mini batch size in our model is set to 50 so that the convergence speed is fast. • We train 1000 mini batches of data in one language pair before we switch to the next language pair. • For word representation dimensionality, we use 1000 for both source language and target language. • The size of hidden layer is set to 1000.

Experimental Results • 言語対を個別に学習するより，マルチタスク学習する方が BLEUが向上 • En-NI, En-Ptをそれぞれ15% 加えるだけで全ての目的言語
でBLEUが向上

Experimental Results • WMT2013 test setにおいてもBaseline, Mosesと比べて BLEUが大幅に向上

Model Analysis and Discussion • 対訳を元の15%にして学習させた際の学習曲線 • エンコーダが異なる言語ペアで共有されるため原言語表現が改善される

Model Analysis and Discussion • 単一の対訳で学習させたモデルとマルチタスク学習モデルで Embeddingのコサイン類似度を計算 •
数字のような高頻度語はどちらも学習できているが，全体的にはマルチタスクモデルの方が品質が良い

Conclusion • 一つの原言語を複数の目的言語に翻訳する方法を検討 • エンコーダを異なる言語対で共有し，目的言語毎にデコーダを用意してマルチタスク学習を行う • 提案手法による大幅な改善を評価で確認 • 資源が豊富な言語，不足している言語の両方でより速く
より良く収束する

文献紹介: Multi-Task Learning for Multiple Language...

文献紹介: Multi-Task Learning for Multiple Language Translation

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Multi-Task Learning for Multiple Language Translation Daxiang Dong, Hua Wu,

Introduction • 異なる翻訳方向で同じエンコーダを共有し，目的言語毎に異なるデコーダを使用 • 異なる言語対で原言語コーパスを活用できる • 語彙だけでなくセマンティックや構造的な表現を学習することがある

Objective Function Θsrc : エンコーダのパラメータ Θ trgTp : T p

Optimization • ミニバッチ確率的勾配降下法 • 言語ペアを固定してミニバッチを学習し，次の言語ペアに移動

Experiments • 全ての言語対で充分なコーパスを学習に与えた時に翻訳性能が向上することを確認する実験 • 対訳が不足する言語対がある場合においてマルチタスク学習が翻訳性能を向上させることを確認する実験

Datasets • Europarlコーパスの英語，スペイン語，フランス語，ポルトガル語，オランダ語を使用 • 高頻度単語30,000語を語彙として使用 • テストセットはEuroParl Common test

Training Details • Initialization of all parameters are from uniform

Experimental Results • 言語対を個別に学習するより，マルチタスク学習する方が BLEUが向上 • En-NI, En-Ptをそれぞれ15% 加えるだけで全ての目的言語

Experimental Results • WMT2013 test setにおいてもBaseline, Mosesと比べて BLEUが大幅に向上

Model Analysis and Discussion • 対訳を元の15%にして学習させた際の学習曲線 • エンコーダが異なる言語ペアで共有されるため原言語表現が改善される

Model Analysis and Discussion • 単一の対訳で学習させたモデルとマルチタスク学習モデルで Embeddingのコサイン類似度を計算 •