Slide 1

Slide 1 text

Multi-Task Learning for Multiple Language Translation Daxiang Dong, Hua Wu, Wei He, Dianhai Yu and Haifeng Wang. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, pages 1723–1732, 2015. 文献紹介 (’18/04/20) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人

Slide 2

Slide 2 text

Abstract • 1つの原言語から複数の目的言語に翻訳する機械翻訳 モデルの学習について検討 • NMTで原言語の表現を共有し,異なる目的言語への 翻訳のモデルと分離 • データセットの対訳を個別に学習するよりも大幅に 高い翻訳性能を達成

Slide 3

Slide 3 text

Introduction • 異なる翻訳方向で同じエンコーダを共有し,目的言語毎 に異なるデコーダを使用 • 異なる言語対で原言語コーパスを活用できる • 語彙だけでなくセマンティックや構造的な表現を学習す ることがある

Slide 4

Slide 4 text

Objective Function Θsrc : エンコーダのパラメータ Θ trgTp : T p 番目の目的言語の デコーダのパラメータ Np : p番目の言語対の対訳数

Slide 5

Slide 5 text

Optimization • ミニバッチ確率的勾配降下法 • 言語ペアを固定してミニバッチ を学習し,次の言語ペアに移動

Slide 6

Slide 6 text

Experiments • 全ての言語対で充分なコーパスを学習に与えた時に翻訳 性能が向上することを確認する実験 • 対訳が不足する言語対がある場合においてマルチタスク 学習が翻訳性能を向上させることを確認する実験

Slide 7

Slide 7 text

Datasets • Europarlコーパスの英語,スペイン語,フランス語, ポルトガル語,オランダ語を使用 • 高頻度単語30,000語を語彙として使用 • テストセットはEuroParl Common test setsと WMT 2013 dataset

Slide 8

Slide 8 text

Training Details • Initialization of all parameters are from uniform distribution between -0.01 and 0.01. • We use stochastic gradient descent with recently proposed learning rate decay strategy Ada-Delta (Zeiler, 2012). • Mini batch size in our model is set to 50 so that the convergence speed is fast. • We train 1000 mini batches of data in one language pair before we switch to the next language pair. • For word representation dimensionality, we use 1000 for both source language and target language. • The size of hidden layer is set to 1000.

Slide 9

Slide 9 text

Experimental Results • 言語対を個別に学習するより, マルチタスク学習する方が BLEUが向上 • En-NI, En-Ptをそれぞれ15% 加えるだけで全ての目的言語 でBLEUが向上

Slide 10

Slide 10 text

Experimental Results • WMT2013 test setにおいてもBaseline, Mosesと比べて BLEUが大幅に向上

Slide 11

Slide 11 text

Model Analysis and Discussion • 対訳を元の15%にして学習させた際の学習曲線 • エンコーダが異なる言語ペアで共有されるため 原言語表現が改善される

Slide 12

Slide 12 text

Model Analysis and Discussion • 単一の対訳で学習させたモデル とマルチタスク学習モデルで Embeddingのコサイン類似度 を計算 • 数字のような高頻度語はどちら も学習できているが,全体的に はマルチタスクモデルの方が 品質が良い

Slide 13

Slide 13 text

Conclusion • 一つの原言語を複数の目的言語に翻訳する方法を検討 • エンコーダを異なる言語対で共有し,目的言語毎に デコーダを用意してマルチタスク学習を行う • 提案手法による大幅な改善を評価で確認 • 資源が豊富な言語,不足している言語の両方でより速く より良く収束する