$30 off During Our Annual Pro Sale. View Details »

文献紹介: Multi-Task Learning for Multiple Language Translation

文献紹介: Multi-Task Learning for Multiple Language Translation

2018/04/20の文献紹介で発表

Yumeto Inaoka

April 20, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Multi-Task Learning for Multiple
    Language Translation
    Daxiang Dong, Hua Wu, Wei He, Dianhai Yu and Haifeng Wang.
    In Proceedings of the 53rd Annual Meeting of the Association for
    Computational Linguistics, pages 1723–1732, 2015.
    文献紹介 (’18/04/20)
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Abstract
    • 1つの原言語から複数の目的言語に翻訳する機械翻訳
    モデルの学習について検討
    • NMTで原言語の表現を共有し,異なる目的言語への
    翻訳のモデルと分離
    • データセットの対訳を個別に学習するよりも大幅に
    高い翻訳性能を達成

    View Slide

  3. Introduction
    • 異なる翻訳方向で同じエンコーダを共有し,目的言語毎
    に異なるデコーダを使用
    • 異なる言語対で原言語コーパスを活用できる
    • 語彙だけでなくセマンティックや構造的な表現を学習す
    ることがある

    View Slide

  4. Objective Function
    Θsrc : エンコーダのパラメータ
    Θ
    trgTp
    : T
    p
    番目の目的言語の
    デコーダのパラメータ
    Np : p番目の言語対の対訳数

    View Slide

  5. Optimization
    • ミニバッチ確率的勾配降下法
    • 言語ペアを固定してミニバッチ
    を学習し,次の言語ペアに移動

    View Slide

  6. Experiments
    • 全ての言語対で充分なコーパスを学習に与えた時に翻訳
    性能が向上することを確認する実験
    • 対訳が不足する言語対がある場合においてマルチタスク
    学習が翻訳性能を向上させることを確認する実験

    View Slide

  7. Datasets
    • Europarlコーパスの英語,スペイン語,フランス語,
    ポルトガル語,オランダ語を使用
    • 高頻度単語30,000語を語彙として使用
    • テストセットはEuroParl Common test setsと
    WMT 2013 dataset

    View Slide

  8. Training Details
    • Initialization of all parameters are from uniform distribution between -0.01 and 0.01.
    • We use stochastic gradient descent with recently proposed learning rate decay
    strategy Ada-Delta (Zeiler, 2012).
    • Mini batch size in our model is set to 50 so that the convergence speed is fast.
    • We train 1000 mini batches of data in one language pair before we switch to the
    next language pair.
    • For word representation dimensionality, we use 1000 for both source language and
    target language.
    • The size of hidden layer is set to 1000.

    View Slide

  9. Experimental Results
    • 言語対を個別に学習するより,
    マルチタスク学習する方が
    BLEUが向上
    • En-NI, En-Ptをそれぞれ15%
    加えるだけで全ての目的言語
    でBLEUが向上

    View Slide

  10. Experimental Results
    • WMT2013 test setにおいてもBaseline, Mosesと比べて
    BLEUが大幅に向上

    View Slide

  11. Model Analysis and Discussion
    • 対訳を元の15%にして学習させた際の学習曲線
    • エンコーダが異なる言語ペアで共有されるため
    原言語表現が改善される

    View Slide

  12. Model Analysis and Discussion
    • 単一の対訳で学習させたモデル
    とマルチタスク学習モデルで
    Embeddingのコサイン類似度
    を計算
    • 数字のような高頻度語はどちら
    も学習できているが,全体的に
    はマルチタスクモデルの方が
    品質が良い

    View Slide

  13. Conclusion
    • 一つの原言語を複数の目的言語に翻訳する方法を検討
    • エンコーダを異なる言語対で共有し,目的言語毎に
    デコーダを用意してマルチタスク学習を行う
    • 提案手法による大幅な改善を評価で確認
    • 資源が豊富な言語,不足している言語の両方でより速く
    より良く収束する

    View Slide