Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Multi-Agent Dual Learning

youichiro
February 10, 2020

Multi-Agent Dual Learning

長岡技術科学大学
自然言語処理研究室
文献紹介(2020-02-13)
Multi-Agent Dual Learning
https://openreview.net/pdf?id=HyGhN2A5tm

youichiro

February 10, 2020
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. Multi-Agent Dual Learning
    Yiren Wang, Yingce Xia, Tianyu He, Fei Tian, Tao Qin, Cheng Xiang Zhai, Tie Yan Liu
    7th International Conference on Learning Representations, ICLR 2019
    ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗
    ⽂献紹介(2020-02-13)
    0

    View Slide

  2. Dual Learning:
    - ドメインXからドメインYへの変換と、ドメインYからドメインXへの変
    換の2元性を学習するしくみ
    - 機械翻訳、画像変換、質問応答、イメージキャプションなどの2元性を
    持つタスクに適⽤されている
    Dual Learning
    1

    View Slide

  3. Dual Learning
    Itʼs been a hard dayʼs night.
    それは⾟い⼀⽇の夜だった。
    It was a hard dayʼs night.
    ⽇本語訳
    英語訳
    誤差 Δ
    ,

    '
    =
    '

    ü 英語→⽇本語→英語と翻訳した時の翻訳⽂と原⽂との誤差をフィードバックする
    2

    View Slide

  4. Dual Learning
    ドメインX ドメインY
    '


    '

    : →
    : →
    誤差
    Δ
    , /

    '
    =
    '
    = '

    3

    View Slide

  5. X→Y→Xの誤差
    Dual Learningのロス:
    Dual Learning
    2, 3
    : X, Yの訓練データ
    Y→X→Yの誤差
    4

    View Slide

  6. 従来のDual Learning → two-agent dual learning
    - 1つの順⽅向モデル 4
    , 1つの逆⽅向モデル 4
    を⽤いる
    提案⼿法 → multi-agent dual learning
    - 複数の順⽅向モデル 5
    , 逆⽅向モデル 5
    を⽤いる
    - ∈ {1, 2, … , − 1}
    Multi-Agent Dual Learning
    5

    View Slide

  7. Multi-Agent Dual Learningのロス:
    Multi-Agent Dual Learning
    X→Y→Xの誤差 Y→X→Yの誤差
    - 4~ABC, 4~ABC
    をそれぞれ⾜し合わせたモデル E, G
    を⽤いる
    - 重み α5, β5
    は単純に1/N
    - C~ABC, C~ABC
    は事前学習したパラメータで固定し、 4, 4
    のみを学習させる
    6

    View Slide

  8. アンサンブル学習との違い:
    - アンサンブルではモデルを独⽴に学習するが、提案⼿法では組み合わ
    せて学習する
    - 提案⼿法では推論時には4
    のみ⽤いる
    - アンサンブルは2元性を考慮していない
    Multi-Agent Dual Learning
    7

    View Slide

  9. モデルは Transformer
    ベースライン:
    - back translation (BT)
    - 逆翻訳モデル: → を⽤いて , を作成し, 翻訳モデルの訓練データに追加
    - knowledge distillation (KD)
    - 事前学習した教師モデルL: → を⽤いて , L を作成し,翻訳モデルの訓練
    データに追加
    - two-agent dual learning (Dual-1)
    - 4, 4
    のみ使⽤
    Experiment
    8

    View Slide

  10. Results on IWSLT
    - 4B, 8B: 訓練時の各エージェント(Transformer)のブロック数
    - Standard: Transformer
    - KD-{1,5}: knowledge distillation
    - BT-{1,5}: back translation {1,5}:翻訳モデルの数(アンサンブル?)
    - Dual-1: two-agent dual learning
    - Dual-5: multi-agent dual learning
    9

    View Slide

  11. Results on IWSLT
    ü Dual Learningはベースライン(Standard, KD, BT)よりも⾼いスコア
    ü multi-agent (Dual-5) によってtwo-agent(Dual-1)よりもスコアが向上
    10

    View Slide

  12. Results on IWSLT
    - エージェントの数を増やすほど性能は向上する
    - しかしGPUの負荷は⼤きくなる
    11

    View Slide

  13. Conclusion
    - ドメインXからドメインYへの変換と、ドメインYからドメインXへの変
    換の2元性を学習するDual Learningを拡張した Multi-Agent Dual
    Learning を提案
    - 機械翻訳タスクにおいて性能の向上を確認した
    12

    View Slide

  14. 13

    View Slide

  15. 14
    References
    MULTI-AGENT DUAL LEARNING
    - https://qiita.com/kayamin/items/505cd06275f66b5cb126
    論⽂紹介︓Multi-Agent Dual Learning
    - https://qiita.com/koreyou/items/1edb449c72ceeff72f36

    View Slide

  16. 15
    Results on WMT14
    Bitext: 対訳データ
    Mono: 対訳データに単⾔語データを加えたもの
    Bitextにおいて(この時点で)state-of-the-art

    View Slide

  17. 16
    Results on WMT16 unsupervised NMT
    単⾔語データでUNMTを事前学習したモデルをエージェントとして加える

    View Slide