Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Multi-Agent Dual Learning Yiren Wang, Yingce Xia, Tianyu He, Fei Tian, Tao Qin, Cheng Xiang Zhai, Tie Yan Liu 7th International Conference on Learning Representations, ICLR 2019 ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗 ⽂献紹介(2020-02-13) 0
Slide 2
Slide 2 text
Dual Learning: - ドメインXからドメインYへの変換と、ドメインYからドメインXへの変 換の2元性を学習するしくみ - 機械翻訳、画像変換、質問応答、イメージキャプションなどの2元性を 持つタスクに適⽤されている Dual Learning 1
Slide 3
Slide 3 text
Dual Learning Itʼs been a hard dayʼs night. それは⾟い⼀⽇の夜だった。 It was a hard dayʼs night. ⽇本語訳 英語訳 誤差 Δ , ' = ' ü 英語→⽇本語→英語と翻訳した時の翻訳⽂と原⽂との誤差をフィードバックする 2
Slide 4
Slide 4 text
Dual Learning ドメインX ドメインY ' ' : → : → 誤差 Δ , / ' = ' = ' 3
Slide 5
Slide 5 text
X→Y→Xの誤差 Dual Learningのロス: Dual Learning 2, 3 : X, Yの訓練データ Y→X→Yの誤差 4
Slide 6
Slide 6 text
従来のDual Learning → two-agent dual learning - 1つの順⽅向モデル 4 , 1つの逆⽅向モデル 4 を⽤いる 提案⼿法 → multi-agent dual learning - 複数の順⽅向モデル 5 , 逆⽅向モデル 5 を⽤いる - ∈ {1, 2, … , − 1} Multi-Agent Dual Learning 5
Slide 7
Slide 7 text
Multi-Agent Dual Learningのロス: Multi-Agent Dual Learning X→Y→Xの誤差 Y→X→Yの誤差 - 4~ABC, 4~ABC をそれぞれ⾜し合わせたモデル E, G を⽤いる - 重み α5, β5 は単純に1/N - C~ABC, C~ABC は事前学習したパラメータで固定し、 4, 4 のみを学習させる 6
Slide 8
Slide 8 text
アンサンブル学習との違い: - アンサンブルではモデルを独⽴に学習するが、提案⼿法では組み合わ せて学習する - 提案⼿法では推論時には4 のみ⽤いる - アンサンブルは2元性を考慮していない Multi-Agent Dual Learning 7
Slide 9
Slide 9 text
モデルは Transformer ベースライン: - back translation (BT) - 逆翻訳モデル: → を⽤いて , を作成し, 翻訳モデルの訓練データに追加 - knowledge distillation (KD) - 事前学習した教師モデルL: → を⽤いて , L を作成し,翻訳モデルの訓練 データに追加 - two-agent dual learning (Dual-1) - 4, 4 のみ使⽤ Experiment 8
Slide 10
Slide 10 text
Results on IWSLT - 4B, 8B: 訓練時の各エージェント(Transformer)のブロック数 - Standard: Transformer - KD-{1,5}: knowledge distillation - BT-{1,5}: back translation {1,5}:翻訳モデルの数(アンサンブル?) - Dual-1: two-agent dual learning - Dual-5: multi-agent dual learning 9
Slide 11
Slide 11 text
Results on IWSLT ü Dual Learningはベースライン(Standard, KD, BT)よりも⾼いスコア ü multi-agent (Dual-5) によってtwo-agent(Dual-1)よりもスコアが向上 10
Slide 12
Slide 12 text
Results on IWSLT - エージェントの数を増やすほど性能は向上する - しかしGPUの負荷は⼤きくなる 11
Slide 13
Slide 13 text
Conclusion - ドメインXからドメインYへの変換と、ドメインYからドメインXへの変 換の2元性を学習するDual Learningを拡張した Multi-Agent Dual Learning を提案 - 機械翻訳タスクにおいて性能の向上を確認した 12
Slide 14
Slide 14 text
13
Slide 15
Slide 15 text
14 References MULTI-AGENT DUAL LEARNING - https://qiita.com/kayamin/items/505cd06275f66b5cb126 論⽂紹介︓Multi-Agent Dual Learning - https://qiita.com/koreyou/items/1edb449c72ceeff72f36
Slide 16
Slide 16 text
15 Results on WMT14 Bitext: 対訳データ Mono: 対訳データに単⾔語データを加えたもの Bitextにおいて(この時点で)state-of-the-art
Slide 17
Slide 17 text
16 Results on WMT16 unsupervised NMT 単⾔語データでUNMTを事前学習したモデルをエージェントとして加える