Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Dueling Network Architectures for Deep Rei...

論文紹介:Dueling Network Architectures for Deep Reinforcement Learning

Ziyu Wang, Tom Schaul, Matteo Hessel, Hado Hasselt, Marc Lanctot, Nando Freitas, "Dueling Network Architectures for Deep Reinforcement Learning." Proceedings of The 33rd International Conference on Machine Learning, PMLR 48:1995-2003, 2016.

http://proceedings.mlr.press/v48/wangf16.html

Avatar for Kazuki Adachi

Kazuki Adachi

March 15, 2022
Tweet

More Decks by Kazuki Adachi

Other Decks in Technology

Transcript

  1. 紹介論文 Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt,

    Marc Lanctot, Nando de Freitas “Dueling network architectures for deep reinforcement learning.” Proceedings of The 33rd International Conference on Machine Learning, pp. 1995–2003, 2016 2
  2. 目次 • Introduction • Deep Q-Network – DQNのアルゴリズム – 学習安定化のための工夫

    • 提案手法 – Dueling Network – VとAの統合 • 実験 – 方策の評価 – Atariゲームの学習 • 結論 • まとめ 4
  3. Introduction(2) • タスクによっては,どの行動を取るかが あまり重要ではない場面も多く存在 →環境の状態が重要 – 例:レースゲーム 近くに相手がいない時はどちらに動いても あまり違いはない •

    行動価値Q(s,a)と同時に状態価値V(s)も計算 – 通常のDQNよりも高い性能を示した – ネットワーク構造の提案なので,他のDRLアルゴリズムにも 簡単に取り込める 6 Dueling Network 行動毎に価値を学習しようとするため時間がかかる
  4. Deep Q-Network(DQN) • Q-Learningに深層学習を取り入れ, 高次元な状態空間でも使えるようにしたもの • Qテーブルでは管理しきれない →畳み込みニューラルネットワーク(CNN)で Q値を関数Q(s,a;q)として近似 •

    Q関数の学習は不安定で発散・振動しやすい →以下の工夫がされている – Experience Replay – Target Q-Network – 勾配のクリッピング – 報酬のクリッピング 7 パラメータ
  5. DQNのアルゴリズム(1) • Q関数(CNN): • ターゲットQ関数: • 画面(観測): 状態: • 前処理(後述):

    • 行動: 以下を各エピソード,各ステップについて繰り返す 1. e-greedy方策で行動𝑎𝑡 を選択・実行 2. ゲーム画面𝑥𝑡 と報酬𝑟𝑡 を観測し, 状態遷移𝑒𝑡 = 𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1 をReplay Memoryに記憶 8
  6. DQNのアルゴリズム(2) 3. Replay Memoryから状態遷移をランダムに取り出し, ミニバッチ学習でQ関数のパラメータqを更新 – 取り出した状態遷移: – ターゲット(教師信号): –

    損失: →誤差逆伝播法 4. 定期的(10000ステップ毎)にターゲットQ関数を同期 9 (ステップ𝑗 + 1でエピソードが終わる) (その他) ターゲットQ関数
  7. Experience Replay • DQNの重要な要素 • 人間が脳の海馬を通じて経験を再活性化する過程を再現 • 経験(Experience)を状態遷移𝑠𝑡 → 𝑠𝑡+1

    ,行動𝑎𝑡 , 報酬𝑟𝑡 の組 𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1 としてReplay Memoryに蓄積 • Replay Memoryからランダムに取り出した経験により Q関数を学習 • 強化学習はデータが時系列であり相関が強いため, Experience Replayによって相関を軽減する 11
  8. 実験1:方策の評価(1) • タスク:Corridor – エージェントは左下からスタート – 右上のゴールに辿り着いたら報酬 – 行動:左,右,上,下,何もしない(no-op) –

    すべての に対し正確な が計算可能 →学習した との二乗誤差(SE) により評価 – 行動の種類を5,10,20種類に変化 • no-opを追加 24 10 10 50 ・・・ ・・・ ・・・
  9. 実験1:方策の評価(2) • NNの構成 25 Single-stream architecture(比較手法) Dueling architecture(提案手法) 50 50

    50 ・・・ ・・・ ・・・ ・・・ ・・・ 50 25 25 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 25 25
  10. 実験2:Atariゲームの学習 • 各種のAtariゲームによって評価 • アルゴリズムDouble DQN(DQNの改良手法) • 比較手法 – Single

    architecture – 勾配のクリッピング • 勾配ベクトルのノルムが10を超えていたら10にする – Prioritized replay • Experience replayを改良した手法 27 以上の組み合わせと dueling architectureを比較 Single Duel
  11. 実験2:評価方法 • Baseline (Single)または人間と比較したスコアの伸びで評価 • 開始状態 – 30 no-ops:エピソード開始時に0~30フレーム (ランダム)の間何もしない

    • 開始状態をランダムにする – Human Starts:予め人間が設定しておいた開始状態から エピソードを始める • より開始状態によらない評価 28 ランダム行動しか行わない エージェント
  12. Double DQN • DQNを改良したアルゴリズム • パラメータ更新の際にターゲットを によって計算 34 Van Hasselt,

    Hado, Arthur Guez, and David Silver. "Deep Reinforcement Learning with Double Q-Learning." AAAI. Vol. 16. 2016.
  13. DQNのアルゴリズム 36 ゲーム初期化 e-greedyで行動決定 ゲーム画面と 報酬を観測 Experience Replay 教師信号を生成 Target

    Q-Network 二乗損失から学習 Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.