論文紹介：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning

紹介論文 Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt,
Marc Lanctot, Nando de Freitas “Dueling network architectures for deep reinforcement learning.” Proceedings of The 33rd International Conference on Machine Learning, pp. 1995–2003, 2016 2

Abstract • 深層強化学習（DRL）において，Q関数の近似に用いられる畳み込みニューラルネットワーク（CNN）の新しい構成方法を提案し，Dueling Networkと名付けた • Dueling Networkは他のDRLアルゴリズムにも簡単に導入することができる
• 実験により従来手法よりも高い性能を発揮することを示した 3

目次 • Introduction • Deep Q-Network – DQNのアルゴリズム – 学習安定化のための工夫
• 提案手法 – Dueling Network – VとAの統合 • 実験 – 方策の評価 – Atariゲームの学習 • 結論 • まとめ 4

Introduction(1) • 近年，深層学習によって大きく進歩した分野の 1つに深層強化学習（DRL）がある • 多くの強化学習アルゴリズムにニューラルネットワーク（NN）が用いられている • 最近提案されている新たなDRLアルゴリズムの内容は大きく2通り
– 新たな強化学習アルゴリズムの提案 – 既存のNNの構成方法の導入 5 強化学習に適した新たなNNの構成方法を提案

Introduction(2) • タスクによっては，どの行動を取るかがあまり重要ではない場面も多く存在 →環境の状態が重要 – 例：レースゲーム近くに相手がいない時はどちらに動いてもあまり違いはない •
行動価値Q(s,a)と同時に状態価値V(s)も計算 – 通常のDQNよりも高い性能を示した – ネットワーク構造の提案なので，他のDRLアルゴリズムにも簡単に取り込める 6 Dueling Network 行動毎に価値を学習しようとするため時間がかかる

Deep Q-Network（DQN） • Q-Learningに深層学習を取り入れ，高次元な状態空間でも使えるようにしたもの • Qテーブルでは管理しきれない →畳み込みニューラルネットワーク（CNN）で Q値を関数Q(s,a;q)として近似 •
Q関数の学習は不安定で発散・振動しやすい →以下の工夫がされている – Experience Replay – Target Q-Network – 勾配のクリッピング – 報酬のクリッピング 7 パラメータ

DQNのアルゴリズム(1) • Q関数（CNN）： • ターゲットQ関数： • 画面（観測）：状態： • 前処理（後述）：
• 行動：以下を各エピソード，各ステップについて繰り返す 1. e-greedy方策で行動𝑎𝑡 を選択・実行 2. ゲーム画面𝑥𝑡 と報酬𝑟𝑡 を観測し，状態遷移𝑒𝑡 = 𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1 をReplay Memoryに記憶 8

DQNのアルゴリズム(2) 3. Replay Memoryから状態遷移をランダムに取り出し，ミニバッチ学習でQ関数のパラメータqを更新 – 取り出した状態遷移： – ターゲット（教師信号）： –
損失： →誤差逆伝播法 4. 定期的（10000ステップ毎）にターゲットQ関数を同期 9 （ステップ𝑗 + 1でエピソードが終わる）（その他）ターゲットQ関数

学習安定化のための工夫（再掲） • Experience Replay • Target Q-Network • 勾配のクリッピング •
報酬のクリッピング 10

Experience Replay • DQNの重要な要素 • 人間が脳の海馬を通じて経験を再活性化する過程を再現 • 経験（Experience）を状態遷移𝑠𝑡 → 𝑠𝑡+1
，行動𝑎𝑡 ，報酬𝑟𝑡 の組 𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1 としてReplay Memoryに蓄積 • Replay Memoryからランダムに取り出した経験により Q関数を学習 • 強化学習はデータが時系列であり相関が強いため， Experience Replayによって相関を軽減する 11

Target Q-Network • Q関数が少し変化しただけでも方策が大きく変化するため振動が起こりやすい →学習時に教師信号（Target）の計算に使うQ関数を固定 • 定期的に学習中のQ関数と同期 12 （ステップ𝑗
+ 1でエピソードが終わる）（その他）

勾配のクリッピング • 二乗損失の勾配が −1,1 になるようにする • 勾配の大きさが制限されることにより安定性が向上する 13 L
L

報酬のクリッピング • タスクによって得られる報酬（罰）の大きさは様々 →正なら+1，負なら−1,それ以外は0に固定する • 誤差の勾配の大きさが制限され，同じ学習率で色々なタスクの学習を行える • 報酬の大きさの区別がつかなくなる 14

Atariゲームの学習 • ゲーム画面（観測）は210×160のRGB画像 – 84×84に縮小・グレースケール化 – 直近4フレーム分をまとめて1つの状態sとする（不完全知覚の軽減） 15 前処理f
CNNに入力

CNNの構成 16 畳み込みフィルタ4×4×64 ストライド2 畳み込みフィルタ3×3×64 ストライド1 全結合ユニット数512
全結合ユニット数畳み込みフィルタ8×8×32 ストライド4 …

提案手法(1) • 将来得られる報酬の合計がのとき，行動価値関数Qと状態価値関数Vはとなる 17 方策

提案手法(2) • 状態価値V(s)に対する，特定の行動を選んだときの相対的な価値をadvantage functionとして定義する →Q値はと分解できる 18 CNNをVの計算とAの計算に分ける

Dueling Network(1) 19 DQN Dueling Network q a b

Dueling Network(2) • 畳み込み層の部分はDQNと同じ • 全結合層を2つに分け，VとAの計算をそれぞれ行う • V,Aを統合しQ値を出力する 20 Dueling
Network q a b

VとAの統合(1) とすれば良いか？ →Q,V,AはいずれもCNNによる関数近似でしかなく，真のQ,V,Aとは異なる 21 Qが与えられたとき，VとAに一意に分解できない性能の低下につながる

VとAの統合(2) 1. 特定の行動についてadvantage functionが 0になるようにする 22 に対してとなる

VとAの統合(3) 2. 最大値の代わりに平均値を用いる • 平均値は最大値ほど大きく変化しにくいため？ • 実験ではこちらを用いる 23 V,Aの本来の意味はoff-target(?)になるため失われるが，学習の安定性は向上する

実験1：方策の評価(1) • タスク：Corridor – エージェントは左下からスタート – 右上のゴールに辿り着いたら報酬 – 行動：左，右，上，下，何もしない（no-op） –
すべてのに対し正確なが計算可能 →学習したとの二乗誤差（SE）により評価 – 行動の種類を5,10,20種類に変化 • no-opを追加 24 10 10 50 ・・・・・・・・・

実験1：方策の評価(2) • NNの構成 25 Single-stream architecture（比較手法） Dueling architecture（提案手法） 50 50
50 ・・・・・・・・・・・・・・・ 50 25 25 ・・・・・・・・・・・・・・・・・・・・・・・・ 25 25

実験1：結果 • 行動の数が増えるとdueling architectureの方が収束が早い • が同じ内容（no-op）の行動に対する共通の価値を学習している →収束が早まった 26 SE
5 actions No. Iterations 10 actions 20 actions 100 101 102 103 103 104

実験2：Atariゲームの学習 • 各種のAtariゲームによって評価 • アルゴリズムDouble DQN（DQNの改良手法） • 比較手法 – Single
architecture – 勾配のクリッピング • 勾配ベクトルのノルムが10を超えていたら10にする – Prioritized replay • Experience replayを改良した手法 27 以上の組み合わせと dueling architectureを比較 Single Duel

実験2：評価方法 • Baseline (Single)または人間と比較したスコアの伸びで評価 • 開始状態 – 30 no-ops：エピソード開始時に0～30フレーム（ランダム）の間何もしない
• 開始状態をランダムにする – Human Starts：予め人間が設定しておいた開始状態からエピソードを始める • より開始状態によらない評価 28 ランダム行動しか行わないエージェント

実験2：結果(1) 29

実験2：結果(2) 30

実験2：結果(3) • Dueling architectureが高いスコアを記録した • Prioritized replayと組み合わせることでさらに性能が上がった 31

まとめ • DQNについて説明した • Dueling architectureの提案 – 行動によらない状態価値V(s)も学習することによって収束が早まった – 他のアルゴリズムと組み合わせることでさらに性能が上がる
• 実験によりDueling architectureが有効であることが示された 32

V+A • Vはスカラー，Aはベクトル →Vをだけ繰り返したベクトルとの和を取る – 例： 33

Double DQN • DQNを改良したアルゴリズム • パラメータ更新の際にターゲットをによって計算 34 Van Hasselt,
Hado, Arthur Guez, and David Silver. "Deep Reinforcement Learning with Double Q-Learning." AAAI. Vol. 16. 2016.

Prioritized Replay • Experience Replayを改良したもの • 学習の際に，高い報酬を得られた経験の取り出される確率を高くする 35 Schaul,
Tom, et al. "Prioritized experience replay." In ICLR, 2016

DQNのアルゴリズム 36 ゲーム初期化 e-greedyで行動決定ゲーム画面と報酬を観測 Experience Replay 教師信号を生成 Target
Q-Network 二乗損失から学習 Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.

論文紹介：Dueling Network Architectures for Deep Rei...

論文紹介：Dueling Network Architectures for Deep Reinforcement Learning

Kazuki Adachi

More Decks by Kazuki Adachi

Other Decks in Technology

Featured

Transcript

Dueling Network Architectures for Deep Reinforcement Learning

紹介論文 Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt,

目次 • Introduction • Deep Q-Network – DQNのアルゴリズム – 学習安定化のための工夫

Introduction(2) • タスクによっては，どの行動を取るかがあまり重要ではない場面も多く存在 →環境の状態が重要 – 例：レースゲーム近くに相手がいない時はどちらに動いてもあまり違いはない •

Deep Q-Network（DQN） • Q-Learningに深層学習を取り入れ，高次元な状態空間でも使えるようにしたもの • Qテーブルでは管理しきれない →畳み込みニューラルネットワーク（CNN）で Q値を関数Q(s,a;q)として近似 •

DQNのアルゴリズム(1) • Q関数（CNN）： • ターゲットQ関数： • 画面（観測）：状態： • 前処理（後述）：

DQNのアルゴリズム(2) 3. Replay Memoryから状態遷移をランダムに取り出し，ミニバッチ学習でQ関数のパラメータqを更新 – 取り出した状態遷移： – ターゲット（教師信号）： –

学習安定化のための工夫（再掲） • Experience Replay • Target Q-Network • 勾配のクリッピング •

Experience Replay • DQNの重要な要素 • 人間が脳の海馬を通じて経験を再活性化する過程を再現 • 経験（Experience）を状態遷移𝑠𝑡 → 𝑠𝑡+1

Target Q-Network • Q関数が少し変化しただけでも方策が大きく変化するため振動が起こりやすい →学習時に教師信号（Target）の計算に使うQ関数を固定 • 定期的に学習中のQ関数と同期 12 （ステップ𝑗

勾配のクリッピング • 二乗損失の勾配が −1,1 になるようにする • 勾配の大きさが制限されることにより安定性が向上する 13 L

Atariゲームの学習 • ゲーム画面（観測）は210×160のRGB画像 – 84×84に縮小・グレースケール化 – 直近4フレーム分をまとめて1つの状態sとする（不完全知覚の軽減） 15 前処理f

CNNの構成 16 畳み込みフィルタ4×4×64 ストライド2 畳み込みフィルタ3×3×64 ストライド1 全結合ユニット数512

提案手法(1) • 将来得られる報酬の合計がのとき，行動価値関数Qと状態価値関数Vはとなる 17 方策

提案手法(2) • 状態価値V(s)に対する，特定の行動を選んだときの相対的な価値をadvantage functionとして定義する →Q値はと分解できる 18 CNNをVの計算とAの計算に分ける

Dueling Network(1) 19 DQN Dueling Network q a b

Dueling Network(2) • 畳み込み層の部分はDQNと同じ • 全結合層を2つに分け，VとAの計算をそれぞれ行う • V,Aを統合しQ値を出力する 20 Dueling

VとAの統合(1) とすれば良いか？ →Q,V,AはいずれもCNNによる関数近似でしかなく，真のQ,V,Aとは異なる 21 Qが与えられたとき，VとAに一意に分解できない性能の低下につながる

VとAの統合(2) 1. 特定の行動についてadvantage functionが 0になるようにする 22 に対してとなる

VとAの統合(3) 2. 最大値の代わりに平均値を用いる • 平均値は最大値ほど大きく変化しにくいため？ • 実験ではこちらを用いる 23 V,Aの本来の意味はoff-target(?)になるため失われるが，学習の安定性は向上する

実験1：方策の評価(1) • タスク：Corridor – エージェントは左下からスタート – 右上のゴールに辿り着いたら報酬 – 行動：左，右，上，下，何もしない（no-op） –

実験1：方策の評価(2) • NNの構成 25 Single-stream architecture（比較手法） Dueling architecture（提案手法） 50 50

実験1：結果 • 行動の数が増えるとdueling architectureの方が収束が早い • が同じ内容（no-op）の行動に対する共通の価値を学習している →収束が早まった 26 SE

実験2：Atariゲームの学習 • 各種のAtariゲームによって評価 • アルゴリズムDouble DQN（DQNの改良手法） • 比較手法 – Single

実験2：評価方法 • Baseline (Single)または人間と比較したスコアの伸びで評価 • 開始状態 – 30 no-ops：エピソード開始時に0～30フレーム（ランダム）の間何もしない

実験2：結果(1) 29

実験2：結果(2) 30

実験2：結果(3) • Dueling architectureが高いスコアを記録した • Prioritized replayと組み合わせることでさらに性能が上がった 31

まとめ • DQNについて説明した • Dueling architectureの提案 – 行動によらない状態価値V(s)も学習することによって収束が早まった – 他のアルゴリズムと組み合わせることでさらに性能が上がる

V+A • Vはスカラー，Aはベクトル →Vをだけ繰り返したベクトルとの和を取る – 例： 33

Double DQN • DQNを改良したアルゴリズム • パラメータ更新の際にターゲットをによって計算 34 Van Hasselt,

Prioritized Replay • Experience Replayを改良したもの • 学習の際に，高い報酬を得られた経験の取り出される確率を高くする 35 Schaul,

DQNのアルゴリズム 36 ゲーム初期化 e-greedyで行動決定ゲーム画面と報酬を観測 Experience Replay 教師信号を生成 Target