DQN速習会@Wantedly

DQNはDQNでも賢いDQN速習会@Wantedly 妹尾卓磨

自己紹介妹尾卓磨慶應義塾大学理工学部情報工学科今井研究室強化学習についての研究好きなもの: Star Wars 2

速習すること • 強化学習の概要をなんとなく知る ◦ DQNで遊ぶのに必要なミニマルな基礎理論を知る • DQNがどうやって動いているか知る ◦ DQNで遊ぶのに必要なDQNの仕組みを知る •
DQNで遊んでみる ◦ 遊んでみる 3

今回の経緯強化学習の研究をしているのでプロダクトに活かしたいので速習会やろでもDQNはまだ気軽にプロダクションへ活かせるものではない（そもそもDeepである必要がない場合が多いだろう）だからこそ最初に強化学習の概要を知るのは大事でも入り口としてDQNは面白いじゃん！！ 4

強化学習を知る 5

強化学習で話題になったこと（１） AlphaGo 囲碁チャンピオンを倒したAI https://www.youtube.com/watch?v=f_r9smp4-0U Silver, David and Huang, Aja and
Maddison, Chris J. and Guez, Arthur and Sifre, Laurent and van den Driessche, George and Schrittwieser, Julian and Antonoglou, Ioannis and Panneershelvam, Veda and Lanctot, Marc and Dieleman, Sander and Grewe, Dominik and Nham, John and Kalchbrenner, Nal and Sutskever, Ilya and Lillicrap, Timothy and Leach, Madeleine and Kavukcuoglu, Koray and Graepel, Thore and Hassabis, Demis, Mastering the Game of Go with Deep Neural Networks and Tree Search, 2016 6

強化学習で話題になったこと（２） Deep Q-Network (DQN) Atariで人間と同じかそれ以上の点数を取れるようになった https://www.youtube.com/watch?v=TmPfTpjtdgg 7 Volodymyr Mnih and
Koray Kavukcuoglu and David Silver and Alex Graves and Ioannis Antonoglou and Daan Wierstra and Martin Riedmiller,Playing Atari With Deep Reinforcement Learning, 2013 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis, Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Human-level control through deep reinforcement learning, 2015

強化学習で話題になったこと（３） Googleがデータセンターの冷却に必要なエネルギーを40%削減したらしい（DQNを使ったとは明示的には書いていないが） https://environment.google/projects/machine-learning/ https://blog.google/topics/environment/deepmind-ai-reduces-energy-used-for/ 8

身近な強化学習の例遭難して無人島にいるところを想像しましょう浜辺にずっといると死んでしまうので島を探索しなければならない • 戦略1 綺麗な水や食べ物を探しに歩きまわる • 戦略2 歩いたら疲れるし、悪い水を飲んだら危ないので浜辺でじっとする牧野貴樹、渋谷長史、白真一、これからの強化学習、
2016より抜粋 9

無人島での戦略 • 戦略1: 綺麗な水や食べ物を探しに歩きまわるリスクはあるが、もし発見できれば今後そこを利用して長く生存できる可能性 • 戦略2: 歩いたら疲れるし、悪い水を飲んだら危ないので浜辺でじっとするリスクはないのでアクシデントで死ぬことはないが、このままだと死ぬこれをうまく解くのが強化学習！
10

強化学習とは（１）機械学習には大きく分けて3つのタイプがあります • 教師あり学習 • 教師なし学習 • 強化学習強化学習は教師あり学習でも教師なし学習でもありません 11

強化学習とは（２） • 教師あり学習 ◦ 教師データを元に学習を行う • 教師なし学習 ◦ 入力データ群に対して隠れたデータ構造を発見する •
強化学習 ◦ 環境とインタラクションしつつ報酬を最大化する行動を獲得する 12

強化学習とは（３）エージェントが環境とインタラクションしつつ環境から受け取る報酬の和を最大化する行動を獲得する手法 13

強化学習の特徴知識と探索を駆使して報酬を最大化する行動を獲得する手法 • 知識の利用過去の経験で得られた知識を利用して報酬を最大化する • 探索今まで見たことのない、より高い報酬を探し求めるこのバランスを取るのが大事 14

無人島の例に戻るとエージェント: 人間環境: 無人島報酬: 行動が生存につながった度合い行動: 無人島で人間がする行動目標:
より長く生存すること報酬の総和を最大化すること 15

無人島の例での戦略 • 戦略1: 綺麗な水や食べ物を探しに歩きまわるリスクはあるが、もし発見できれば今後そこを利用して長く生存できる可能性探索と知識の利用をうまくすれば収益を最大化できそうその代わり、知識の利用をせずに探索すると収益が低くなるかも • 戦略2: 歩いたら疲れるし、悪い水を飲んだら危ないので浜辺でじっとする
リスクはないのでアクシデントで死ぬことはないが、このままだと死ぬ探索が足りておらず、局所解に陥ってしまった 16

Webにおいてどういう場合に使える？ • 教師データがないような場合にパラメータを探索したい検索のスコアリングの重み付けの最適化 • UIの出し方を最適化しつつ変更したいクリック率などを報酬に設定してUIを最適化 • インフラの最適化などをオンラインで学習しつつやる料金と応答時間のバランスを最適化
17

少し詳しく見る 18

用語を覚えよう状態エージェントのいる環境の様子 s t : tでの環境の様子 19

用語を覚えよう行動エージェントが環境に働きかける行動 a t : tでの行動 20 ファイヤー！

用語を覚えよう報酬環境からエージェントへ与えられる評価 r t : tでの環境からの評価 21

用語を覚えよう方策エージェントの行動パターン π(s, a): 状態sで行動aを取る確率として表すことが多い 22 ここをジャンプだ！

用語を覚えよう収益報酬の和。割引率γを導入してどのくらいのスパンでの収益かを調整する R t = r t + γr
t+1 + γ2r t+2 + γ3r t+3 + …. 23

マルコフ性次の状態が今の状態と行動にしか依らない Pr {s t+1 = s’, r t+1 =
r | s t , a t } 強化学習では環境がマルコフ性をもつとする 24

状態価値関数状態に対する価値（収益）を返す関数真の価値関数を求めるのが目標！！収益 25

簡単な方策の例状態価値関数をすでに持ってるなら常に一番大きな価値を持つ状態に移動するように行動 s s 1 s 2 s 3
V(s 1 ) = 0.1 V(s 2 ) = 0.2 V(s 3 ) = 0.1 囲碁とかチェスはこれで行動選択できる 26

遅れて発生する報酬インベーダーゲームだと、撃ってからしばらくしてスコアが貰える打った瞬間の状態にも価値を与える必要がある 27

Belleman方程式（１）ある状態の報酬と後続の状態群の報酬の関係を表した式即時報酬未来の割引報酬 28

Belleman方程式（２）次の状態の価値との関係を表せる次の状態の価値 29 即時報酬

TD学習（１）状態価値関数をオンラインで更新する手法各ステップで上を計算することで報酬を前の状態に伝搬させる目標今の値 30

TD学習（２） V(s t+3 )=0, V(s t+2 )=0, V(s t+1 )=0,
V(s t )=0, a = 1, γ=0.9 s t+2 s t+1 s t r t+3 =1 r t+2 =0 r t+1 =0 V(s t+2 ) = 0 + {1 + 0 - 0} V(s t+1 ) = 0+ {0 + 0 - 0} V(s t ) = 0 + {0 + 0 - 0} iteration1 例としていつも同じ状態遷移をするとする 31

TD学習（３） V(s t+3 )=0, V(s t+2 )=1, V(s t+1 )=0,
V(s t )=0, a = 1, γ=0.9 s t+2 s t+1 s t r t+3 =1 r t+2 =0 r t+1 =0 V(s t+2 ) = 1 + {1 + 0 - 1} V(s t+1 ) = 0 + {0 + 0.9 - 0} V(s t ) = 0 + {0 + 0 - 0} iteration2 32

TD学習（４） V(s t+3 )=0, V(s t+2 )=1, V(s t+1 )=0.9,
V(s t )=0, a = 1, γ=0.9 s t+2 s t+1 s t r t+3 =1 r t+2 =0 r t+1 =0 V(s t+2 ) = 1 + {1 + 0 - 1} V(s t+1 ) = 0.9 + {0 + 0.9 - 0.9} V(s t ) = 0 + {0 + 0.81 - 0} iteration3 33

状態価値関数の不便なところ状態価値関数は次の状態がわからないと使えなくない？ s s ? s ? s ? 状態価値関数に入れる状態がわからない
34

行動価値関数状態と行動に対する価値（収益）を返す関数状態価値関数との関係 35

行動価値関数の簡単な方策の例行動価値関数をすでに持ってるなら常に一番大きな行動価値を持つ行動を選択 s Q(s, a 1 ) = 0.1
Q(s, a 2 ) = 0.2 Q(s, a 3 ) = 0.1 これなら次の状態を考えなくて良い（マルコフ性のおかげ） 36

行動価値関数の後続の状態との関係次の状態の最大のQ値 37

Q学習 TD学習と同様にオンラインで行動価値関数を更新する一番簡単なQ関数の表し方はテーブル状態/行動行動1 行動2 状態1 ... ... 状態2
... ... 目標今の値 38

探索について今持っている方策にいつも従うと経験できない状態があるここを如何にうまくやるかが大事！！ 39

行動の選択方法 • greedy選択常に現在の学習状態で最高の選択を行う • ε-greedy選択確率εでランダムに行動を選択する • ボルツマン行動選択各行動のQ値に対してsoftmax関数を適応した確率分布で選択
40

DQNを知る 41

DQNとはヤンキー（不良）もしくは、軽率そうな者や実際にそうである者、粗暴そうな風貌をしている者や実際に粗暴な者、また、非常識で知識や知能が乏しい者を指すときに用いられる 1994年から2002年までテレビ朝日で放送されていた番組『目撃!ドキュン』が由来とされる。目撃ドキュンの内容は、離婚などで生き別れの親子が対面などというものであった。そのため、ヤンキーのことを、「15歳で結婚して子供が生まれて、20歳になったら離婚して、40歳になったら目撃ドキュンにでている人たち」という意味でDQNと2ちゃんねるを中心に呼ぶようになった。 https://ja.wikipedia.org/wiki/DQN 42

DQN (Deep Q-Network)とは Deep Mind より発表された深層強化学習の手法 Atariのゲームで高得点が取れるようになった 43 Volodymyr Mnih
and Koray Kavukcuoglu and David Silver and Alex Graves and Ioannis Antonoglou and Daan Wierstra and Martin Riedmiller,Playing Atari With Deep Reinforcement Learning, 2013 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis, Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Human-level control through deep reinforcement learning, 2015

DQNの成果 from NIPS 44

DQNの成果 from Nature Atari 2600[1] のゲームで人間よりも高いスコアが取れるようになった [1] The Arcade Learning
Environment: An Evaluation Platform for General Agents, 2013, Bellemare, Naddaf, Veness, Bowling 45

Atari 2600 での設定環境: ゲームエージェント: 自機状態: ゲーム画像行動:
ゲームの操作報酬: ゲームのスコア 46

今まで何が難しかった？状態は84x84の白黒画像テーブルでQ関数を表すのは無理線形関数近似でも画像を扱うのは難しい 25684x84通りの状態 47

CNNによる画像の扱い CNNを用いたImageNetがILSVRC2012（画像認識コンテスト）で優勝 Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet
Classification with Deep Convolutional Neural Networks, 2012 48

CNNによる畳み込み計算画像に対して畳み込み計算を行うことで空間的な情報も含めて特徴抽出することができる https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html 49

DQNでどこがディープになったのか Q関数をCNNを使ったDNNで近似ゲーム画像をそのまま学習に使えるようになった sにゲーム画像をそのまま使える！ DEEP!! 50

ニューラルネットワークの構成 CNN FC FC 各行動の Q 値
84x84の白黒ゲーム画像 CNN CNN 51

探索行動選択はε-greedy法 100万ステップかけてεが線形に 100% →10% まで下がり、このまま一定 52

DQNの工夫実はDQNはQ関数をディープにしただけではない • Experience Replay • Freezing the target network
• Clipping rewards • Skipping frames 色々工夫してようやくスコアが上がった！ 53

Experience Replay オンラインでそのまま学習すると DNNは現在の経験に対して過学習してしまう昔経験したことをランダムに選んで学習に使う繰り返し学習することで昔のことを忘れない！ Reinforcement Learning for Robots
Using Neural Network, 1993, Lin 経験1 経験2 経験3 経験4 Replay Memory 学習 54

Experience Replay の他の効果 • TD誤差を伝搬させるのに時間がかかるバッチ処理で過去の経験を学習させることで加速！ • いい経験を一回しか使わないのは勿体無い過去の経験を使いまわそう！ここを改良するとかなりの性能向上につながる！
55

Freezing the target network 誤差計算を行うときの目標のネットワークに古いものを使用目標値が安定しないと収束できない一定周期で現在のネットワークと同期するここだけ 56

Clipping rewards ゲームによってスコアの大きさが違う例 • Pongだったら一回点を取ると1点もらえる • Space Invadorsだったら倒したインベーダの場所に応じて10~30点いろんなゲームに対応するために、
• 負のスコアは-1 • 正のスコアは+1 で統一する 57

Skipping frames 4フレームごとに前の4フレームを使って行動選択を行う 4フレーム後まで同じ行動を繰り返し選択する計算コストが減るのでより多くの経験を積むことができる Atari 2600 の制限で描けるオブジェクトの数が決まっていてビームが消えたりするので Space
Invaders では3フレーム 58

DQNで遊んでみるお待たせしました！！ 59

実行環境 Python3系以下をpipでインストール • chainer==2.0.0 • chainerrl==0.2.0 • gym[atari] •
opencv-python（OpenCV3は別の方法でもOK） 60

DQNで遊んでみよう申し訳ありません今学習しても全く成長しません... あらかじめ学習済のモデルを複数用意しました 61

まずは動かしてみよう以下をcloneして https://github.com/takuseno/dqn-sokushukai 以下から任意のステップまで学習したモデルを落とす https://goo.gl/MN8676 breakout/30000000を上からダウンロードして実行する例 python play.py --gpu -1
--load 30000000 --env Breakout-v0 --render 62

学習させたゲーム 63 Breakout-v0 Pong-v0 SpaceInvaders-v0 MontezumaRevenge-v0

コード dqn.pyのベースになっているコードはPFNのchainerrl https://github.com/chainer/chainerrl ライブラリというよりは実装集な感じ（個人の感想） 64

chainerrl いろんな手法が実装されているのでとても参考になります（結構論文にハイパーパラメータがないことが多い）今回のdqn.pyはここから説明していない箇所を削りました 65

見るべき実装 _compute_loss関数がの誤差計算を行なっている箇所 66

MontezumaRevenge やってみた人は気づいたと思いますが全く学習ができません 67

報酬がスパースな環境への対策の例個人的に感動した UC Berkeley から出てた新しい論文報酬なしでマリオをプレイできるようにした https://www.youtube.com/watch?v=J3FHOyhUn3A Deepak Pathak, Pulkit
Agrawal, Alexei A. Efros, Trevor Darrell, Curiosity-driven Exploration by Self-supervised Prediction, 2017 68

報酬がスパースな環境への対策の例見たことない状態へ移動すると追加で報酬を与える好奇心 69 Deepak Pathak, Pulkit Agrawal, Alexei A.
Efros, Trevor Darrell, Curiosity-driven Exploration by Self-supervised Prediction, 2017

家で別のゲームを学習する頑張って以下を実行してください CPUだとめちゃくちゃ時間かかります... python train.py --gpu -1 --env {environment} GPUある場合はgpuオプションなしで実行
以下でゲーム一覧を確認できます https://gym.openai.com/envs#atari 70

もっと強化学習やってみたい人へ今日やった内容はDQNのためにかいつまんで説明しました本格的に勉強してみたい人には以下の本がおすすめです Richard S. Sutton Andrew G.Barto 強化学習 71

DQN速習会@Wantedly

DQN速習会@Wantedly

More Decks by Takuma Seno

Other Decks in Technology

Featured

Transcript