Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DQN

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for oshokawa oshokawa
August 05, 2015
1.1k

 DQN

MLP勉強会 LT

Avatar for oshokawa

oshokawa

August 05, 2015
Tweet

Transcript

  1. DDQQNNってなんぞ? 5 DDeeeepp QQ -- NNeettwwoorrkk DDeeeepp DDeeeepp LLeeaarrnniinnggの「DDeeeepp」 QQ

    QQ--LLeeaarrnniinnggの「QQ」 NNeettwwoorrkk NNeeuurraall NNeettwwoorrkkの「NNeettwwoorrkk」
  2. 強化学習:QQ--LLeeaarrnniinngg 10 Q(s, a) s a ↵ r :価値関数 :状態

    :行動 :学習率 :報酬 :割引率 下の更新式で「状態」と「行動」の「良さ」を学習
  3. 強化学習:QQ--LLeeaarrnniinngg 12 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100

    00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 報酬 普通の場所: 00 ゴール:++1100 壁: --1100
  4. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 13 価値関数 ((各マス目につき上下左右各行動に存在)) [[例]] Q (2, 3), " Q (2, 3), # Q (2, 3), Q (2, 3), !
  5. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 14 画像:: hhttttpp::////ppssnneewwss..jjpp//ccaatt//pp//33444400//
  6. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 15
  7. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 16
  8. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 17
  9. 00 00 00 00 00 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 18 ゴール((++1100))についた! ↓ 「一個前の状態」 での 「上に進む」 っていう行動はいいんじゃね?
  10. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 19
  11. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 20
  12. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 21 オワタ\((^^oo^^))/ ↓ 「一個前の状態」 での 「右に進む」 はヤバくね?
  13. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 22
  14. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 23
  15. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 24
  16. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 25
  17. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 26 今の状態良さげ ↓ 「一個前の状態」 での 「上に進む」 はいいんじゃね?
  18. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 27
  19. 00 00 00 00 ++55 00 00 00 00 00

    00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 28 ゴール((++1100))についた! ↓ 「一個前の状態」 での 「上に進む」 はやっぱいいんじゃね?
  20. 00 00 00 00 ++77..55 00 00 00 00 00

    00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 29
  21. 00 00 00 00 ++77..55 00 00 00 00 00

    00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 30 こんなかんじで 「あらゆる状態」の「あらゆる行動」 における価値関数を 更新、記憶しておく
  22. ってなわけで 33 Q(s, a; ✓) ⇡ Q⇤(s, a) と 価値関数を関数近似して、ニューラルネットで学習しちゃう

    s a s0 ・・・ ・・・            を重みとする ネットワーク   ✓ ・・・ ・・・ Q(s, a; ✓i) yi yi = E s⇠E ⇥ r + max a0 Q ( s0, a0 ; ✓i 1) |s, a ⇤ ※ 変数詳細は論文[[11]]参照
  23. まとめるとこんな感じ[[11]] 35 -- ggrreeeeddyyで行動 を選択 ✏ at 行動 を実行して、報酬 、次状態

    を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移      をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習 次のエピソード 状態の初期化
  24. まとめるとこんな感じ[[11]] 36 -- ggrreeeeddyyで行動 を選択 ✏ at 行動 を実行して、報酬 、次状態

    を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移      をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習 次のエピソード 状態の初期化 ここがDDeeeepp!!
  25. で、論文では •  AAttaarrii22660000の学習フレームワーク((AALLEE:: [[66]])) •  ラスト44フレームの221100**116600のゲーム画面を –  8844**8844に縮小 –  RRGGBB→ggrraayy--ssccaall

    に変換(( )) •  ネットワークの構成は –  入�力層:8844**8844**44 –  隠れ層:サイズ88**88のフィルタ1166個((ssttrriiddee 44)) –  隠れ層:サイズ44**44のフィルタ3322個((ssttrriiddee 22)) –  隠れ層:225566個のffuullll--ccoonnnneecctteedd RReeLLUUユニット –  出力層:アクション数分の行動価値関数の値((44〜1188ユニット)) •  その他 –  各種パラメータは論文を参照してくれ •  一言 –  ニューラルネットのインプットに「行動」が入�ってない! –  44フレームのゲーム画像だけから全行動の価値関数を推定してる! 37 (st)
  26. まとめるよ •  複雑な問題での強化学習は大変 •  価値関数をDDeeeepp LLeeaarrnniinngg((CCNNNN))で学習 •  すると、すげー性能がでたぞ •  でも

    – 行動とか報酬が明確に定義できない問題設定 も現実的には多い希ガス – とはいえ、面白い技術なので、ゲーム以外で の活用を考えてみたい 39
  27. 参考文献 40 [[11]] VV.. MMnniihh eett aall.. PPllaayyiinngg AAttaarrii wwiitthh

    DDeeeepp RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg.. NNIIPPSS 22001133.. [[22]] MM.. RRiieeddmmiilllleerr.. NNeeuurraall FFiitttteedd QQ IItteerraattiioonn – FFiirrsstt EExxppeerriieenncceess wwiitthh aa DDaattaa EEffffiicciieenntt NNeeuurraall RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg MMeetthhoodd.. EECCMMLL 22000055.. [[33]] LL--JJ.. LLiinn.. SSeellff--IImmpprroovviinngg RReeaaccttiivvee AAggeennttss BBaasseedd OOnn RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg,, PPllaannnniinngg aanndd TTeeaacchhiinngg.. MMaacchhiinnee LLeeaarrnniinngg,, 88,, 229933----332211.. 11999922.. [[44]] LL--JJ.. LLiinn.. RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg ffoorr RRoobboottss UUssiinngg NNeeuurraall NNeettwwoorrkkss.. 11999933.. [[55]] MM.. GG.. BBeelllleemmaarree eett aall.. TThhee AArrccaaddee LLeeaarrnniinngg EEnnvviirroonnmmeenntt:: AAnn EEvvaalluuaattiioonn PPllaattffoorrmm ffoorr GGeenneerraall AAggeennttss.. JJoouurrnnaall ooff AArrttiiffiicciiaall IInntteelllliiggeennccee RReesseeaarrcchh 4477,, 225533—227799,, 22001133.. [[66]] UUggoo--NNaammaaさんのブログ((QQiiiittaa)) hhttttpp::////qqiiiittaa..ccoomm//UUggoo--NNaammaa//iitteemmss//0088cc66aa55ff66aa557711333355997722dd55