DQN

DDQQNN この資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならびに第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。滝　勇太 22001155..0088..0055 MMLLPP勉強会 LLTT 1

自己紹介名前：滝((石川)) 勇太専門：機械学習職種：でーたさいえんてぃすと((笑)) 趣味：ぬこウニ様　♀ ((アメリカンカール)) トロ様　♀ ((マンチカン))
2

3 本日は DDQQNN についてLLTTします

DDQQNNってなんぞ？ 4 「DDQQNN」 iiss nnoott 「ドキュン」 bbuutt 「DDeeeepp QQ--NNeettwwoorrkk」

DDQQNNってなんぞ？ 5 DDeeeepp QQ -- NNeettwwoorrkk DDeeeepp DDeeeepp LLeeaarrnniinnggの「DDeeeepp」 QQ
QQ--LLeeaarrnniinnggの「QQ」 NNeettwwoorrkk NNeeuurraall NNeettwwoorrkkの「NNeettwwoorrkk」

DDQQNNってなんぞ？ 6 DDQQNN[[11]]のポイントは 11.. 強化学習((QQ--LLeeaarrnniinngg))を使用 22.. 価値関数の関数近似に •  NNeeuurraall NNeettwwoorrkk •  EExxppeerriieennccee
rreeppllaayy を使用[[22]],, [[33]],, [[44]] の22つ((33つ))！

んで、文献[[11]]では 7 図11:: hhttttppss::////ccoommmmoonnss..wwiikkiimmeeddiiaa..oorrgg//wwiikkii//FFiillee::AAttaarrii--22660000--JJrr--FFLL..jjppgg 図22:: hhttttpp::////wwwwww..ddoossggaammeerrss..ccoomm//aattaarrii--22660000//aattaarrii--22660000--ggaammeess 図11 図22 DDQQNNを使ってレトロゲーでオレ、TTUUEEEEEEEEEEEEEEEEEEEE
したーい

8 とりあえず大前提の強化学習((QQ--LLeeaarrnniinngg))のイメージを説明するね

強化学習：QQ--LLeeaarrnniinngg 9 行動報酬 // 罰則エージェント環境

強化学習：QQ--LLeeaarrnniinngg 10 Q(s, a) s a ↵ r ：価値関数：状態
：行動：学習率：報酬：割引率下の更新式で「状態」と「行動」の「良さ」を学習

強化学習：QQ--LLeeaarrnniinngg 11 ゴールスタート状態：座標行動：上下左右

強化学習：QQ--LLeeaarrnniinngg 12 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100
00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 報酬普通の場所： 00 ゴール：++1100 壁： --1100

00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 13 価値関数 ((各マス目につき上下左右各行動に存在)) [[例]] Q (2, 3), " Q (2, 3), # Q (2, 3), Q (2, 3), !

00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 14 画像:: hhttttpp::////ppssnneewwss..jjpp//ccaatt//pp//33444400//

00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 15

00 00 00 00 00 00 00 00 00 00

00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 18 ゴール((++1100))についた！ ↓ 「一個前の状態」での「上に進む」っていう行動はいいんじゃね？

00 00 00 00 ++55 00 00 00 00 00

00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 21 オワタ＼((^^oo^^))／ ↓ 「一個前の状態」での「右に進む」はヤバくね？

00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 22

00 00 00 00 ++55 00 00 00 00 00

00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 26 今の状態良さげ ↓ 「一個前の状態」での「上に進む」はいいんじゃね？

00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 27

00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 28 ゴール((++1100))についた！ ↓ 「一個前の状態」での「上に進む」はやっぱいいんじゃね？

00 00 00 00 ++77..55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 29

00 00 00 00 ++77..55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習：QQ--LLeeaarrnniinngg 30 こんなかんじで「あらゆる状態」の「あらゆる行動」における価値関数を更新、記憶しておく

31 ん？「あらゆる状態」における「あらゆる行動」？？？？？

32 無理！

ってなわけで 33 Q(s, a; ✓) ⇡ Q⇤(s, a) と価値関数を関数近似して、ニューラルネットで学習しちゃう
s a s0 ・・・・・・を重みとするネットワーク ✓ ・・・・・・ Q(s, a; ✓i) yi yi = E s⇠E ⇥ r + max a0 Q ( s0, a0 ; ✓i 1) |s, a ⇤ ※ 変数詳細は論文[[11]]参照

さらに 34 一回経験したこと oorr 誰かが経験済みのことは学習に活かしましょうぜというポリシーを採用 EExxppeerriimmeeccee RReeppllaayy rreeppllaayy
mmeemmoorryy 部分集合学習暫定モデル・・・学習学習結果平たく言えば「ミニバッチ」

まとめるとこんな感じ[[11]] 35 -- ggrreeeeddyyで行動を選択 ✏ at 行動を実行して、報酬、次状態
を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移　　　　をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習次のエピソード状態の初期化

まとめるとこんな感じ[[11]] 36 -- ggrreeeeddyyで行動を選択 ✏ at 行動を実行して、報酬、次状態
を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移　　　　をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習次のエピソード状態の初期化ここがDDeeeepp！！

で、論文では •  AAttaarrii22660000の学習フレームワーク((AALLEE:: [[66]])) •  ラスト44フレームの221100**116600のゲーム画面を –  8844**8844に縮小 –  RRGGBB→ggrraayy--ssccaall
に変換(( )) •  ネットワークの構成は –  入�力層：8844**8844**44 –  隠れ層：サイズ88**88のフィルタ1166個((ssttrriiddee 44)) –  隠れ層：サイズ44**44のフィルタ3322個((ssttrriiddee 22)) –  隠れ層：225566個のffuullll--ccoonnnneecctteedd RReeLLUUユニット –  出力層：アクション数分の行動価値関数の値((44〜1188ユニット)) •  その他 –  各種パラメータは論文を参照してくれ •  一言 –  ニューラルネットのインプットに「行動」が入�ってない！ –  44フレームのゲーム画像だけから全行動の価値関数を推定してる！ 37 (st)

結果 38 論文11より転載 DDQQNN TTUUEEEEEEEEEEEEEEEE!!!!

まとめるよ •  複雑な問題での強化学習は大変 •  価値関数をDDeeeepp LLeeaarrnniinngg((CCNNNN))で学習 •  すると、すげー性能がでたぞ •  でも
– 行動とか報酬が明確に定義できない問題設定も現実的には多い希ガス – とはいえ、面白い技術なので、ゲーム以外での活用を考えてみたい 39

参考文献 40 [[11]] VV.. MMnniihh eett aall.. PPllaayyiinngg AAttaarrii wwiitthh
DDeeeepp RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg.. NNIIPPSS 22001133.. [[22]] MM.. RRiieeddmmiilllleerr.. NNeeuurraall FFiitttteedd QQ IItteerraattiioonn – FFiirrsstt EExxppeerriieenncceess wwiitthh aa DDaattaa EEffffiicciieenntt NNeeuurraall RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg MMeetthhoodd.. EECCMMLL 22000055.. [[33]] LL--JJ.. LLiinn.. SSeellff--IImmpprroovviinngg RReeaaccttiivvee AAggeennttss BBaasseedd OOnn RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg,, PPllaannnniinngg aanndd TTeeaacchhiinngg.. MMaacchhiinnee LLeeaarrnniinngg,, 88,, 229933----332211.. 11999922.. [[44]] LL--JJ.. LLiinn.. RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg ffoorr RRoobboottss UUssiinngg NNeeuurraall NNeettwwoorrkkss.. 11999933.. [[55]] MM.. GG.. BBeelllleemmaarree eett aall.. TThhee AArrccaaddee LLeeaarrnniinngg EEnnvviirroonnmmeenntt:: AAnn EEvvaalluuaattiioonn PPllaattffoorrmm ffoorr GGeenneerraall AAggeennttss.. JJoouurrnnaall ooff AArrttiiffiicciiaall IInntteelllliiggeennccee RReesseeaarrcchh 4477,, 225533—227799,, 22001133.. [[66]] UUggoo--NNaammaaさんのブログ((QQiiiittaa)) hhttttpp::////qqiiiittaa..ccoomm//UUggoo--NNaammaa//iitteemmss//0088cc66aa55ff66aa557711333355997722dd55

ご清聴あじゅじゅしたー 41 TTwwiitttteerr @@oosshhookkaawwaa FFaacceebbooookk 滝勇太

DQN

DQN

More Decks by oshokawa

Featured

Transcript