Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DQN
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
oshokawa
August 05, 2015
1.1k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
DQN
MLP勉強会 LT
oshokawa
August 05, 2015
More Decks by oshokawa
See All by oshokawa
密度比推定による異常検知
oshokawa
6
12k
機械学習概要
oshokawa
0
2.4k
機械学習入門 + Amazon MLちょっと触ってみた
oshokawa
0
1.9k
センシングデータの異常検知
oshokawa
1
2.1k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Design in an AI World
tapps
1
250
Building an army of robots
kneath
306
46k
Making Projects Easy
brettharned
120
6.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Typedesign – Prime Four
hannesfritz
42
3.1k
The Cult of Friendly URLs
andyhume
79
6.9k
Transcript
DDQQNN この資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意 願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならび に第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。 滝 勇太 22001155..0088..0055 MMLLPP勉強会 LLTT 1
自己紹介 名前:滝((石川)) 勇太 専門:機械学習 職種:でーたさいえんてぃすと((笑)) 趣味:ぬこ ウニ様 ♀ ((アメリカンカール)) トロ様 ♀ ((マンチカン))
2
3 本日は DDQQNN についてLLTTします
DDQQNNってなんぞ? 4 「DDQQNN」 iiss nnoott 「ドキュン」 bbuutt 「DDeeeepp QQ--NNeettwwoorrkk」
DDQQNNってなんぞ? 5 DDeeeepp QQ -- NNeettwwoorrkk DDeeeepp DDeeeepp LLeeaarrnniinnggの「DDeeeepp」 QQ
QQ--LLeeaarrnniinnggの「QQ」 NNeettwwoorrkk NNeeuurraall NNeettwwoorrkkの「NNeettwwoorrkk」
DDQQNNってなんぞ? 6 DDQQNN[[11]]のポイントは 11.. 強化学習((QQ--LLeeaarrnniinngg))を使用 22.. 価値関数の関数近似に • NNeeuurraall NNeettwwoorrkk • EExxppeerriieennccee
rreeppllaayy を使用[[22]],, [[33]],, [[44]] の22つ((33つ))!
んで、文献[[11]]では 7 図11:: hhttttppss::////ccoommmmoonnss..wwiikkiimmeeddiiaa..oorrgg//wwiikkii//FFiillee::AAttaarrii--22660000--JJrr--FFLL..jjppgg 図22:: hhttttpp::////wwwwww..ddoossggaammeerrss..ccoomm//aattaarrii--22660000//aattaarrii--22660000--ggaammeess 図11 図22 DDQQNNを使ってレトロゲーで オレ、TTUUEEEEEEEEEEEEEEEEEEEE
したーい
8 とりあえず 大前提の 強化学習((QQ--LLeeaarrnniinngg))のイメージを 説明するね
強化学習:QQ--LLeeaarrnniinngg 9 行動 報酬 // 罰則 エージェント 環境
強化学習:QQ--LLeeaarrnniinngg 10 Q(s, a) s a ↵ r :価値関数 :状態
:行動 :学習率 :報酬 :割引率 下の更新式で「状態」と「行動」の「良さ」を学習
強化学習:QQ--LLeeaarrnniinngg 11 ゴール スタート 状態:座標 行動:上下左右
強化学習:QQ--LLeeaarrnniinngg 12 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100
00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 報酬 普通の場所: 00 ゴール:++1100 壁: --1100
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 13 価値関数 ((各マス目につき上下左右各行動に存在)) [[例]] Q (2, 3), " Q (2, 3), # Q (2, 3), Q (2, 3), !
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 14 画像:: hhttttpp::////ppssnneewwss..jjpp//ccaatt//pp//33444400//
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 15
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 16
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 17
00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 18 ゴール((++1100))についた! ↓ 「一個前の状態」 での 「上に進む」 っていう行動はいいんじゃね?
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 19
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 20
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 21 オワタ\((^^oo^^))/ ↓ 「一個前の状態」 での 「右に進む」 はヤバくね?
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 22
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 23
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 24
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 25
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 26 今の状態良さげ ↓ 「一個前の状態」 での 「上に進む」 はいいんじゃね?
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 27
00 00 00 00 ++55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 28 ゴール((++1100))についた! ↓ 「一個前の状態」 での 「上に進む」 はやっぱいいんじゃね?
00 00 00 00 ++77..55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 29
00 00 00 00 ++77..55 00 00 00 00 00
00 00 00 00 00 00 ++44..55 00 00 00 00 00 --55 00 --1100 --1100 --1100 ++1100 --1100 --1100 00 --1100 00 --1100 --1100 00 00 00 --1100 --1100 --1100 00 --1100 --1100 --1100 --1100 --1100 --1100 --1100 強化学習:QQ--LLeeaarrnniinngg 30 こんなかんじで 「あらゆる状態」の「あらゆる行動」 における価値関数を 更新、記憶しておく
31 ん? 「あらゆる状態」 における 「あらゆる行動」 ?????
32 無理!
ってなわけで 33 Q(s, a; ✓) ⇡ Q⇤(s, a) と 価値関数を関数近似して、ニューラルネットで学習しちゃう
s a s0 ・・・ ・・・ を重みとする ネットワーク ✓ ・・・ ・・・ Q(s, a; ✓i) yi yi = E s⇠E ⇥ r + max a0 Q ( s0, a0 ; ✓i 1) |s, a ⇤ ※ 変数詳細は論文[[11]]参照
さらに 34 一回経験したこと oorr 誰かが経験済みのこと は学習に活かしましょうぜ というポリシーを採用 EExxppeerriimmeeccee RReeppllaayy rreeppllaayy
mmeemmoorryy 部分集合 学習 暫定モデル ・・・ 学習 学習結果 平たく言えば「ミニバッチ」
まとめるとこんな感じ[[11]] 35 -- ggrreeeeddyyで行動 を選択 ✏ at 行動 を実行して、報酬 、次状態
を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移 をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習 次のエピソード 状態の初期化
まとめるとこんな感じ[[11]] 36 -- ggrreeeeddyyで行動 を選択 ✏ at 行動 を実行して、報酬 、次状態
を観測 at rt st+1 rreeppllaayy mmeemmoorryy 状態遷移 をrreeppllaayy mmeemmoorryyに記憶 (st, at, rt, st+1) 価値関数を学習 次のエピソード 状態の初期化 ここがDDeeeepp!!
で、論文では • AAttaarrii22660000の学習フレームワーク((AALLEE:: [[66]])) • ラスト44フレームの221100**116600のゲーム画面を – 8844**8844に縮小 – RRGGBB→ggrraayy--ssccaall
に変換(( )) • ネットワークの構成は – 入�力層:8844**8844**44 – 隠れ層:サイズ88**88のフィルタ1166個((ssttrriiddee 44)) – 隠れ層:サイズ44**44のフィルタ3322個((ssttrriiddee 22)) – 隠れ層:225566個のffuullll--ccoonnnneecctteedd RReeLLUUユニット – 出力層:アクション数分の行動価値関数の値((44〜1188ユニット)) • その他 – 各種パラメータは論文を参照してくれ • 一言 – ニューラルネットのインプットに「行動」が入�ってない! – 44フレームのゲーム画像だけから全行動の価値関数を推定してる! 37 (st)
結果 38 論文11より転載 DDQQNN TTUUEEEEEEEEEEEEEEEE!!!!
まとめるよ • 複雑な問題での強化学習は大変 • 価値関数をDDeeeepp LLeeaarrnniinngg((CCNNNN))で学習 • すると、すげー性能がでたぞ • でも
– 行動とか報酬が明確に定義できない問題設定 も現実的には多い希ガス – とはいえ、面白い技術なので、ゲーム以外で の活用を考えてみたい 39
参考文献 40 [[11]] VV.. MMnniihh eett aall.. PPllaayyiinngg AAttaarrii wwiitthh
DDeeeepp RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg.. NNIIPPSS 22001133.. [[22]] MM.. RRiieeddmmiilllleerr.. NNeeuurraall FFiitttteedd QQ IItteerraattiioonn – FFiirrsstt EExxppeerriieenncceess wwiitthh aa DDaattaa EEffffiicciieenntt NNeeuurraall RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg MMeetthhoodd.. EECCMMLL 22000055.. [[33]] LL--JJ.. LLiinn.. SSeellff--IImmpprroovviinngg RReeaaccttiivvee AAggeennttss BBaasseedd OOnn RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg,, PPllaannnniinngg aanndd TTeeaacchhiinngg.. MMaacchhiinnee LLeeaarrnniinngg,, 88,, 229933----332211.. 11999922.. [[44]] LL--JJ.. LLiinn.. RReeiinnffoorrcceemmeenntt LLeeaarrnniinngg ffoorr RRoobboottss UUssiinngg NNeeuurraall NNeettwwoorrkkss.. 11999933.. [[55]] MM.. GG.. BBeelllleemmaarree eett aall.. TThhee AArrccaaddee LLeeaarrnniinngg EEnnvviirroonnmmeenntt:: AAnn EEvvaalluuaattiioonn PPllaattffoorrmm ffoorr GGeenneerraall AAggeennttss.. JJoouurrnnaall ooff AArrttiiffiicciiaall IInntteelllliiggeennccee RReesseeaarrcchh 4477,, 225533—227799,, 22001133.. [[66]] UUggoo--NNaammaaさんのブログ((QQiiiittaa)) hhttttpp::////qqiiiittaa..ccoomm//UUggoo--NNaammaa//iitteemmss//0088cc66aa55ff66aa557711333355997722dd55
ご清聴あじゅじゅしたー 41 TTwwiitttteerr @@oosshhookkaawwaa FFaacceebbooookk 滝 勇太