Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DQNによるポーカーの強化学習/Reinforcement Learning in Poker...
Search
tasotaku
December 14, 2023
0
740
DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN
tasotaku
December 14, 2023
Tweet
Share
More Decks by tasotaku
See All by tasotaku
duel_masters_RAG
tasotaku
0
4
オセロCPU/Othello CPU
tasotaku
0
130
オセロAI / OthelloAI
tasotaku
0
150
私、ChatGPTがChatGPTを解説するよ! / ChatGPT explains ChatGPT
tasotaku
0
450
機械学習入門
tasotaku
0
420
AIが作る予想外な画像を考える / Consider the unexpected images that AI creates
tasotaku
0
310
Google Colaboratory でStable Diffusionの実装 / Implementation of Stable Diffusion at Google Colaboratory
tasotaku
0
380
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
GitHub's CSS Performance
jonrohan
1031
460k
Fireside Chat
paigeccino
37
3.5k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
How to train your dragon (web standard)
notwaldorf
96
6.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Pragmatic Product Professional
lauravandoore
35
6.8k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
KATA
mclloyd
30
14k
The Cult of Friendly URLs
andyhume
79
6.5k
Transcript
DQNによるポーカーの 強化学習 宮内翼
目次 ◼ DQNとは ⚫ Q学習 ⚫ Q関数とニューラルネットワーク(NN) ⚫ 経験再生 ⚫
ターゲットネットワーク ◼ テキサスホールデムの学習
DQN(Deep Q Network)とは ◼ Q学習とニューラルネットワークを用いた手法に経験再生と ターゲットネットワークを加えた、強化学習の一種 ⚫詳しくは後述 Q学習 ニューラルネットワーク 経験再生
ターゲットネットワーク DQN
Q学習 ◼ 行動価値関数をQ関数という ◼ Q関数とは状態sと行動aの組み合わせから得られる収益 ⚫ q π (s, a)
= E[G t |S t = s, A t = a] ⚫ 最適なQ関数を知りたい ◼ Q学習はQ関数を更新する方法の一つ ◼ Q学習を使って最適なQ関数を求める
Q関数とニューラルネットワーク(NN) ◼ 例:チェスの駒の並び(状態数)は10の123乗 Q関数の候補は 状態数×行動数で膨大 ニューラルネットワークで近似 なので
経験再生 データ ニューラル ネットワーク データ保存 Q学習 学習 ランダムに 取り出す ◼データをバッファに保存して、ランダムに取り出す
◼データの偏りが無くなる バッファ
ターゲットネットワーク ◼ DQNの教師ラベルに相当するもの:TDターゲット ◼ Q関数が更新されるとTDターゲットも更新される ◼ TDターゲットの方は定期的に更新する(常には更新しない) Q関数 TDターゲット 毎回更新
毎回更新 ターゲット ネットワーク Q関数 TDターゲット 毎回更新 数十回に一度 更新
テキサスホールデムの学習 ◼ チェスや囲碁などのよく強化学習で扱われるゲームの分類 ⚫ 二人零和有限確定完全情報ゲーム ◼ テキサスホールデムの特徴 ⚫ 確定ではない(トランプのカードはランダム) ⚫
完全情報ではない(相手の手札は見えない)
テキサスホールデムの学習 DQN(NNはシンプル) 相手はCallだけするCPU 運がからむのでブレが大きい 少し学習しているように見える
テキサスホールデムの学習 DQN(NNを深くした) 縦軸の1,2,3...は 1000,2000,3000...としてます episode500ぐらいで頭打ち 得点は大きくなってる
まとめ ◼ DQNは強化学習の一種 ◼ テキサスホールデムのような不確定かつ不完全なゲームでも学習は できる