Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DQNによるポーカーの強化学習/Reinforcement Learning in Poker...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tasotaku
December 14, 2023
850
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN
tasotaku
December 14, 2023
More Decks by tasotaku
See All by tasotaku
duel_masters_RAG
tasotaku
0
98
オセロCPU/Othello CPU
tasotaku
0
190
オセロAI / OthelloAI
tasotaku
0
220
私、ChatGPTがChatGPTを解説するよ! / ChatGPT explains ChatGPT
tasotaku
0
510
機械学習入門
tasotaku
0
490
AIが作る予想外な画像を考える / Consider the unexpected images that AI creates
tasotaku
0
360
Google Colaboratory でStable Diffusionの実装 / Implementation of Stable Diffusion at Google Colaboratory
tasotaku
0
460
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
Technical Leadership for Architectural Decision Making
baasie
3
400
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
160
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
Deep Space Network (abreviated)
tonyrice
0
160
Being A Developer After 40
akosma
91
590k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
350
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
190
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
Transcript
DQNによるポーカーの 強化学習 宮内翼
目次 ◼ DQNとは ⚫ Q学習 ⚫ Q関数とニューラルネットワーク(NN) ⚫ 経験再生 ⚫
ターゲットネットワーク ◼ テキサスホールデムの学習
DQN(Deep Q Network)とは ◼ Q学習とニューラルネットワークを用いた手法に経験再生と ターゲットネットワークを加えた、強化学習の一種 ⚫詳しくは後述 Q学習 ニューラルネットワーク 経験再生
ターゲットネットワーク DQN
Q学習 ◼ 行動価値関数をQ関数という ◼ Q関数とは状態sと行動aの組み合わせから得られる収益 ⚫ q π (s, a)
= E[G t |S t = s, A t = a] ⚫ 最適なQ関数を知りたい ◼ Q学習はQ関数を更新する方法の一つ ◼ Q学習を使って最適なQ関数を求める
Q関数とニューラルネットワーク(NN) ◼ 例:チェスの駒の並び(状態数)は10の123乗 Q関数の候補は 状態数×行動数で膨大 ニューラルネットワークで近似 なので
経験再生 データ ニューラル ネットワーク データ保存 Q学習 学習 ランダムに 取り出す ◼データをバッファに保存して、ランダムに取り出す
◼データの偏りが無くなる バッファ
ターゲットネットワーク ◼ DQNの教師ラベルに相当するもの:TDターゲット ◼ Q関数が更新されるとTDターゲットも更新される ◼ TDターゲットの方は定期的に更新する(常には更新しない) Q関数 TDターゲット 毎回更新
毎回更新 ターゲット ネットワーク Q関数 TDターゲット 毎回更新 数十回に一度 更新
テキサスホールデムの学習 ◼ チェスや囲碁などのよく強化学習で扱われるゲームの分類 ⚫ 二人零和有限確定完全情報ゲーム ◼ テキサスホールデムの特徴 ⚫ 確定ではない(トランプのカードはランダム) ⚫
完全情報ではない(相手の手札は見えない)
テキサスホールデムの学習 DQN(NNはシンプル) 相手はCallだけするCPU 運がからむのでブレが大きい 少し学習しているように見える
テキサスホールデムの学習 DQN(NNを深くした) 縦軸の1,2,3...は 1000,2000,3000...としてます episode500ぐらいで頭打ち 得点は大きくなってる
まとめ ◼ DQNは強化学習の一種 ◼ テキサスホールデムのような不確定かつ不完全なゲームでも学習は できる