DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN

DQNによるポーカーの強化学習宮内翼

目次 ◼ DQNとは ⚫ Q学習 ⚫ Q関数とニューラルネットワーク(NN) ⚫ 経験再生 ⚫
ターゲットネットワーク ◼ テキサスホールデムの学習

DQN(Deep Q Network)とは ◼ Q学習とニューラルネットワークを用いた手法に経験再生とターゲットネットワークを加えた、強化学習の一種 ⚫詳しくは後述 Q学習ニューラルネットワーク経験再生
ターゲットネットワーク DQN

Q学習 ◼ 行動価値関数をQ関数という ◼ Q関数とは状態sと行動aの組み合わせから得られる収益 ⚫ q π (s, a)
= E[G t |S t = s, A t = a] ⚫ 最適なQ関数を知りたい ◼ Q学習はQ関数を更新する方法の一つ ◼ Q学習を使って最適なQ関数を求める

Q関数とニューラルネットワーク(NN) ◼ 例：チェスの駒の並び（状態数）は10の123乗 Q関数の候補は状態数×行動数で膨大ニューラルネットワークで近似なので

経験再生データニューラルネットワークデータ保存 Q学習学習ランダムに取り出す ◼データをバッファに保存して、ランダムに取り出す
◼データの偏りが無くなるバッファ

ターゲットネットワーク ◼ DQNの教師ラベルに相当するもの：TDターゲット ◼ Q関数が更新されるとTDターゲットも更新される ◼ TDターゲットの方は定期的に更新する(常には更新しない) Q関数 TDターゲット毎回更新
毎回更新ターゲットネットワーク Q関数 TDターゲット毎回更新数十回に一度更新

テキサスホールデムの学習 ◼ チェスや囲碁などのよく強化学習で扱われるゲームの分類 ⚫ 二人零和有限確定完全情報ゲーム ◼ テキサスホールデムの特徴 ⚫ 確定ではない(トランプのカードはランダム) ⚫
完全情報ではない(相手の手札は見えない)

テキサスホールデムの学習 DQN(NNはシンプル) 相手はCallだけするCPU 運がからむのでブレが大きい少し学習しているように見える

テキサスホールデムの学習 DQN(NNを深くした) 縦軸の1,2,3...は 1000,2000,3000...としてます episode500ぐらいで頭打ち得点は大きくなってる

まとめ ◼ DQNは強化学習の一種 ◼ テキサスホールデムのような不確定かつ不完全なゲームでも学習はできる

DQNによるポーカーの強化学習/Reinforcement Learning in Poker...

DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN

tasotaku

More Decks by tasotaku

Featured

Transcript

DQNによるポーカーの強化学習宮内翼

目次 ◼ DQNとは ⚫ Q学習 ⚫ Q関数とニューラルネットワーク(NN) ⚫ 経験再生 ⚫

DQN(Deep Q Network)とは ◼ Q学習とニューラルネットワークを用いた手法に経験再生とターゲットネットワークを加えた、強化学習の一種 ⚫詳しくは後述 Q学習ニューラルネットワーク経験再生

Q学習 ◼ 行動価値関数をQ関数という ◼ Q関数とは状態sと行動aの組み合わせから得られる収益 ⚫ q π (s, a)

Q関数とニューラルネットワーク(NN) ◼ 例：チェスの駒の並び（状態数）は10の123乗 Q関数の候補は状態数×行動数で膨大ニューラルネットワークで近似なので

経験再生データニューラルネットワークデータ保存 Q学習学習ランダムに取り出す ◼データをバッファに保存して、ランダムに取り出す

ターゲットネットワーク ◼ DQNの教師ラベルに相当するもの：TDターゲット ◼ Q関数が更新されるとTDターゲットも更新される ◼ TDターゲットの方は定期的に更新する(常には更新しない) Q関数 TDターゲット毎回更新

テキサスホールデムの学習 ◼ チェスや囲碁などのよく強化学習で扱われるゲームの分類 ⚫ 二人零和有限確定完全情報ゲーム ◼ テキサスホールデムの特徴 ⚫ 確定ではない(トランプのカードはランダム) ⚫

テキサスホールデムの学習 DQN(NNはシンプル) 相手はCallだけするCPU 運がからむのでブレが大きい少し学習しているように見える

テキサスホールデムの学習 DQN(NNを深くした) 縦軸の1,2,3...は 1000,2000,3000...としてます episode500ぐらいで頭打ち得点は大きくなってる

まとめ ◼ DQNは強化学習の一種 ◼ テキサスホールデムのような不確定かつ不完全なゲームでも学習はできる