Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN

tasotaku
December 14, 2023
200

DQNによるポーカーの強化学習/Reinforcement Learning in Poker with DQN

tasotaku

December 14, 2023
Tweet

Transcript

  1. 目次 ◼ DQNとは ⚫ Q学習 ⚫ Q関数とニューラルネットワーク(NN) ⚫ 経験再生 ⚫

    ターゲットネットワーク ◼ テキサスホールデムの学習
  2. Q学習 ◼ 行動価値関数をQ関数という ◼ Q関数とは状態sと行動aの組み合わせから得られる収益 ⚫ q π (s, a)

    = E[G t |S t = s, A t = a] ⚫ 最適なQ関数を知りたい ◼ Q学習はQ関数を更新する方法の一つ ◼ Q学習を使って最適なQ関数を求める