Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AlphaZero輪読会(4章 強化学習)

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

AlphaZero輪読会(4章 強化学習)

Avatar for hookbook

hookbook

July 30, 2019
Tweet

Other Decks in Technology

Transcript

  1. 目次 1. 強化学習とは 2. 4-1 多腕バンディット問題 3. 4-2 方策勾配法で迷路ゲーム 4.

    4-3 SarsaとQ学習で迷路ゲーム 5. 4-4 DQNでCartPole 6. 書籍紹介 7. 強化学習環境紹介
  2. 探索と利用のバランスを取る手法 - ε-greedy 確率ε : ランダムに行動を選択  = 探索 確率1-ε :

    期待報酬が最大の行動を選択 = 利用 - UCB1 ハイパーパラメータ(ε)ではなく アルゴリズムでバランスを取る手法
  3. 時間割引率γ γ:0.99 の場合 5ステップ後: 0.99^5 = 0.95 20ステップ後: 0.99^5 = 0.82

    50ステップ後: 0.99^5 = 0.61 例)今日もらえる10,000円、   20日後にもらえる8,200円、どちらが価値がある?