Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AlphaZero輪読会(4章 強化学習)

AlphaZero輪読会(4章 強化学習)

hookbook

July 30, 2019
Tweet

Other Decks in Technology

Transcript

  1. 目次 1. 強化学習とは 2. 4-1 多腕バンディット問題 3. 4-2 方策勾配法で迷路ゲーム 4.

    4-3 SarsaとQ学習で迷路ゲーム 5. 4-4 DQNでCartPole 6. 書籍紹介 7. 強化学習環境紹介
  2. 探索と利用のバランスを取る手法 - ε-greedy 確率ε : ランダムに行動を選択  = 探索 確率1-ε :

    期待報酬が最大の行動を選択 = 利用 - UCB1 ハイパーパラメータ(ε)ではなく アルゴリズムでバランスを取る手法
  3. 時間割引率γ γ:0.99 の場合 5ステップ後: 0.99^5 = 0.95 20ステップ後: 0.99^5 = 0.82

    50ステップ後: 0.99^5 = 0.61 例)今日もらえる10,000円、   20日後にもらえる8,200円、どちらが価値がある?