Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化學習之 Q Learning

強化學習之 Q Learning

Avatar for Joy Chen

Joy Chen

May 22, 2017
Tweet

Other Decks in Research

Transcript

  1. 學⽣生⾺馬可夫過程 - 回合 Episodes • C1 C2 C3 Pass Sleep

    • C1 FB FB C1 C2 Sleep • C1 C2 C3 Pub C2 C3 Pass Sleep • C1 FB FB C1 C2 C3 Pub C1 FB FB • FB C1 C2 C3 Pub C2 Sleep
  2. 報酬 Return • 報酬由獎勵累加⽽而成 • 越遠的動作或狀狀態可能越不重要 • 衰減因⼦子 (discount factor):gamma

    • gamma:0 代表非常短視近利利,只看前⼀一步的獎勵 • gamma:1 代表非常深謀遠慮,把每⼀一步的獎勵都看成相同的價值
  3. AB遊戲 • 蒙地卡羅法
 A:0
 B:6 / 8 = 0.75 •

    時間分差法
 A:0.75 * 1 + 0.25 * 0 = 0.75
 B:6 / 8 = 0.75