Slide 16
Slide 16 text
5.4 Monte Carlo Control without Exploring Starts
16
Exploring Startsなしでモンテカルロ法を使いたい。
→𝜋 𝑎 𝑠 > 0が保証されている方策を持つエージェントに
データ(𝑆0
, 𝐴0
, 𝑅1
, … , 𝑆𝑇−1
, 𝐴𝑇−1
, 𝑅𝑇
)を生成させればよい
データを生成するための方策behavior policyと学習を行いたい方策target policyについて
On-Policy: behavior policy=target policy
Off-Policy: behavior policy≠target policy
の2パターンが考えられる