Slide 30
Slide 30 text
Backup
• ⾏動価値関数Q(s7
, 7
)は、これらを⽤いて計算される。
Q(s7
, 7
) = 1 − uv \J, IJ
wv \J, IJ
+ ux \J, IJ
wx \J, IJ
• また、selectionにおいてすでに選択されたノードの中で、
⼀時的に何回か評価して負けたことにする
p
d
7
, 7
← d
7
, 7
+ nz-
d
7
, 7
←
d
7
, 7
− z-
シミュレーション後にまた増やす
p
d
7
, 7
← d
7
, 7
− nz-
d
7
, 7
←
d
7
, 7
+ z-