Slide 14
Slide 14 text
モンテカルロ木探索
● U: UCB (Upper Confidence Bound)
○ C(s): N(s) に応じて対数的に増加する値
○ x P: DNNで計算したポリシーによる局面選択率
○ x √N(s) / (1 + N(s, a))
■ N(s): 局面sの探索回数
■ N(s, a): 局面sでaを指す探索回数
実際に指す際は、基本的には探索回数最大の手を選ぶ
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play
AlphaZeroの論文
https://github.com/TadaoYamaoka/DeepLearningShogi/blob/denryu2021/selfplay/self_play.cpp