に応じて対数的に増加する値 ◦ x P: DNNで計算したポリシーによる局面選択率 ◦ x √N(s) / (1 + N(s, a)) ▪ N(s): 局面sの探索回数 ▪ N(s, a): 局面sでaを指す探索回数 実際に指す際は、基本的には探索回数最大の手を選ぶ A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play AlphaZeroの論文 https://github.com/TadaoYamaoka/DeepLearningShogi/blob/denryu2021/selfplay/self_play.cpp