スコア最大でないAIのレベル2以上の敵陣 • Step10:敵の行動方法をε-greedyにする • Step5同様パラメータ推定はせず、以下を使用 𝑤𝑎 = 1.0, 𝑤𝑏 = 1.0, 𝑤𝑐 = 1.0, 𝑤𝑑 = 1.0, ε = 0.8 • Step11:自分の行動方法を評価値貪欲(Step7) に • 自分の行動にもランダム行動確率𝜀 = 0.8を 入れる方が良い • スコアはあまり変わらず (自分の行動はランダムでもあまり問題ない?) 53.0G 327位 1603perf 55.5G 279位 1682perf 55.3G 280位 1680perf