pπ / 中級者 pσ / 上級者 pρ / 情勢判断 vθ といった位置付け • pπ は人間の 800 万の盤面データを元に学習。精度は低いが高速に解を得る。 • pσ は 13 層の CNN。3,000 万盤面を 50 GPU で 3.4 億ステップ、3 週間学習。 プロの指し手を 57.0% の精度で予想できる。 • pρ は 50 GPU で 1 日かけ128 万回自己対戦。既存ソフトに 85% の圧倒的勝率。 • vθ は pσ でランダムに 3,000 万盤面を生成し、pρ で 1 億 6,000 万回ロールアウトした勝率を 教師データに、50 GPU で一週間 5,000 万回確率勾配降下法を実施。 • 実対戦では1,202 CPU + 176 GPUが使われ、pσ で次の手選択、vθ で盤面評価。 • 勝率はいいが理詰めの pρ より、人間の癖を学んだ pσ を使ったか。 • 勝因は pρ の徹底的な強化学習に加え、モンテカルロ木探索と CNN の組合せか。 深層学習アルゴリズム 33