Move Evaluation in Go Using Deep Convolutional Neural Networks

by Masanori YANO

Slide 1

Slide 1 text

画像処理＆機械学習論文LT会 #5 Move Evaluation in Go Using Deep Convolutional Neural Networks 2019年7月22日(月) 矢農正紀 (Masanori YANO)

Slide 2

Slide 2 text

論文 2 Move Evaluation in Go Using Deep Convolutional Neural Networks 論文のURL: https://arxiv.org/abs/1412.6564 ⇒ CNNで「KGS Go Server」の打ち手を予測した論文著者の所属は、トロント大学・Google Brain/DeepMind 選んだ理由・AlphaGoやAlphaZeroの手法の応用に関心あり・CNNへの入力とするための「状態の表現」に関心あり (囲碁や将棋は、基本的なルールを把握している程度)

Slide 3

Slide 3 text

Google DeepMindメンバーの囲碁研究 3 [0] ICLR 2015の論文: CNNで「KGS Go Server」の打ち手を55%予測 https://arxiv.org/pdf/1412.6564.pdf [1] AlphaGo Fan: 「KGS Go Server」の棋譜データでプロ棋士に勝利 https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf [2] AlphaGo Lee: トップクラスのプロ棋士に勝利 [3] AlphaGo Master: ネット碁で、プロ棋士に無敗 [4] AlphaGo Zero: 棋譜データを使わずに強く https://deepmind.com/documents/119/agz_unformatted_nature.pdf [5] AlphaZero: 囲碁に加えて、チェスと将棋でも強く https://deepmind.com/documents/260/alphazero_preprint.pdf ⇒ AlphaZeroで、Google DeepMindの「囲碁研究は」終了論文に関心ある場合は、赤字の論文からが読みやすいかも今回取り上げる論文

Slide 4

Slide 4 text

コンピュータ囲碁のアプローチ 4 2006年以降、MCTS(モンテカルロ木探索)が主流・現在の状態から、乱数を含めて終局までシミュレーション・シミュレーションするための評価関数は、MCTSでも重要 ⇒ AlphaGoは、CNN評価関数＋強化学習＋MCTS CNN評価関数の入力・サイズは、囲碁の盤面と同じく19×19 ・チャネルは、現在の状態と、それに関連する特徴量 (例) 現在の局面: 黒/白で2チャネル、空きで1チャネル CNN評価関数の出力 [1] 現在の状態の評価値(その局面が、有利か不利か) [2] 次に取るべき行動(どの手を打つべきか)

Slide 5

Slide 5 text

本論文のアプローチ 5 現在の状態を「36チャネル×19×19」で表現 [参考] AlphaGoは48チャネルと、13/15チャネル(対戦用) AlphaGo ZeroとAlphaZero(の囲碁)は17チャネル対象とした「KGS Go Server」参加者のランク: 初段～9段 ⇒ 9チャネルのうち一つの19×19を全て1とし、他を全て0 CNNはゼロパディング＋最初だけ5×5で、以降は全て3×3 教師データ数は27.4 millionで、テストデータ数は2 million

Slide 6

Slide 6 text

本論文の主な結果(1/2) 6 CNNのレイヤー数を変えたときの、棋譜との一致率・中間層のチャネル数は128で、比較用に3レイヤーは16も・横軸のは、CNNの出力のうちtop-(上位の手まで)

Slide 7

Slide 7 text

本論文の主な結果(2/2) 7 CNNのレイヤー数を変えたときの、一致率と強さ・中間層のチャネル数は128で、比較用に3レイヤーは16も ⇒ 12レイヤーのCNNの「55.2%」が最高・囲碁プログラムのGnuGoと対戦させたときの勝率も評価・CNNを使った既存研究や、2014年の「彩」より高い精度・KGSで6段の、GnuGoには完勝する打ち手と同等の精度

Slide 8

Slide 8 text

まとめ 8 本論文は、CNNにより高い精度で人が打つ手を予測・テストデータで、最高55%の精度(top-1) ・論文には、CNNの出力だけでMCTSに勝利した棋譜も・AlphaGoの伏線でCNN＋MCTSの評価も所感・この時点では、入力に特徴量も多い・CNNの最近の手法も、少し効果あるかも (AlphaGo Zero以降はResNet) ・「画像＋特徴情報」の可能性に期待 - PFNのPaintsChainer(初期) 1チャネル＋色塗りヒント3チャネル - 筑波大学の飯塚さんのGLCIC 3チャネル＋マスク1チャネル