オセロを速く解く話/solveothello

オセロを速く解く話 KMC6 回生 prime @2019 年 KMC 春合宿

2 自己紹介 KMC-ID prime そすうぽよ Twitter: @_primenumber Mastodon: @[email protected] poyo
鯖新規登録受付中！ GitHub: @primenumber

5 概要オセロを速く「解く」ことに注力します強いオセロプログラムを作ることが目標ではない結果的に強いオセロプログラムは作れる CPU だけでなく様々なハードウェアを駆使して高速化

6 目次オセロを解くとは CPU で解く GPU で解く PEZY-SC/SC2 で解く FPGA
で解く並列化アルゴリズム

7 オセロを解くとはあるオセロの盤面が与えられたときに、両プレイヤーが最善を尽くしたときの試合結果を求めること → 最善を尽くすとは？

8 最善を尽くすとは再帰的に定義されるゲームが終了している盤面→なにもしない（自明）それ以外→手番のプレイヤーが 1 手プレイしたあとの盤面それぞれについて、両者が最善を尽くした場合の結果を求め、そのうち手番のプレイヤーにとって最も良い結果となる盤面に遷移するプレイをする

9 最善を尽くす例丸が各盤面、矢印がプレイ（ゲーム木という）各数字は石差 +6 -8 +20 +4 +16 先手
後手終局

10 最善を尽くす例後手は後手にとって最も有利な局面に遷移する -8 +4 +6 -8 +20 +4 +16
先手後手終局

11 最善を尽くす例先手は先手にとって最も有利な局面に遷移する +4 -8 +4 +6 -8 +20 +4
+16 先手後手終局

12 最善を尽くす例両者が最善を尽くすと先手の 4 石勝ち +4 -8 +4 +6 -8
+20 +4 +16 先手後手終局

13 MiniMax 法オセロなどの二人零和有限確定完全情報ゲームを解くアルゴリズムの１つ定義に従い再帰的に最善手を求めるアルゴリズムゲーム木の大きさにおおよそ比例した時間がかかる → ゲーム木は残り石数が増えると爆発的に大きくなるので残り石数が増えるごとに計算時間も爆発的に大きくなる

14 NegaMax 法 MiniMax 法では自分の手番では最大値、相手の手番では最小値を計算する必要がある手番によって実装を変える必要がある手番が変わるごとに試合結果を -1 倍して計算する
常に最大値を計算すれば良くなる実装が簡単になる計算量はほとんど同じ

15 NegaMax 法 +6 -8 +20 +4 +16 先手後手
終局

16 NegaMax 法 -1 倍して最大値を取る +8 -4 +6 -8 +20
+4 +16 先手後手終局 -6 +8 -20 -4 -16

17 NegaMax 法 -1 倍して最大値を取る +4 +8 -4 +6 -8
+20 +4 +16 先手後手終局 -8 +4

18 NegaMax 法の実装

19 FFO ベンチマークコンピューターオセロ界で最も有名なベンチマークテスト FFO#1 から #79 まであり、おおよそ番号順に難しくなっていく FFO#1
でも 14 石空きであり、人間が読み切るのはかなり難しい

20 FFO#1, #2 NegaMax 探索だと最も簡単な部類でも時間がかかる #1 #2 探索時間（秒） 498.901 265.216

21 AlphaBeta 法順番に読んでいると、読まなくても良い分岐があることが赤の盤面を評価している時、その子ノードについて 12 より良い盤面は相手は選ばない 20 より悪い盤面は自分は選ばないつまりこの盤面は
選ばれない +20 +20 +12 +32 +12 +20

22 AlphaBeta 法選ばれない盤面なら読まなくても試合結果には影響しないこの盤面の探索をここで打ち切ることが出来る局面を読む順番に依存するが、大幅な高速化が見込める実際の実装では、 alpha 値と beta
値という２つの値を持つ「 alpha 値と beta 値の間にだけ興味がある」という意味

23 NegaAlpha 法 NegaMax 法と同様に手番が変わるたびに -1 倍する子ノードの α 値は
-beta 、 β 値は -alpha になる子ノードの結果が beta 以上なら枝刈りできる実装が簡単になる計算量はほとんど同じ

24 NegaAlpha 法の実装

25 NegaAlpha 法の効果 #1 #2 mini-max （秒） 498.901 265.216 alpha-beta
（秒） 0.776 0.63

26 NegaAlpha 法の効果 #1 #2 mini-max （秒） 498.901 265.216 alpha-beta
（秒） 0.776 0.63 数百倍高速化

27 CPU での高速化テクニック速さ優先探索ビットボード葉の近くに対する最適化 SIMD/ ビット演算命令 NegaScout 法
置換表評価関数の利用

28 速さ優先探索真ん中の赤の局面を読む時、探索を途中で打ち切るためには +20 以下の局面を見つければ良い最善手である必要はない最も読む局面数が少ない局面から読みたい +20
+20 +32 +20

29 速さ優先探索着手可能手が少ない局面から順番に読む着手可能手の数は読む局面数と正の相関があると考えられるので、読む局面数が少ないと考えられる速さ優先探索という Fastest-First Heuristic +20 +20
+32 可能手 5 可能手 3 可能手 9 +20

30 速さ優先探索着手可能手が少ない局面から順番に読む着手可能手の数は読む局面数と正の相関があると考えられるので、読む局面数が少ないと考えられる速さ優先探索という Fastest-First Heuristic +20 +20
+32 可能手 5 可能手 3 可能手 9 +20

31 ベンチマーク mini-max alpha-beta fastest-first 0.01 0.1 1 10 100
1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

32 ベンチマーク mini-max alpha-beta fastest-first 0.01 0.1 1 10 100
1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 〜 35 倍程度の高速化

33 ビットボードオセロの盤面は 8*8=64 マス各マスは空き、黒、白のいずれかこれを 64bit 整数 2
つで持つ自分の石のある位置、相手の石のある位置 64bit*2=128bit=16Byte で盤面を表現できるメモリ使用量の削減になる手番の交代は 2 つの整数の入れ替えで表現できる

34 ビットボードある場所に石を置いた際にひっくり返る石の計算今の盤面で石を置ける場所の計算両方とも分岐なしで算術演算とビット演算で出来る

35 ビットボードでひっくり返る石の計算簡単のため横 1 列、左向きの計算を説明 × 印の場所に白石を置いた時

36 ビットボードでひっくり返る石の計算ビットボードでの表現 1 0 1 1 1 0 1
0 0 1 0 0 0 0 0 1 黒石白石

37 ビットボードでひっくり返る石の計算左端の黒石は今後の計算に邪魔なのでなくす 0 0 1 1 1 0 1
0 0 1 0 0 0 0 0 1 黒石白石

38 ビットボードでひっくり返る石の計算置く場所より左が 1 のマスクを作る 0 0 1 1 1
0 1 0 0 1 0 0 0 0 0 1 黒石白石 1 1 1 1 1 0 0 0 マスク

39 ビットボードでひっくり返る石の計算マスクの反転と黒石の OR を取る必要な範囲の黒石の位置だけ取り出す 0 0 1 1
1 0 1 0 0 1 0 0 0 0 0 1 黒石白石 1 1 1 1 1 0 0 0 マスク 0 0 1 1 1 1 1 1 演算結果

40 ビットボードでひっくり返る石の計算さっきの結果に +1 する置く位置から黒石がどこまで連続するかわかる 0 0 1 1
1 0 1 0 0 1 0 0 0 0 0 1 黒石白石 0 1 0 0 0 0 0 0 結果 0 0 1 1 1 1 1 1 結果 +1

41 ビットボードでひっくり返る石の計算白石、マスクと AND を取る挟む反対側の石の位置がわかる（挟めなければ 0 になる） 0 1
0 0 0 0 0 0 0 1 0 0 0 0 0 1 白石 1 1 1 1 1 0 0 0 マスク 0 1 0 0 0 0 0 0 結果 +1 反対側の石

42 ビットボードでひっくり返る石の計算反対側の石 -1 とマスクの AND を取るひっくり返る石の位置がわかる 0 1
0 0 0 0 0 0 1 1 1 1 1 0 0 0 マスク反対側の石 0 0 1 1 1 1 1 1 0 0 1 1 1 0 0 0 反対側 -1 反転する石

43 ビットボードでひっくり返る石の計算右方向も似たような方法で求められる 8*8 盤面でもマスクを使うと同様にして求められる横方向だけでなく縦や斜め方向も求められる

44 ビットボードで着手可能位置の計算これができると速さ優先探索が高速になるこれも各方向に分けて高速に計算することができる

45 ベンチマーク mini-max alpha-beta fastest-first bit-board 0.01 0.1 1 10
100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

46 ベンチマーク mini-max alpha-beta fastest-first bit-board 0.01 0.1 1 10
100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 5 倍程度の高速化

47 葉の近くに対する最適化ゲーム木の葉の近く（終局間際）では速さ優先探索はコストが大きい着手可能位置の計算や、ソートのコストが大きいそこで、残り石数によって速さ優先探索するかどうか分岐残り 6 石以下ではナイーブな探索に切り替え

48 ベンチマーク mini-max alpha-beta fastest-first bit-board leaf-opti 0.01 0.1 1
10 100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

49 ベンチマーク mini-max alpha-beta fastest-first bit-board leaf-opti 0.01 0.1 1
10 100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 2 倍程度の高速化

50 SIMD/ ビット演算命令 SIMD(Single Instruction Multiple Data) 1 命令で複数データを処理すること SSE,
AVX, NEON などビット演算命令特定のビット演算を高速化する命令ひっくり返る石の計算、着手可能位置の計算に利用

51 ベンチマーク mini-max alpha-betafastest-first bit-board leaf-opti avx2-popcnt 0.01 0.1 1
10 100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

52 ベンチマーク mini-max alpha-betafastest-first bit-board leaf-opti avx2-popcnt 0.01 0.1 1
10 100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 2 倍程度の高速化

53 NegaScout 法 αβ 探索では Alpha 値以下のノードには興味がない何も更新されないので先頭以外の各子ノードについて、 alpha
値を超えるかどうかだけ探索 solve(next, -alpha-1, -alpha) で実現できる超えるなら改めて完全探索 solve(next, -beta, -alpha) する

54 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

55 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 1 〜 3 倍程度の高速化

56 置換表異なる打ち方から同じ盤面に到達することがある同じ盤面を何度も探索する代わりに表に読んだ結果を保存 2 回目からは表を参照するだけで計算が終わる実際には αβ 探索なので真の結果の範囲しかわからない範囲を保存して今後の探索に活かす

57 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

58 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 1 〜 1.7 倍程度の高速化

59 評価関数の利用 αβ 探索は、局面を読む順番に依存するが高速

60 評価関数の利用 αβ 探索は、局面を読む順番に依存するが高速

61 評価関数の利用 αβ 探索は、局面を読む順番に依存するが高速自分に有利な局面から読んだほうが良いことが多い alpha 値が大きくなってよりたくさん枝刈りできるため

62 評価関数の利用速く読むためには、子ノードの結果が欲しい子ノードの結果を知るためには、実際に読む必要がある循環している…

63 評価関数の利用子ノードの結果の近似値を使うことで解決する近似値によって並べ替える近似値の計算 f( 盤面 )= そのノードを最後まで読んだ結果の近似値となるような
f が欲しい f を評価関数という評価関数の作り方はいくつもあるが、精度の高いものを紹介

64 評価関数の作り方要は盤面の「良さ」を評価したい良い盤面ならプラス、悪い盤面ならマイナスになるプレイヤーにとって有利・不利な点を見つける

65 例：辺の評価辺の石の配置によって有利・不利があると言われている山：有利ウィング：不利爆弾：一概には言えない

66 評価関数の作成辺のありうるパターンは 3^8=6561 通りそのそれぞれに点数を付ける山は +100 、ウィングは -100
など 4 辺の点数の和を盤面の評価値とする

67 より良い評価関数辺だけでなく隅の周辺や、縦横斜めの列にも点数をつける評価値は各パターンに対する点数の和 x x x x x x
x x x x x x x x x x x x x x x x x x x x x x

68 より良い評価関数点数の付け方も人力でやるのは大変盤面と実際に完全読みを行った結果の組をたくさん用意 100 万組ぐらいは欲しい評価関数の評価値と完全読みの結果が近くなるように学習実際にはスパースな線型方程式を解くだけで出来る

69 評価関数の適用パターンによる評価関数の計算はそれなりに重い残り数石なら最後まで読んでしまったほうが速いし正確速さ優先探索との兼ね合いもある 12 石以上空いているときに採用する

70 評価関数の適用 20 石空きの局面に対する評価関数の評価より 15 石空きの局面に対する評価関数の評価のほうが正確かと言って毎回 5 手分読んでいては時間がかかりすぎる最初に何手か評価関数の値を用いて浅い
αβ 探索をする探索時の結果をテーブルに保存しておき、完全読みに使う

71 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

72 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 1 〜 10 倍程度の高速化 (#39 は除く )

73 葉に対する最適化その 2 1 石空きかどうかで場合分けをして最適化する少しだけ効果がある

74 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

75 ベンチマーク 0.01 0.1 1 10 100 1000 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 5% 程度の高速化

76 実装 https://github.com/primenumber/rust-reversi Rust で実装

77 オセロを解く 20 石空きぐらいは簡単に読めるようになった時間をかければ更に空きマスが多くても解ける初手（ 60 石空き）から解けるか…？

78 計算量の見積もり大体 1 〜 5*10^7nodes/sec 出ているゲーム木の大きさは 10^54 、局面数は
10^28 程度あくまで推定だか、大きくは外れていないと思われる αβ 探索は、理想的な場合はノード数が平方根ぐらい置換表を使えば 10^14 ぐらい読めば良い…？単純計算で 3*10^6sec=35 日程度

79 オセロを解く実際に 35 日計算機を回す残念ながら解けない 10^14 のメモリはない αβ 法にとって理想的な条件ではない

80 オセロを解く読む必要のあるノード数を見積もるのは難しい 10^15 程度なら 1 年程度走らせればよいが… 10^16, 10^17,… ぐらいあったら…？
最悪死んでしまうまた、 10 年 100 年プログラムを動かし続けるのは難しい

81 オセロを解くどうしようもないのか…？

82 オセロを解くどうしようもないのか…？待って！我々はまだ CPU の一部しか使っていない

83 マルチスレッド化サーバー用 CPU を使えば数十スレッド並列実行可能単純計算で数十倍速くなる 1 〜 2*10^9nodes/sec 程度

84 並列に解くとりあえず、一つの局面を並列化して読むのではなく、多数の局面を並列に読むことを考える単に 1 局面あたり 1 並列で解くアルゴリズムが単純になる
一つの局面を並列化するのはあとで考える

85 GPU の利用並列計算なら CPU より並列計算に適したデバイスがある GPU (Graphic Processing Unit)
画像処理を行うプロセッサ PC で画面に映像を出すのに使われる並列計算に向いている GPGPU General Purpose computing on GPU GPU を汎用計算に使うこと

86 GPU の利用実装してみた https://github.com/primenumber/GPUOthello2 αβ 法 + 葉から遠いところで速さ優先探索 +
静的並べ替え再帰をループで実装する必要があり、かなり移植に苦労

87 GPU での分岐 GPU は何スレッドかを 1 つに束ねて実行している 16, 32, 64
スレッドなど束ねられたスレッドは同一の命令を実行する分岐があった場合分岐の方向が全部同じ場合分岐の方向の命令だけ実行する分岐の方向が違う場合両方のパスをマスク付きで実行する

88 GPU での分岐分岐の方向が同じ場合 if (X) { A; B; }
else { C; D; } X==true X==true X==true X==true A A A A B B B B

89 GPU での分岐分岐の方向が違う場合 if (X) { A; B; }
else { C; D; } X==true X==false X==false X==true A A A A B B B B C C C C D D D D

90 GPU で再帰 + 分岐 GPU で再帰 + 各スレッドでバラバラに分岐すると、 1
スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f()

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X f() f() f()

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X f() f() f() X !X !X

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X f() f() f() X !X !X f()

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X f() f() f() X !X !X f() !X

スレッド以外はほぼ常にマスクされている状態になる void f() { if (X) { f(); } else { A; } } X !X !X X !X X X X f() f() f() f() f() !X X !X X X f() f() f() X !X !X f() !X A

スレッド以外はほぼ常にマスクされている状態になるマスクされている間は計算していないのと同じ演算能力の 1/16 や 1/32 しか使えない

99 GPU での実装 αβ 法を素直に実装すると、再帰 + 分岐になる各スレッドがバラバラに分岐して CPU より遅くなる
そこで、スタックをメモリ上に用意し、再帰をループに再帰はスタックを用いてループで書けることが知られているループを用いると一重の分岐コストだけで済む約 5*10^9nodes/sec NegaScout 等が実装されていないので、 nodes/sec の比ほどは速くはならない

100 GPU の問題点とはいえ、分岐のせいでそれなりに演算器は遊んでしまう GPU の構造上の問題なので、どうしようもない… GPU 以外の並列計算機を探さなければ…

101 PEZY-SC/SC2 PEZY Computing 社の開発している MIMD プロセッサ各スレッドが完全に独立して動作する分岐によるペナルティがない！ PEZY-SC/SC2
の搭載されている菖蒲 (/SystemB) スパコンを使わせてもらえることになった 2017 年 12 月（ちょうど社長が逮捕された頃）

102 PEZY-SC/SC2 版ソルバー実装してみた https://github.com/primenumber/PEZY-Othello 8*10^9 nodes/sec (on PEZY-SC2 1
モジュール ) スタック領域が 1 スレッドあたり 2KB/2.5KB しかないため、かなり移植に苦労した

103 PEZY-SC/SC2 版ソルバー αβ 法 + 葉から遠いところで速さ優先探索 + 静的並べ替え +
置換表 +NegaScout 評価関数の利用はまだうまく行っていない MIMD 動作のため、速さ優先探索の分岐ペナルティがなくなり、かなり葉の近くまで速さ優先探索出来るので nodes/sec の違い以上に速い

104 PEZY-SC/SC2 版の実装スタック領域が狭い再帰で実装すると 10 石ぐらいしか読めない結局 GPU と同様にメモリ上にスタックを構築、ループ化

105 PEZY-SC/SC2 の問題点スループットを出すにはかなりの並列度が必要 1 モジュールあたり数十万局面必要 1CPU に 4 〜
8 モジュール繋がっているので全体では数百万局面必要 1 局面を解くのにかかる時間（レイテンシ）は長い 700MHz, 4 スレッド交代のため

106 さらなる高速化を目指してどういうアーキテクチャなら良い？浮動小数点演算は不要整数乗算も（いまのところ）いらないビット演算、シフト、加算減算ばかり理想的にはオセロ専用回路があると良い

107 そんなものはない浮動小数点演算はともかく、整数乗算もカットしたようなアーキテクチャは殆ど無いオセロ専用回路を載せたアーキテクチャなど当然ない

108 無いなら作る！ FPGA Field-Programmable Gate Array の略自分で自由に回路を組むことが出来るオセロ専用回路のあるプロセッサを作れる！

109 オセロソルバー on FPGA Othello ソルバーと FPGA は相性が良い FPGA にとって苦手な演算がいらない
乗算器の数も余裕があるビット演算などが得意オセロ専用回路を作れる

110 オセロソルバー on FPGA 2018 年 5 月〜 https://github.com/primenumber/FPGAOthello 現在の仕様
パイプラインプロセッサ、 9 ステージ 9cycle / node を 9 並列 @1 コア 100MHz 程度数千 LUT&FF / 1 コア愚直な αβ 法

111 FPGA 版の実装 FPGA では再帰をそのまま回路に落とし込むのは難しいスタックを Block RAM 上に作ってループで解くまたか…
パイプライン化するためには工夫が必要すべての実行パスでサイクル数を揃えるステートマシンが単純なループになるようにする Block RAM へのアクセス回数を減らす 2 ポートしかないため

112 オセロソルバー on FPGA のアーキテクチャ 9 段パイプライン Fetch Decode1 Decode2
Exec1 Exec2 Exec3 Exec4 Check Write Stack [154bit width * (16*9) depth] Dual Port BRAM

113 Fetch ステージ前回のループの処理で石を置いたとき・新たな探索がスタートしたとき前回のループからデータが送られてくるので、それをスタックに書き込むそれ以外スタックのトップから探索情報を読みこむ

114 Decode ステージ探索情報を元に何をすべきか決めるこの局面を探索し終えた場合パスの場合：パスの操作をする終局の場合：石差計算をして親ノードに結果を伝えるそれ以外：親ノードに結果を伝える αβ 法の枝刈りが出来る場合
親ノードに結果を伝えるそれ以外通常の探索をする

115 Exec ステージまだ探索していない子ノードを探索したい空きマスの中から一つ選ぶ 4 サイクル掛けてひっくり返る石の計算をする通常の探索でない場合は何もしない

116 Check ステージひっくり返る石があるか確かめて、やることを決めるある場合石を置いて子ノードの探索に移るない場合次の空きマスを調べる

117 Write ステージ結果をスタックに書き込んだり、次のループに渡したり石を置ける場合石を置いたことをスタックに記録、次のループに子ノードを渡す置けない場合：その場所を調べたことをスタックに記録終局の場合：スコアを次のループで親ノードに渡すなどなど…

118 オセロソルバー on FPGA の性能 AWS F1 インスタンスに載っている、 Xilinx UltraScale+
VU9P で考える 2,364K FF & 1,182K LUT だいたい 300 コアぐらいは載りそう？ 3*10^10 nodes/sec 程度

119 オセロソルバー on FPGA の今後の展望 Fetch ステージでスタックへの書き込みをやめる次の Write ステージで書き込めば原理上行ける
Simple Dual Port RAM にできるアーキテクチャによっては BRAM の数を減らせる Fetch/Decode と Exec/Check/Write を分ける Fetch/Decode を高速に動かす Exec は半分くらい演算器が遊んでいるので有効活用したい速さ優先探索等を行う・クロック周波数の向上

120 オセロソルバー on FPGA の問題点速さ優先探索等をしていないのでそんなに速くない将来的には実装したいたくさんのコアをつないだときのタスクの与え方ラウンドロビンでタスクを与えるなどの工夫が必要 CPU
との接続バスと FIFO を介して接続する…？

121 全体アーキテクチャ予想図 CPU 速さ優先探索コア速さ優先探索コア Core Core Core Core Core
Core Core Core Core Core Core Core スイッチ

122 目標性能 10^12nodes/sec@AWS f1.16xlarge 8 モジュールの FPGA 搭載 300 コア
/ モジュール 2nodes/cycle >200MHz

123 並列化についてとりあえず並列で速く解けるようになったやりたいことは１つの盤面について深く速く読むこと

124 αβ 探索の並列化 αβ 探索の並列化は難しい枝刈りできるかどうかが過去の探索結果に依存するため完全読みでなければ Lazy SMP というよい手法がある
今回は完全読みなので YBWC や APHID という手法を使う

125 YBWC あるノードを探索するとき、ノードが「良い」順番なら、 α 値の更新は先頭ノードでしか起こらない仮定の元では、先頭ノード以外はどんな順番で探索しても良い先頭だけ直列で探索し、残りの探索を並列化する

126 ベンチマーク @4 コア 8 スレッド 0.01 0.1 1 10
100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

127 ベンチマーク @4 コア 8 スレッド 0.01 0.1 1 10
100 1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 1 〜 3 倍程度の高速化 (#47 等は除く )

128 APHID マスタースレッドとたくさんのワーカスレッドに分けるマスタースレッドは根に近い数段を探索する根から一定段数進んだら、ワーカーにその局面の探索を投げるマスタースレッド自身はワーカーの探索が終わるまでは評価関数を用いた推定値を使って探索を続けるマスタースレッドは繰り返し探索し、推定値を使わなくなったら終了

129 YBWC vs APHID コア数が少ない時： YBWC の方がよいコア数が多い時： APHID の方がよいはず…
現状では CPU 版 : YBWC GPU/PEZY-SC2 版 : APHID の亜種非同期にタスクを投げるのが難しいので亜種 FPGA 版 : APHID の予定

130 現状の進捗 6x6 オセロ初手からの 32 手完全読み CPU 版（評価関数なし） :
1 時間 34 分 GPU 版 : 43 分 PEZY-SC2 版 : 未実装（ GPU 版と同程度？） FPGA 版 : 未実装（ GPU 版よりかなり速いはず…）目標性能が出れば 1 秒未満で解けるが…

131 今後の展望まずは有名な定石や 6x8 オセロを解く評価関数の精度向上より「賢く」評価関数を使う並列化の効率向上 FPGA の利用

132 今後の展望 8x8 オセロを解くより精度の高い評価関数の作成（ Deep Learning? ）分散コンピューティングより賢い分散・並列化アリゴリズム

133 まとめ様々なテクニックにより探索を高速化出来たいろいろなハードウェアを検討し、ソルバーを実装した CPU, GPU, PEZY-SC/SC2, FPGA 探索の並列化アルゴリズムを実装したアーキテクチャやアルゴリズムは改善の余地あり
今後のそすうぽよ先生の進捗にご期待ください！

オセロを速く解く話/solveothello

オセロを速く解く話/solveothello

More Decks by prime number

Other Decks in Programming

Featured

Transcript