プログラムを高速化する話

プログラムを高速化する話 @KMC 春合宿 2015 KMC2 回生 prime

2 自己紹介第 37 代 KMC 会計（ 2014/02 〜 2015/01
） root （ 2013/11 〜）理学部数学系志望 ( もうすぐ系登録試験 ) 競技プログラミング練習会 GR-SAKURA で遊ぼうコーディング大海 KMC 学習発表会

3 自己紹介過去の KMC での活動難解プログラミング言語勉強会オセロの AI を作ろう 2048AI
コンテスト RICOH and Java Developer Challange Plus 2013/2014 KMC 流しそうめん KMC 静止そうめん KMC 鍋 prime/ 免許合宿

4 目次 1.はじめに / 最適化について 2.キャッシュを考慮した最適化 3.ビット演算による高速化 4.SIMD 命令による高速化

5 はじめに現代ではそこまで頑張ってプログラムを高速化する必要は無くなってきているコンピュータの性能向上・省電力化既存の高速なライブラリの充実クラウドコンピューティングの普及

6 はじめにほとんどの場合、既存のライブラリを用いたり、アルゴリズムを改良したりすることによって、必要なパフォーマンスを得ることが出来るそれで不十分でもクラウドコンピューティングによって金の力で殴れば何とかなることが多い

7 はじめにしかし、どうしてもプログラムを限界まで高速化したい場面も存在する利用できる計算資源が限られているとき消費電力を減らしたいとき時間制限のあるゲームの AI など、高速化するほど有利なとき
莫大な計算量がかかるとき

8 はじめに今後は「最適化」と「高速化」を同じ意味で使いますこの講座では高速であることが正義です、最適です今回は特に高い効果の得やすい 3 つの高速化技法について扱いますキャッシュを意識したプログラミングビット演算
SIMD 命令

9 今回の目標コンパイラ・ライブラリ・ CPU 等の高速化技術を上手く活用して楽に高速化するアルゴリズムの改良をしたり既存ライブラリ等を使ったりしても、必要なパフォーマンスが得られない時に、最後の手段として、手作業でプログラムを高速化するために必要なテクニックを学ぶ

10 最適化について手作業の泥臭い最適化をする前に、もっと高速なアルゴリズムがないかを考えるべきオーダーレベルで計算量が減れば、圧倒的に速くなる事が多い競技プログラミング練習会に参加しましょう！！！以後アルゴリズム的には最適（もしくは最適に近い）ものを利用していると仮定することにします

11 最適化について「細かい効率のことは忘れて、時間の 97% について考えよう。時期尚早な最適化は諸悪の根源だ。それでも残り 3% についても機会を逃すべきではない」 - Donald
E. Knuth 「プログラム最適化の第一法則 : 最適化するな。プログラム最適化の第二法則 ( 上級者限定 ): まだするな。」 - Michael A. Jackson

12 最適化について最適化は、コードを複雑にすることが多いので、コードの変更やデバッグを困難にするそのうえ、パフォーマンスに重大な影響を与えるコードは全体のうちのほんの僅かパフォーマンスに大きな影響を与えないコードを最適化してもほとんど意味がない

13 最適化の対象主に Intel の Haswell マイクロアーキテクチャ以降を対象多くのテクニックは他のプロセッサにも応用できますベースマイクロアーキテクチャ
プロセスルール登場年 Nehalem Nehalem 45nm 2008 〃 Westmere 32nm 2010 Sandy Bridge Sandy Bridge 32nm 2011 〃 Ivy Bridge 22nm 2012 Haswell Haswell 22nm 2013 〃 Broadwell 14nm 2014

14 開発環境 C++ を使用することを仮定します低レベルな処理もサポート高性能なコンパイラが存在メモリ管理をプログラム側から制御可能 C++ のコンパイラは GCC,
Clang 等が有名

15 Intel C/C++ Compiler Intel 謹製の C/C++ コンパイラ最適化能力が強いと言われている学生なら非営利目的に限り無料で入手可能
Intel Parallel Studio XE についてくる最新版は gcc 4.9 互換なので C++ の最新規格のサポートもぼちぼち

16 最適化手法を学ぶには最適化手法を学ぶにはどうすればよいか？

17 最適化手法を学ぶには「インテル ® 64 アーキテクチャーおよび IA-32 アーキテクチャー
最適化リフレンスマニュアル」 [0][1] を読め（完）

18 最適化手法を学ぶには「インテル ® 64 アーキテクチャーおよび IA-32 アーキテクチャー
最適化リフレンスマニュアル」 [0][1] を読め（完） PDF ファイルをインテルの公式サイトからダウンロードできます日本語訳もあるけどちょっと古い 700 ページ以上の超大作

19 用語の説明 CPU Central Processing Unit の略コンピュータなどにおいて中心的な処理装置として働く電子回路 (Wikipedia
より ) レジスタ CPU の中にある計算等に用いる容量の小さな記憶装置

20 手作業による最適化キャッシュを意識したプログラムビット演算の活用 SIMD 命令の活用その他の最適化

21 キャッシュを意識したプログラミングメモリアクセスの遅延とキャッシュ局所的でないメモリアクセスを避けるデータ構造を SoA にストリップマイニングブロック化

22 メモリアクセスの遅延メモリへのランダムアクセスは数十〜数百 cycle かかるレイテンシが大きいレジスタ上だけで計算が終わる場合に比べて単純計算で数十倍のレベルで遅くなるメモリアクセスが処理の律速になりやすい

23 メモリアクセスの遅延転送速度も足りないメモリ側は DDR4-4266 でも 34.1GB/s CPU 側は最大で読み込み 64Bytes/cycle
、書き込み 32Bytes/cycle なので、 CPU の動作周波数が 3GHz なら、読み込み 192GB/s 、書き込み 32Bytes/cycle 線形にアクセスする場合でも速度が足りない！

24 キャッシュメモリの導入メモリのうち、頻繁にアクセスする場所を高速でアクセスできる場所に保持しておく頻度に応じて複数段階のキャッシュが設けられる最近では 1 次〜 3 次までの
3 段階 4 次キャッシュを搭載したものもある

25 キャッシュ階層 1次キャッシュ 2次キャッシュ 3次キャッシュメインメモリ 4〜遅延(サイクル数) 11〜 20〜
40 高速大容量レジスタ数十〜

26 局所的でないメモリアクセスを避ける局所的でないメモリアクセスをすると、アクセスするデータがキャッシュに乗っている確率が低くなる例 ) 行列積 for (int i
= 0; i < ROWS; ++i) for (int j = 0; j < COLS; ++j) for (int k = 0; k < LEN; ++k) C[i][j] += A[i][k] * B[k][j]; 二次元配列 B に ROWS 要素飛びでアクセスしている

27 局所的でないメモリアクセスを避ける局所的でないメモリアクセスをすると、アクセスするデータがキャッシュに乗っている確率が低くなる例 ) 行列積 for (int i
= 0; i < ROWS; ++i) for (int k = 0; k < LEN; ++k) for (int j = 0; j < COLS; ++j) C[i][j] += A[i][k] * B[k][j]; 全ての配列に順番にアクセスするようになった入れ替えた

28 データ構造を SoA に大量のデータを順番に処理するとき、 AoS(Array of Structs; 構造体の配列 )
よりも、 SoA(Struct of Arrays; 配列の構造体 ) の方が高速に動作する可能性がある

29 データ構造を SoA に例 struct data { int a,
b, c; double x, y, z; } d_ary[SIZE]; // AoS int a[SIZE], b[SIZE], c[SIZE]; double x[SIZE], y[SIZE], z[SIZE]; //SoA

30 データ構造を SoA に a0 b0 c0 x0 y0 z0
a1 b1 c1 x1 y1 z1 a2 b2 c2 … SoAだと順番にaにアクセスすると6要素ごとになる AoSだと順番にaにアクセスすると連続した領域にアクセスできる SIMD命令を使いやすくなる a0 a1 a2 … b0 b1 b2 … c0 c1 c2 … x0 x1 x2 … y0 y1 y2 … z0 z1 z2 …

31 SoA のデメリットと対策多数の要素を読み取って計算しなければならない場合、キャッシュラインを使い尽くしてしまい、逆に遅くなる場合もある SoA と AoS の適切なハイブリッド構造にすることが必要
頻繁に同時にアクセスする要素を一つの構造体に、など

32 ストリップマイニング以下のコードを考える for (int i = 0; i <
SIZE; ++i) { hoge(A[i]); } for (int i = 0; i < SIZE; ++i) { fuga(A[i]); } 配列 A が十分長いとき、最初のループが終わった時点で、 A の先頭はキャッシュから排出されている

33 ストリップマイニングしたがって、 A は 2 回メインメモリから読み込まれることになり、効率が悪い一方で、 hoge
や fuga は SIMD 命令で並列に処理できるものとするここで、ループをキャッシュに乗るサイズに分割すると、 SIMD 命令を使いつつ、メインメモリへのアクセスを 1 回に減らせる

34 ストリップマイニング for (int i = 0; i < SIZE;
i += strip_size) { for (int j = i; j < min(SIZE, i+strip_size); ++j) { hoge(A[j]); } for (int j = i; j < min(SIZE, i+strip_size); ++j) { fuga(A[j]); } }

35 ブロック化次のコードを考える for (int i = 0; i <
SIZE; ++i) { for (int j = 0; j < SIZE; ++j) { A[i][j] += B[j][i]; } } B には飛び飛びのアクセスをしているので SIZE が大きいと毎回キャッシュミスが発生して効率が悪い

36 ブロック化ここで、ストリップマイニングの要領でループをキャッシュに乗るサイズに分ける Aへのアクセス Bへのアクセス

37 ブロック化ここで、ストリップマイニングの要領でループをキャッシュに乗るサイズに分けると、キャッシュミスが減る Aへのアクセス Bへのアクセス

38 ブロック化 for (int i = 0; i < SIZE;
i+=block_size) { for (int j = 0; j < SIZE; j+=block_size) { for (int ii = i; ii < i+block_size; ++ii) { for(int jj = j; jj < j+block_size; ++jj) { A[ii][jj] += B[jj][ii]; } } } }

39 ビット演算による最適化基礎知識ビット演算とは基本なビット演算ビット列の基本操作ビット演算テクニック集ビット演算関連の CPU 命令

40 基礎知識コンピュータ内部ではデータは 2 進数で管理されている 2 進数リテラルは C++ では 0b
のあとに続けて 0/1 を書くことで記述できる 1 0 1 1 1 0 0 1 1バイト = 8ビット 0b10111001

41 基礎知識符号なし整数は単純に 2 進数で表される 1 バイトなら 0 〜 255=2
-1 ⁸ 4 バイトなら 0 〜 4294967295=2³²-1 n バイトなら 0 〜 2^8n-1 0b10111001=185

42 基礎知識符号付き整数は一番上の桁が符号を表す ( 負の数なら 1) n ビット符号付き整数は、正の数なら符号なしと同じ負の数なら、 mod
2^n で同じになる正の数の 2 進数表記 0b10111001 を 1 バイト符号付き整数だとみなすと、 0b10111001+0b01000111=2⁸ なので、 0b10111001=-0b01000111=-71

43 基礎知識符号付き整数は一番上の桁が符号を表す ( 負の数なら 1) n ビット符号付き整数は、正の数なら符号なしと同じ負の数なら、 mod
2^n で同じになる正の数の 2 進数表記 1 バイトなら -128 〜 127 4 バイトなら -2147483648 〜 2147483647 n バイトなら -2^(n-1) 〜 2^(n-1)-1

44 基礎知識実数は 1.x×2^i の形の有理数に丸めて表現する丸める精度に応じてバリエーションがある単精度浮動小数型 4 バイト、 2
進数で 23 桁の精度、 ±10^±38 程度まで表現できる倍精度浮動小数型 8 バイト、 2 進数で 53 桁の精度、 ±10^±308 程度まで表現できる

45 ビット演算 2 進数の 0/1 の列を操作するような演算の総称ビット論理和ビット論理積ビット排他的論理和ビット否定
ビットシフト加減乗算などがビット列を操作するのに使われることも最近はビット列操作用の命令も追加されている

46 ビット演算のメリットビット演算自体が高速回路が単純なので、多くのプロセッサで高速に動作する一回の演算でビット幅分を一度に処理できるので高速 64bit なら 64 個の 0/1
を一括で処理できるビット単位にデータを詰めることで、メモリ使用量が減り、キャッシュヒット率が向上する

47 ビット配列整数等の配列を 0/1 の配列として利用するテクニック符号なし 64bit 整数 (uint64_t) の配列が一番扱いやすい
SIMD 命令とも相性がよく、高速化が期待できる

48 基本的なビット演算ビット論理和 OR (C 言語 : |) 片方でも 1
ならば 1 、そうでないなら 0 0 0 1 0 1 1 0 0 1 0 1 1 1 0 0 1 1 0 1 1 1 1 0 1 A B A OR B

49 基本的なビット演算ビット論理積 AND (C 言語 : &) 両方とも 1
ならば 1 、そうでないなら 0 0 0 1 0 1 1 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 0 0 A B A AND B

50 基本的なビット演算ビット排他的論理和 XOR (C 言語 : ^) 片方だけ 1
ならば 1 、そうでないなら 0 0 0 1 0 1 1 0 0 1 0 1 1 1 0 0 1 1 0 0 1 0 1 0 1 A B A XOR B

51 基本的なビット演算ビット否定 NOT (C 言語 : ~) 0/1 を反転する
0 1 0 0 0 1 1 0 1 0 1 1 1 0 0 1 A NOT A

52 基本的なビット演算ビットシフト (C 言語 : 左シフト <<, 右シフト >>)
0/1 列を右や左にシフトする左シフトが上の桁の方にシフトする 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 1 A A << 2 シフトしたときに詰める数字によっていくつかバリエーションが存在する

53 C 言語でのビット演算 // ビット演算は整数型に対してのみ使える A = B & C;
A &= B; A = B << 4; // 下位ビットには 0 が詰められる A <<= 4; A = ~B; // 符号なし 64 ビットリテラルを扱うとき A = UINT64_C(0xCCCCCCCCCCCCCCCC);

54 ビット列の基本的操作特定のビットを操作するビットを立てるビットを下ろすビットを反転するビットの値を取得するマスク

55 特定のビットを操作する UINT64_C(1) << index で index ビット目のみ立った数を表せる //A
の index ビット目を操作する A |= UINT64_C(1) << index; // ビットを立てる A &= ~(UINT64_C(1) << index); // ビットを下ろす A ^= UINT64_C(1) << index; // ビットを反転する result = (A >> index) & 1; // ビットの値を取得する

56 マスク // 奇数ビット目をクリア // 0x5 = 0b0101 A &=
UINT64_C(0x5555555555555555); // 偶数ビットなら 0xAAA... = 0b1010... // 2 ビットごとに交互にクリアするなら 0xCCC...=0b11001100...

57 ビット演算テクニック集立っているビットの数を数える (popcount) ビット列のハミング距離立っている一番下のビットを求める立っているビット列を走査する立っている一番上のビットを求めるビット列の並びを反転する

58 ビット演算テクニック集部分集合の列挙ビット列を一部だけスワップするビット列の指定した場所を詰めて並べる

59 立っているビットの数を数える (popcount) 1 0 1 1 1 0 0
1 1 1 1 0 1 1 1 0 A A&0xAA (A&0xAA) >> 1 0 1 0 1 A&0x55 0 1 1 0 0 1 0 1 ((A&0xAA) >> 1) + (A&0x55) 2ビットごとの立っているビットの数の和

1 0 1 0 1 0 1 0 1 A' A'&0xCC (A'&0xCC) >> 2 1 0 0 1 A'&0x33 0 0 1 1 0 0 1 0 ((A'&0xCC) >> 2) + (A'&0x33) 4ビットごとの立っているビットの数の和

0 0 0 1 1 0 0 1 1 A'' A''&0xF0 (A''&0xF0) >> 4 0 0 1 0 A''&0x0F 0 0 0 0 0 1 0 1 ((A''&0xF0) >> 4) + (A''&0x0F) 8ビット全体の立っているビットの数の和

62 ビット列のハミング距離を求めるハミング距離：同じ長さの配列の対応する位置にある、異なった値を持つ要素の数 0 0 1 0 1 1
0 0 1 0 1 1 1 0 0 1 A B Hamming(A, B) = 4 ≠ ≠ ≠ ≠ = = = =

63 ビット列のハミング距離を求める // ビット列のハミング距離は XOR の popcount で求まる Hamming(A, B)
= popcount(A ^ B);

64 複数のビットから成るデータの配列の　ハミング距離を求める例えば、 2 ビットから成るデータの配列のハミング距離を求めるとき、 for (int i
= 0; i < ARY_SIZE; ++i) { uint8_t C = A[i] ^ B[i]; //8 ビットの場合 C = ((C & 0xAA) >> 1) | (C & 0x55); result += popcount(C); }

65 立っている一番下のビットを求める B = A & -A; 1 0 1
1 1 0 0 0 A 0 1 0 0 1 0 0 0 -A 0 0 0 0 1 0 0 0 A & -A -A = ~A + 1であることを利用

66 立っている一番下のビットを中心に操作 A & (A – 1); // 立っている一番下のビットをクリア A
^ -A; // 立っている一番下のビットより上の桁を 1 に A | -A; // さらに立っている一番下のビットも 1 に // 立っている一番下のビットより下の桁を 1 に A ^ (A – 1)

67 立っているビット列を走査する // i &= i-1 で i の立っている一番下のビットをクリア for
(uint64_t i = bits; i != 0; i &= i-1) { uint64_t rmb = i & -i; // 何らかの処理 } 立っているビットの数が少ない場合には、この方法でも立っているビットの数を高速に数えられる

68 立っている一番上のビットを求める二分探索で求める 0 0 1 1 1 0 0
1 A 0 0 1 1 A&0xF0 != 0 立っている一番上のビットは上4桁にある

69 立っている一番上のビットを求める二分探索で求める 0 0 1 1 B=A&0xF0 立っている一番上のビットは上から0,1,4,5桁目にはない B&0xCC
0 0 0 0 = 0

70 立っている一番上のビットを求める二分探索で求める 0 0 1 1 C=B 立っている一番上のビットは上から0,2,4,6桁目にある C&0xAA
0 1 0 0 != 0

71 立っている一番上のビットを求める // 8 ビットの場合 A = (A & 0xF0)
? (A & 0xF0) : A; A = (A & 0xCC) ? (A & 0xCC) : A; A = (A & 0xAA) ? (A & 0xAA) : A;

72 ビット列の並びを反転する上位ビットを下に、下位ビットを上に持ってくる 1 0 1 1 1 0 0
1 A 1 0 0 1 1 1 0 1 Aの反転

73 ビット列の並びを反転する分割統治法を用いる 1 0 1 1 1 0 0
1 A 1 0 0 1 1 0 1 1 (A>>4) | (A<<4)

1 A 1 0 0 1 1 0 1 1 B=(A>>4) | (A<<4) 0 1 1 0 1 1 1 0 ((B&0xCC)>>2) | ((B&0x33)<<2)

1 A 1 0 0 1 1 0 1 1 B=(A>>4) | (A<<4) 0 1 1 0 1 1 1 0 C=((B&0xCC)>>2) | ((B&0x33)<<2) ((C&0xAA)>>1) | ((C&0x55)<<1) 1 0 0 1 1 1 0 1

1 A 1 0 0 1 1 1 0 1 Aの反転

77 ビット列を一部だけスワップする Delta Swap という手法長さが等しく、重複のないビット列をスワップする * * * A
B C * * * a b c * * * * この幅をdeltaとする 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 x mask ABCとabcをスワップする deltaとmaskを予め求めておく

B C * * * a b c * * * * 0 0 0 0 0 0 0 0 0 P Q R 0 0 0 0 x b := (x ^ (x >> delta)) & mask P = A^a, Q = B^b, R = C^cとなる b

B C * * * a b c * * * * 0 0 0 P Q R 0 0 0 P Q R 0 0 0 0 x ABCとabcが入れ替わった（他のビットは変化なし） c := b ^ (b << delta) c * * * a b c * * * A B C * * * * c ^ x

80 ビット列の指定した場所を詰めて並べる 64bit 整数で 8x8 の 2 次元データを表現するとするオセロやチェスなどの盤面の状態、など 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

81 ビット列の指定した場所を詰めて並べる斜めの効きを調べたいときに下のようなビットを整列して並べたい 14 17 21 26 28 42
44 49 53 17 26 44 53 49 42 28 21 14

82 ビット列の指定した場所を詰めて並べる delta swap などを使えば、一応実現可能だが、もっと高速な方法が存在する 14 17 21 26
28 42 44 49 53 17 26 44 53 49 42 28 21 14

83 magic bitboard 実はビットの配置ごとに適切に選んだ整数 magic を掛けてやると 1 列に並ぶ magic
bitboard として知られている 14 17 21 26 28 42 44 49 53 17 26 44 53 49 42 28 21 14 * magic ) >> some = (

84 magic bitboard チェスのそれぞれの駒の効きの範囲に対する magic number は既に知られているそうでないようなビット配置に対しては、自分で一々 magic number
を求めなければならないあとで述べる pext 命令の追加により実質役割を終えた

85 ビット演算関連の CPU 命令 bts, btr, btc, bt blsi, blsmsk,
blsr, tzcnt lzcnt bzhi bextr pext pdep

86 bts, btr, btc, bt 特定のビットを操作する命令 bts unsigned char _bittestandset(
__int32* a, __int32 b); unsigned char _bittestandset64( __int64* a, __int64 b); 特定のビットを立て、立てる前のそのビットの状態を返す btr: ビットを下ろす btc: ビットを反転する bt: ビットを取得する

87 blsi, blsmsk, blsr, tzcnt 立っている一番下のビット関連の操作をする命令 blsi: A & -A
と同じ。立っている一番下のビットを求める blsmsk: A ^ -A と同じ。立っている一番下のビットより上のビットを 1 にした数を求める blsr: A & (A-1) と同じ。立っている一番下のビットを 0 にした数を求める。 tzcnt: 立っている一番下のビットの桁数を求める

88 lzcnt, bzhi lzcnt 立っている一番上のビットの上にある 0 の数を数える bzhi src の下
n 桁を dest に代入する

89 bextr bextr start, len を指定して図のような操作をした結果を返す 0 1 0 0
1 0 1 1 0 1 0 1 1 1 1 0 start len 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 len

90 pext mask で指定した位置にあるビットを下から詰めて並べる 1 0 1 1 1 0
1 1 mask 0 1 0 1 0 0 1 1 src 0 0 0 0 1 0 1 1 結果

91 pdep mask で指定した位置にビットを入れていく pext のだいたい逆の操作ができる 1 0 1 1
1 0 1 1 mask 0 1 0 1 0 0 1 1 src 0 0 1 0 0 0 1 1 結果

92 SIMD 命令による最適化 SIMD 命令とは SIMD 命令が使える場合 SIMD 命令の使い方 SIMD
プログラミングにおけるポイントメモリアラインメントマスクによる条件分岐の除去その他 SIMD 命令で可能なこと AVX-512 について

93 SIMD 命令とは SIMD(Single Instruction Multiple Data の略 ) 一つの命令で複数のデータを処理する
AVX 命令セットでは一度に 256bit(32Bytes) のデータを一括で処理できる単精度浮動小数 x8 倍精度浮動小数 x4 1/2/4/8Bytes 整数 x32/16/8/4

94 SIMD 命令とは A[0] A[1] A[2] A[3] B[0] B[1] B[2]
B[3] A[0]+B[0] A[1]+B[1] A[2]+B[2] A[3]+B[3] ＋ 256ビット

95 SIMD 命令が使える場合データがメモリ上で連続しているそのデータに対しそれぞれ同じ、または似た操作をするという条件を満たさなければならない実際には、データが連続していなくても、近くにまとまっていれば、ギャザー命令を利用して一気にに計算可能だが、ギャザー命令は遅延が大きい

96 SIMD 命令の使い方 •既に最適化されたライブラリを使う ( 割愛 ) •自動ベクトル化の機能のあるコンパイラでコンパイル •AVX の
C++ ベクトルクラス •SIMD 組み込み関数の利用 •アセンブリ言語

97 自動ベクトル化コンパイラによっては適切なコンパイルオプションを指定することによって、演算を SIMD 命令に変換してくれる icc なら -xAVX を指定すると
AVX 命令を使ってくれるしかし、どんな場合も SIMD 命令に変換してくれるわけではないそのときは、残り 3 通りのいずれかの方法を用いる

98 AVX の C++ ベクトルクラス F64vec4/F32vec8 といったクラスが用意されているいい感じに算術演算子と添字演算子がオーバーロードされている

99 SIMD 組み込み関数の利用 #include “immintrin.h” で使えるようになる単精度浮動小数 x8 型 __m256
倍精度浮動小数 x4 型 __m256d 整数 x4/8/16/32 型 __m256i __m256d resv = _mm256_add_pd(a, b); のように使う今回は主に SIMD 組み込み関数を利用していきます

100 アセンブリ言語コンパイラはなるべく一般的な最適化をしようとするので、特殊な状況では最適でないプログラムを出力することがあるそのような場合の最終手段として直接アセンブリ言語を書いてプログラミングすることが考えられるただし、多くの場合人間よりコンパイラのほうが賢い最適化をするので、プロファイラなどによりパフォーマンスが向上するとわかった時のみ行うべき

101 SIMD 組み込み関数の利用例配列 A の各要素に配列 B の対応する要素を加算した結果を配列 C
に格納する。配列の長さは 4 の倍数、 A,B,C はすべて倍精度浮動小数型 for (int i = 0; i < SIZE/4; ++i) { __m256d va = _mm256_load_pd(A+4*i); __m256d vb = _mm256_load_pd(B+4*i); __m256d res = _mm256_add_pd(va, vb); _mm256_store_pd(C+4*i, res); }

102 SIMD 組み込み関数の使い方の基本メモリ上からデータを取ってくるには _mm256_load* メモリ上にデータを書き込むには _mm256_store* _mm256_( 動作 )_(
型 ) となっていることが多い型には ps: 単精度浮動小数 x8 pd: 倍精度浮動小数 x4 epi8/16/13/64: 8/16/32/64 バイト整数 x32/16/8/4

103 Intel Intrinsics Guide https://software.intel.com/sites/landingpage/Intrinsic sGuide/ SIMD 組み込み関数を中心とした各種 CPU 命令の組み込
み関数のリファレンス拡張の種類や命令のタイプで絞ったり検索したりできる便利！！！

104 SIMD プログラミングにおけるポイントデータを 32 バイトアラインメントに合わせる合っていないと実行速度が低下する同時にたくさんの処理が行える分、メモリアクセスが律速になりやすいキャッシュを考慮したプログラミング
ループ中に条件分岐があるとベクトル化できないマスクを有効活用するなどして条件分岐を除去する

105 メモリアラインメント静的確保 alignas(32) uint64_t ary[SIZE]; ary の先頭は 32 バイト境界に合わせられる

106 メモリアラインメント動的確保メモリを動的確保する場合は __alignas は使えない void *_mm_malloc(size_t size, size_t
align); size バイトの領域を確保。返されるポインタのアドレスは align の倍数になる _mm_malloc で確保したメモリは _mm_free で開放する他にも posix_memalign/aligned_alloc を使う方法や std::align を使う方法もある

107 マスクによる条件分岐の除去 __m256i _mm256_cmpeq_epi8(__m256i, __m256i); 各バイトを比較して等しいなら FF 、異なるなら 00 を各
バイトに入れて返す eq （等しい） /gt （大きい）、 epi8/16/32/64 （ 1/2/4/8 バイト）のバリエーションが存在する

108 マスクによる条件分岐の除去等しくないなら〜〜の場合は eq のビットを反転させれば良い＜＞≦≧の 4 種類の不等号もビットを反転させたり左右を入れ替えたりすれば実現可能
浮動小数点型の場合は組み込み関数にどのような比較をするかを指定して渡せる

109 マスクによる条件分岐の除去 SIMD 比較命令によりマスクを作る演算対象と AND をとったりして正しい結果が得られるようにする

110 マスクによる条件分岐の除去例 ) for (int i = 0; i
< SIZE; ++i) { if (a[i] > b[i]) { c[i] += a[i]; } } 条件分岐が入っているのでこのままでは並列に足し算できない

< SIZE/32; ++i) { __m256i va = _mm256_load_si256((__m256i*)(A+32*i)); __m256i vb = _mm256_load_si256((__m256i*)(B+32*i)); __m256i mask = _mm256_cmpgt_epi8(va, vb); va = _mm256_and_si256(va, mask); __m256i vc = _mm256_load_si256((__m256i*)(C+32*i)); vc = _mm256_add_epi8(vc, va); _mm256_store_si256((__m256i*)(C+32*i), vc); }

116 その他 SIMD 命令で可能なこと複素数の計算水平加算（隣合う要素と足し算する）などを利用すると、愚直にやるより高速に計算できるバイト列の並び替えシャッフル命令によりバイト列を逆順に並び替えたり、より複雑な並び替えが高速に行える
数学関連の関数の値の計算三角関数や指数関数などを並列に計算できる命令がある

117 AVX-512 について Broadwell の次の Skylake で Xeon( サーバー向けプロセッサ
) に AVX-512 拡張命令が追加される予定一度に 512 ビット扱えるだけでなく、ほぼすべての命令にマスクを掛けることが出来るようになる各種の便利命令がてんこ盛り Core i3/5/7 等には Skylake の次の Cannonlake で入る？

118 今日触れられなかった内容並列実行時における最適化アウト・オブ・オーダーやスーパースカラーを意識した命令の選択プリフェッチ命令

119 まとめ今回は 3 つの最適化手法について解説したキャッシュを意識したプログラミングビット演算 SIMD 命令いずれの手法も上手く使えれば数倍〜数十倍の高速化が
見込める

120 参考文献等 [0] インテル ® 64 アーキテクチャーおよび IA-32 アーキテクチャー最適化リファレンス・マニュアル
http://www.intel.co.jp/content/dam/www/public/ijkk/jp/ja/do cuments/developer/248966-024JA.pdf [1] 英語の最新版 http://www.intel.co.jp/content/dam/www/public/us/en/docum ents/manuals/64-ia-32-architectures-optimization-manual.pdf [2] Intel Intrinsics Guide https://software.intel.com/sites/landingpage/Intrin sicsGuide/

121 参考文献等 [3] Intel® Architecture Instruction Set Extensions Programming Reference
https://software.intel.com/sites/default/files/managed/0d/53/ 319433-022.pdf [4] Intel® 64 and IA-32 Architectures Software Developer’s Manual http://www.intel.co.jp/content/dam/www/public/us/en/docu ments/manuals/64-ia-32-architectures-software-developer- manual-325462.pdf [5] CPU – Wikipedia http://ja.wikipedia.org/wiki/CPU

122 参考文献等 [6] Chess Programming Wiki https://chessprogramming.wikispaces.com/

プログラムを高速化する話

プログラムを高速化する話

More Decks by prime number

Other Decks in Programming

Featured

Transcript