画像処理アルゴリズムの高速化2 / CUDA Acceleration Seminar5 20220929

Copyright© Fixstars Group 本日のAgenda • はじめに • フィックスターズの紹介 • 画像処理アルゴリズムの高速化1
のおさらい • バイラテラルフィルタ高速化 • 転置 • リダクション • まとめ 2

Copyright© Fixstars Group 本講演の位置づけ • CUDAに関連する様々な技術情報を、CUDA高速化セミナーとして発信しています • 今回は、vol.1で解説したデータ転送・カーネルを書く上での基本を踏まえ、CUDA 特有の計算方法を使った、バイラテラルフィルタ、転置、リダクションの実装例を紹介します
• こんな方に向いています ◦ これから CUDA を使った画像処理をしてみたい ◦ CUDA カーネルを高速化したい 4 • vol.1 画像処理アルゴリズムの高速化 • vol.2 CUDAアーキテクチャの進化 • vol.3 ソフトウェア高速化と深層学習 • vol.4 TensorRT化のワークフロー事例紹介

Copyright© Fixstars Group 発表者紹介冨田明彦ソリューションカンパニー執行役員 2008年に入社。金融、医療業界において、ソフトウェア高速化業務に携わる。その後、
新規事業企画、半導体業界の事業を担当し、現職。 5 上野晃司ソリューション第一事業部エグゼクティブエンジニア 2016年に入社。スパコンのベンチマーク Graph500を「京」「富岳」向けに最適化し世界１位を達成。CUDAやOpenCLを使った画像処理高速化を担当。

Copyright© Fixstars Group フィックスターズの強みコンピュータの性能を最大限に引き出す、ソフトウェア高速化のエキスパート集団ハードウェアの知見アルゴリズム実装力各産業・研究分野の知見 7 目的の製品に最適なハードウェアを見抜
き、その性能をフル活用するソフトウェアを開発します。ハードウェアの特徴と製品要求仕様に合わせて、アルゴリズムを改良して高速化を実現します。開発したい製品に使える技術を見抜き、実際に動作する実装までトータルにサポートします。

Copyright© Fixstars Group サービス概要お客様専任のエンジニアが直接ヒアリングを行い、高速化を実現するために乗り越えるべき課題や問題を明確にしていきます。高速化のワークフローコンサルティング先行技術調査性能評価・ボトルネックの特定
高速化アルゴリズムの改良・開発ハードウェアへの最適化レポート作成サポートレポートやコードへのQ&A 実製品への組込み支援 8

Copyright© Fixstars Group サービス提供分野 9 半導体自動車産業機器生命科学金融
• NAND型フラッシュメモリ向けファームウェア開発 • 次世代AIチップの開発環境基盤 • 自動運転の高性能化、実用化 • 次世代パーソナルモビリティの研究開発 • Smart Factory実現への支援 • マシンビジョンシステムの高速化 • ゲノム解析の高速化 • 医用画像処理の高速化 • AI画像診断システムの研究開発 • デリバティブシステムの高速化 • HFT(アルゴリズムトレード)の高速化

Copyright© Fixstars Group サービス領域様々な領域でソフトウェア高速化サービスを提供しています。大量データの高速処理は、お客様の製品競争力の源泉となっています。 10 組込み高速化画像処理・アルゴリズム開発
分散並列システム開発 GPU向け高速化 FPGAを活用したシステム開発量子コンピューティング AI・深層学習自動車向けソフトウェア開発フラッシュメモリ向けファームウェア開発

Copyright© Fixstars Group 画像処理アルゴリズム開発高速な画像処理需要に対して、経験豊富なエンジニアが責任を持って製品開発をご支援します。お客様の課題高度な画像処理や深層学習等のアルゴリズムを開発できる人材が社内に限られている機能要件は満たせそうだが、ターゲット機器
上で性能要件までクリアできるか不安製品化に結びつくような研究ができていないご支援内容深層学習ネットワーク精度の改善様々な手法を駆使して深層学習ネットワークの精度を改善論文調査・改善活動論文調査から最先端の手法の探索性能向上に向けた改善活動を継続アルゴリズム調査・改変課題に合ったアルゴリズム・実装手法を調査製品実装に向けて適切な改変を実施 11

Copyright© Fixstars Group GPU向け高速化高性能なGPUの本来の性能を十分に引き出し、ソフトウェアの高速化を実現します。お客様の課題 GPUで計算してみたが期待した性能が出ない GPU/CPUを組み合わせた全体として最適な設計がしたい
ご支援内容 GPU高速化に関するコンサルティング CPU・GPU混在環境でのシステム設計アルゴリズムのGPU向け移植 GPUプログラム高速化継続的な精度向上原価を維持したまま機能を追加するため、もう少し処理を速くしたい品質確保のため、精度を上げたく演算量は増えるが性能は維持したい 12

Copyright© Fixstars Group AI・深層学習向け技術支援 AIを使うためのハードウェア選定や、高速な計算を実現するソフトウェア開発技術で、お客様の製品開発を支援します。お客様の課題推論精度を維持したまま計算時間を短縮したい組込みデバイス向けにAIモデルを軽量化
したいご支援内容 AIモデル設計データの前処理・後処理推論精度の改善分散処理による学習高速化モデル圧縮・推論の高速化学習計算を高速化して研究開発を効率化したい精度と計算時間を両立するAIモデルを開発したい 13

Copyright© Fixstars Group ガウシアンフィルタCUDA化スレッド割り当てブロック (0,0) ブロック (0,1) ブロック
(0,2) ブロック (0,3) ブロック (0,4) ブロック (1,0) ブロック (1,1) ブロック (1,2) ブロック (1,3) ブロック (1,4) ブロック (2,0) ブロック (2,1) ブロック (2,2) ブロック (2,3) ブロック (2,4) ブロック (3,0) ブロック (3,1) ブロック (3,2) ブロック (3,3) ブロック (3,4) 32 32 • 1スレッドが出力1 ピクセルを担当 • ブロックの最大スレッド数は1024なので、１ブロック 32x32(=1024スレッド)に設定 • 画像全体を覆うようにブロックを起動する 17

Copyright© Fixstars Group 本日説明するコード • ↓ここにあります • https://github.com/ﬁxstars/CudaOptimizeSample/blob/master/CudaO ptimizeSample/kernel.cu •
（前回と同じファイルです） 18

Copyright© Fixstars Group __global__ void BilateralKernelSimple( const uint8_t *src, uint8_t
*dst, int width, int height, int step, float sigma) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; if (x < width && y < height) { float coef = 1.0 / sqrtf(2 * 3.1415926f * sigma * sigma); float coef2 = -1.0 / (2 * sigma * sigma); float c_sum = 0; float f_sum = 0; int val0 = src[x + y * step]; for (int dy = 0; dy < 3; ++dy) { for (int dx = 0; dx < 3; ++dx) { int val = src[(x + dx) + (y + dy) * step]; int diff = val - val0; float w = filter3[dy][dx] * coef * expf(diff * diff * coef2); f_sum += w; c_sum += w * val; } } dst[x + y * step] = (int)(c_sum / f_sum + 0.5f); }} 必ず”f”を付ける。付けないと doubleの演算になって、Tesla以外では、かなり遅くなるので注意重みの計算 21

Copyright© Fixstars Group __global__ void BilateralKernelSimple( const uint8_t *src, uint8_t
*dst, int width, int height, int step, float sigma) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; if (x < width && y < height) { float coef = 1.0 / sqrtf(2 * 3.1415926f * sigma * sigma); float coef2 = -1.0 / (2 * sigma * sigma); float c_sum = 0; float f_sum = 0; int val0 = src[x + y * step]; for (int dy = 0; dy < 3; ++dy) { for (int dx = 0; dx < 3; ++dx) { int val = src[(x + dx) + (y + dy) * step]; int diff = val - val0; float w = filter3[dy][dx] * coef * expf(diff * diff * coef2); f_sum += w; c_sum += w * val; } } dst[x + y * step] = (int)(c_sum / f_sum + 0.5f); }} 割り算、sqrt 割り算 exp 割り算重い演算が多い 23

Copyright© Fixstars Group __global__ void BilateralKernelFast( const uint8_t *src, uint8_t
*dst, int width, int height, int step, float sigma) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; if (x < width && y < height) { float coef = __frsqrt_rn(2 * 3.1415926f * sigma * sigma); float coef2 = __frcp_rn(-2 * sigma * sigma); float c_sum = 0; float f_sum = 0; int val0 = src[x + y * step]; for (int dy = 0; dy < 3; ++dy) { for (int dx = 0; dx < 3; ++dx) { int val = src[(x + dx) + (y + dy) * step]; int diff = val - val0; float w = filter3[dy][dx] * coef * __expf(diff * diff * coef2); f_sum += w; c_sum += w * val; } } dst[x + y * step] = (int)(__fdividef(c_sum, f_sum) + 0.5f); }} 1/sqrtf(x) のintrinsic 1/x のintrinsic expf(x) の高速版 x/y の高速版 24

Copyright© Fixstars Group バイラテラルフィルタ高速化高速版の誤差 https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#intrinsic-functions ulp = Unit in
the last place 25

Copyright© Fixstars Group バイラテラルフィルタ高速化   バイラテラルフィルタ計算時間 (ms)  最適化前  2.48 
最適化後  1.63  最適化前  最適化後  26

Copyright© Fixstars Group 転置単純に書いてみる __global__ void TransposeKernelSimple( const uint8_t
*src, uint8_t *dst, int width, int height) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; if (x < width && y < height) dst[y + x * height] = src[x + y * width]; } xとyを逆にするだけ 29

Copyright© Fixstars Group 転置カーネルプロファイル Loadに比べてStoreの L2⇔DRAM Transactionがかなり多いメモリがネック
30

Copyright© Fixstars Group 転置単純に書いてみる __global__ void TransposeKernelSimple( const uint8_t
*src, uint8_t *dst, int width, int height) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; if (x < width && y < height) dst[y + x * height] = src[x + y * width]; } 書き込みが全くコアレスアクセスになっていない 31

Copyright© Fixstars Group 転置単純に書いてみるメモリ連続方向メモリ連続方向 Warpのアクセスするメモリコアレスアクセスになっている完全に飛び飛びのアクセス
Load Store NG！ 32

Copyright© Fixstars Group 転置 Shared Memoryを使う Warpのアクセスするメモリ Shared Memory Shared
Memory 同じメモリ書き込みもコアレスアクセスでできるようにするメモリ連続方向メモリ連続方向 33

Copyright© Fixstars Group __global__ void TransposeKernelShared( const uint8_t *src, uint8_t
*dst, int width, int height) { int tx = threadIdx.x; int ty = threadIdx.y; int xbase = blockIdx.x * blockDim.x; int ybase = blockIdx.y * blockDim.y; __shared__ uint8_t sbuf[16][16]; { int x = xbase + tx; int y = ybase + ty; if (x < width && y < height) sbuf[ty][tx] = src[x + y * width]; } __syncthreads(); { int x = xbase + ty; int y = ybase + tx; if (x < width && y < height) dst[y + x * height] = sbuf[tx][ty]; }} 転置 Shared Memoryを使う書き込みもコアレスアクセスでできるようにする一旦Shared Memoryに格納 34

Copyright© Fixstars Group 転置 Shared Memoryを使う LoadとStoreで L2⇔DRAM Transactionが同じになった
メモリネックでなくなった 35

Copyright© Fixstars Group 転置 Shared Memoryを使う計測環境 CPU: Core i7-8700
3.2GHz (6コア 12スレッド) GPU: GeForce RTX 2060 計測条件 6720x4480の画像(グレースケール)を処理計算時間のみで、データ転送やメモリ確保などの時間を含めず 36

Copyright© Fixstars Group 転置 Shared Memoryを使う • ただし、Shared Memory のバンクコンフリクトが発生している
37

Copyright© Fixstars Group __global__ void TransposeKernelFast( const uint8_t *src, uint8_t
*dst, int width, int height){ int tx = threadIdx.x; int ty = threadIdx.y; int xbase = blockIdx.x * blockDim.x; int ybase = blockIdx.y * blockDim.y; __shared__ uint8_t sbuf[16][16+4]; { int x = xbase + tx; int y = ybase + ty; if (x < width && y < height) sbuf[ty][tx] = src[x + y * width]; } __syncthreads(); { int x = xbase + ty; int y = ybase + tx; if (x < width && y < height) dst[y + x * height] = sbuf[tx][ty]; }} 転置バンクコンフリクト回避パディングを追加 Shared Memoryのバンクは 4バイトインターリーブされているので、 4バイトパディングを追加する 38

Copyright© Fixstars Group 転置バンクコンフリクト回避計測環境 CPU: Core i7-8700 3.2GHz
(6コア 12スレッド) GPU: GeForce RTX 2060 計測条件 6720x4480の画像(グレースケール)を処理計算時間のみで、データ転送やメモリ確保などの時間を含めず 40

Copyright© Fixstars Group __global__ void TransposeKernelFast2( const uint8_t *src, uint8_t
*dst, int width, int height){ int tx = threadIdx.x; int ty = threadIdx.y; int xbase = blockIdx.x * 32; int ybase = blockIdx.y * 32; __shared__ uint8_t sbuf[32][32+4]; { int x = xbase + tx; if (x < width) { int yend = min(ybase + 32, height); for (int tyy = ty, y = ybase + ty; y < yend; tyy += 8, y += 8) { sbuf[tyy][tx] = src[x + y * width]; }}} __syncthreads(); { int y = ybase + tx; if (y < height) { int xend = min(xbase + 32, width); for (int tyy = ty, x = xbase + ty; x < xend; tyy += 8, x += 8) { dst[y + x * height] = sbuf[tx][tyy]; }}}} 転置 1スレッドあたり処理量を増やす１スレッドが4要素処理するように修正 42

Copyright© Fixstars Group リダクション Y軸リダクション • 1スレッド１列担当 • コアレスアクセスになっていることに注意 __global__
void ReduceHKernelSimple( const uint8_t *src, float *dst, int width, int height) { int x = blockIdx.x * blockDim.x + threadIdx.x; if (x < width) { float sum = 0; for (int y = 0; y < height; ++y) { sum += src[x + y * width]; } dst[x] = sum; } } Y軸リダクション 46

Copyright© Fixstars Group リダクション Y軸リダクション • 列を分割して並列数を増やす ◦ 1列1スレッド→ceil(行数/128)スレッド __global__
void ReduceHKernelFast( const uint8_t *src, float *dst, int width, int height) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * 128; if (x < width) { float sum = 0; for (int yend = min(y + 128, height); y < yend; ++y) { sum += src[x + y * width]; } atomicAdd(&dst[x], sum); } } 128行ごとに分割して処理する dstはこのカーネルを呼び出す前にゼロ初期化しておく 48

Copyright© Fixstars Group リダクション X軸リダクション • Y軸リダクションと同じように実装 X軸リダクション __global__ void
ReduceWKernelSimple( const uint8_t *src, float *dst, int width, int height) { int y = blockIdx.x * blockDim.x + threadIdx.x; int x = blockIdx.y * 128; if (y < height) { float sum = 0; for (int xend = min(x + 128, width); x < xend; ++x) { sum += src[x + y * width]; } atomicAdd(&dst[y], sum); } } 50

Copyright© Fixstars Group リダクション X軸リダクション • Y軸リダクションと同じように実装 • 2.39ms …遅い
X軸リダクション   X軸リダクション時間 (ms)  Y軸と同じ方法  2.39    Y軸リダクション時間 (ms)  1列1スレッド  0.28  列も分割  0.115  参考 51

Copyright© Fixstars Group リダクション X軸リダクション __global__ void ReduceWKernelSimple( const uint8_t
*src, float *dst, int width, int height) { int y = blockIdx.x * blockDim.x + threadIdx.x; int x = blockIdx.y * 128; if (y < height) { float sum = 0; for (int xend = min(x + 128, width); x < xend; ++x) { sum += src[x + y * width]; } atomicAdd(&dst[y], sum); } } このアクセスが全くコアレスアクセスでない 52

Copyright© Fixstars Group リダクションパラレルリダクション • 1行を1ブロックが担当 __global__ void ReduceWKernelFast(
const uint8_t *src, float *dst, int width, int height) { int tid = threadIdx.x; int y = blockIdx.y; __shared__ float sbuf[512]; float sum = 0; for (int x = tid; x < width; x += 512) { sum += src[x + y * width]; } sbuf[tid] = sum; __syncthreads(); sum = ReduceFunc(tid, sbuf); if (tid == 0) dst[y] = sum; } 512要素までのリダクションは普通にスレッドごとに計算 1ブロック512スレッドでコードを書いた場合 Shared Memoryに書いてパラレルリダクションを呼び出す 55

Copyright© Fixstars Group リダクションパラレルリダクション __device__ float ReduceFunc(int tid, float*
buf) { if (tid < 256) { buf[tid] += buf[tid + 256]; } __syncthreads(); if (tid < 128) { buf[tid] += buf[tid + 128]; } __syncthreads(); if (tid < 64) { buf[tid] += buf[tid + 64]; } __syncthreads(); float sum; if (tid < 32) { sum = buf[tid] + buf[tid + 32]; sum += __shfl_down_sync(0xffffffff, sum, 16); sum += __shfl_down_sync(0xffffffff, sum, 8); sum += __shfl_down_sync(0xffffffff, sum, 4); sum += __shfl_down_sync(0xffffffff, sum, 2); sum += __shfl_down_sync(0xffffffff, sum, 1); } return sum; } 32スレッドまでは __syncthreads()を使って計算 32スレッドになったら、Warp Shuffleで計算 56

Copyright© Fixstars Group 本セミナーのまとめ • バイラテラルフィルタ高速化 ◦ CUDA組み込み関数を使って演算を軽量化 • 転置
◦ Shared Memoryを使ったメモリアクセス最適化 ◦ バンクコンフリクト回避 • リダクション ◦ X軸、Y軸方向のリダクション ◦ メモリのアクセス方向を意識した計算 ◦ 水平方向のリダクションを高速に行うパラレルリダクション 58

画像処理アルゴリズムの高速化2 / CUDA Acceleration Seminar5 20...

画像処理アルゴリズムの高速化2 / CUDA Acceleration Seminar5 20220929

More Decks by 株式会社フィックスターズ

Other Decks in Programming

Featured

Transcript