OpenCL Programming for FPGA

OpenCL Programming for FPGA 株式会社フィックスターズ @iitaku

フィックスターズという会社でソフトウェアエンジニアやってます

弊社のお仕事

Cell/B.E.でマイクロベンチマークしてソフトウェア最適化する簡単なお仕事

GPUでマイクロベンチマークしてソフトウェア最適化する簡単なお仕事

x86でマイクロベンチマークしてソフトウェア最適化する簡単なお仕事

POWERで (ry

ARMで (ry

MICで

Tileraで

Parallellaで

FPGAで

Ͱ΋ɺ )%-͚ͩ͸ɺ ઈରʹɺࢮΜͰ΋ɺΠϠ

殺伐としたTLに並列コンピューティングフレームワークが！＿人人人人人＿＞　OpenCL　＜￣Y^Y^Y^Y^Y￣

至上命題 Performance

下位レイヤ意識してプログラミングしてますか？

アセンブリ意識してプログラミングしてますか？

マイクロアーキテクチャ意識してプログラミングしてますか？

Question OpenCL for FPGAの下位レイヤとは？

Answer 論理回路である

本日の内容

OpenCLアーキテクチャ OpenCL for FPGA実装 SHA-256 実装例

OpenCLホスト制御用の汎用CPU OpenCLデバイス演算用のCPU、GPU、FPGA ヘテロジニアス・システム＋

OpenCL C Languageで演算部分を実装 OpenCL C APIでデバイスを制御

OpenCL C Language

C言語ベースシンタックス組み込み関数スレッドモデルメモリ空間の規定ベクトル型ベンダ拡張

スレッドモデル

OpenCL Kernel Workgroup 0 Workitem 0 Workitem N-1 階層化されたスレッドモデル実行コンテキスト
Workgroup M-1 Workitem 0 Workitem N-1

__kernel void copy(__global int *src, __global int *dst) { const
int i = get_global_id(0); dst[i] = src[i]; } src i:0 i:1 i:N-1 dst Workitemによる並行性 WorkitemのIDを取得

同期機構

Workgroup内のWorkitemのバリア同期＋メモリオーダリングの保証 void barrier(cl_mem_fence_flags flags) barrier Workgroup Workitem 0 Workitem N-1

ベクトル型

N は 2, 3, 4, 8, 16のいずれか int2 add2(int2 x,
int2 y) { return x + y; }; charN ucharN shortN ushortN intN uintN longN ulongN floatN

メモリ空間

Workgroup Local Workitem Private Workitem Private Global Constant Workgroup Local
Workitem Private Workitem Private Private：単一Workitemから読み書きできる Local：Workgroup内のWorkitemから読み書きできる Constant：全てのWorkitemから読める Global：全てのWorkitemから読み書きできる 4つのメモリ空間

ベンダ拡張

#pragma OPENCL EXTENSION extension_name : enable 可搬性を破る禁断のおまじない cl_intel_accelerator cl_intel_motion_estimation …
cl_amd_device_memory_flags cl_amd_media_ops cl_amd_svm … cl_altera_channels …

Altera SDK for OpenCL Xilinx SDAccel Environment

今日は（主に） Alteraの話です

スレッドモデルの実装

__kernel void vecadd(__global int *a, __global int *b, __global int
*c) { const int i = get_global_id(0); c[i] = a[i] + b[i]; } ASTがそのまま論理回路に変換される ld a[i] ld b[i] add st c[i]

__kernel void vecadd(__global int *a, __global int *b, __global int
*c) { const int i = get_global_id(0); c[i] = a[i] + b[i]; } t Workitem 0 ld ld add st Workitem 1 ld ld add st Workitem2 ld ld add st … Workitemパイプライニングによって命令レベルで並列に動作する

多くのGPU実装と比べると並列化モデルが逆転している Workitemの展開方向命令の展開方向 GPU 空間時間 FPGA 時間空間

タイミングアキュレートな実装はできない Workitem 0 ld ld add st Workitem 1 ld
ld add st Workitem2 ld ld add st … このレイテンシはコンパイラが決定し、プログラマは制御できない

同期機構の実装

パイプラインストールによるWorkitem間同期 __kernel void vecadd(__global int *a, __global int *b, __global
int *c) { const int i = get_global_id(0); const int av = a[i]; const int bv = b[i]; barrier(CLK_LOCAL_MEM_FENCE); c[i] = av + bv; } Workitem 0 ld ld add st Workitem 1 ld ld add st ・・・ Workitem N-1 ld ld add st barrier t

分岐の実装

__kernel void branch(__global int *a, __global int *b, __global int
*c) { const int i = get_global_id(0); if ((i % 2) == 0) { c[i] = a[i] + b[i]; } else { c[i] = a[i] * b[i]; } } マルチデータパスとセレクトによる分岐の実装 ld a[i] ld b[i] add st c[i] mul select

__kernel void branch(__global int *a, __global int *b, __global int
*c) { const int i = get_global_id(0); if ((i % 2) == 0) { c[i] = a[i] + b[i]; } else { c[i] = a[i] * b[i]; } } パイプライン性能は遅い方の分岐ブロックに依存 Workitem 0 ld ld add mul select st Workitem1 ld ld add mul select st Workitem2 ld ld add mul select st … t

ループの実装

フィードバックによるループの実装 ld src[k] add st dst[i] accum j<N __kernel void
loop(__global const int *src, __global int *dst) { const int i = get_global_id(0); int accum = 0; for (uint j=0; j<N; ++j) { accum += src[N * i + j]; } dst[i] = accum; }

__kernel void loop(__global const int *src, __global int *dst) {
const int i = get_global_id(0); int accum = 0; for (uint j=0; j<N; ++j) { accum += src[N * i + j]; } dst[i] = accum; } ループ1回目性能は1/ループ回数になる Workitem 0 ld add ld add st Workitem 1 ld add … ld add st Workitem 2 ld add ld add st … t

__kernel void loop(__global const int *src, __global int *dst) {
const int i = get_global_id(0); int accum = 0; #pragma unroll 2 for (uint j=0; j<N; ++j) { accum += src[N * i + j]; } dst[i] = accum; } ループ1, 2回目ループアンロールすることでスループット向上 Workitem 0 ld ld add add ld ld add add st Workitem 1 ld ld add add … ld ld add add st Workitem 2 ld ld add add ld ld add add st … t

ベクトル型の実装

__kernel void vecadd(__global int4 *a, __global int4 *b, __global int4
*c) { const int i = get_global_id(0); c[i] = a[i] + b[i]; } int4 ベクトル演算回路が生成され、リソース消費は増大 vld a[i] vld b[i] vadd vst c[i] int4 int4

__kernel void vecadd(__global int4 *a, __global int4 *b, __global int4
*c) { const int i = get_global_id(0); c[i] = a[i] + b[i]; } 性能はベクトル幅倍に増加 t Workitem 0 vld vld vadd vst Workitem 1 vld vld vadd vst Workitem 2 vld vld vadd vst …

Loop Carried Dependencyの無いループをフルアンロールするのと等価 __kernel void vecadd(__global int *a, __global
int *b, __global int *c) { const int i = get_global_id(0); #pragma unroll for (int j=0; j<4; ++j) { c[4*i+j] = a[4*i+j] + b[4*i+j]; } }

メモリ空間の実装

Board Nallatech PCIe385/395の場合 DRAM Global Constant Stratix V Local Private
Constant Cache ボードベンダが配布する Board Support Packageによってメモリ空間を定義

FPGA DRAM SFP+ DRAM PCIe Root Complex CPU BRAM OpenCLベンダ拡張による外部I/O
Kernel内のGlobalメモリI/O Kernel内のLocalメモリI/O OpenCL APIによるデータ転送 PCIe Board

SoC DRAM CPU FPGA I/O Peripheral BRAM OpenCLベンダ拡張による外部I/O Kernel内のGlobalメモリI/O Kernel内のLocalメモリI/O
OpenCL APIによるデータ転送 System on Chip

メモリI/OのCoalescing ld 4byte 0x1000 ld 4byte 0x1004 ld 8byte 0x1000
連続アドレスのメモリトランザクションを結合（Coalescing）することでバス効率を上げる

__kernel void add_adj(__global const int *src, __global int *dst) {
const int i = get_global_id(0); dst[i] = src[2*i+0] + src[2*i+1]; } ld src [2*i+0] ld src [2*i+1] add st dst[i] add st dst[i] vld src [2*i] メモリI/Oを明示的にベクトル化することでCoalescingする __kernel void add_adj(__global const int *src,__ global int *dst) { const int i = get_global_id(0); const int2 v = vload(&src[2*i]); dst[i] = v.x + v.y; }

連続するワークアイテムが連続アドレスにアクセスすることでプリフェッチ＆ストアキューのついたLSUを作成 OpenCL Kernel Global Memory streaming ld streaming st
__kernel void vecadd(__global int4 *a, __global int4 *b, __global int4 *c) { const int i = get_global_id(0); c[i] = a[i] + b[i]; } streaming ld 後続ワークアイテムのアクセスが連続する GPUにおけるCoalescingと等価な書き方

Alteraチャネル拡張を使用することで HDLモジュールのAvalon STインタフェースに接続できる #pragma OPENCL_EXTENSION cl_altera_channels : enable channel int
input_ch __attribute__((io(“input_ch0”))); channel int output_ch __attribute__((io(“output_ch0”))); __kernel void echo(void) { int v = read_channel_altera(input_ch); write_channel_altera(output_ch, v); } FPGA I/O Peripheral OpenCL Kernel HDL I/O Module Avalon ST

PCIe背面のSFP+を経由して外部I/O

Workitemあたりの動作 1. Globalメモリから32バイト読む 2. SHA-256でハッシュを計算 3. Globalメモリに32バイト書きこむ __kernel __attribute__((reqd_work_group_size(1, 1,
1))) void sha256(const __global uchar * restrict src, __global uchar * restrict dst) { const uint i = get_global_id(0); … }

ロードストアは全てCoalescing #pragma unroll for (int j=0; j<32; ++j) { buffer[j]
= src[i*32+j]; } #pragma unroll for (int j=0; j<8; ++j) { uchar4 v = scatter_in_be(hs[j]); vstore4(v, 0, &dst[(i*8+j)*4]); } Hashの計算はフルアンローリング #pragma unroll for (int j=0; j<64; ++j) { const uint s1 = rotate_right(e, 6) ^ rotate_right(e, 11) ^ rotate_right(e, 25); const uint ch = (e & f) ^ (~e & g); const uint temp1 = h + s1 + ch + keys[j] + ws[j]; const uint s0 = rotate_right(a, 2) ^ rotate_right(a, 13) ^ rotate_right(a, 22); const uint maj = (a & b) ^ (a & c) ^ (b & c); const uint temp2 = s0 + maj; … }

スループット（MHash/s） 120 150 180 210 240 ハッシュ数（Kilo） 0 17500 35000
52500 70000 PCIe385で 230 MHash/s程度で安定

ALUTs: 67265 Registers: 109,475 Logic utilization: 59,476 / 172,600 (
34 % ) I/O pins: 384 / 664 ( 58 % ) DSP blocks: 0 / 1,590 ( 0 % ) Memory bits: 1,695,184 / 41,246,720 ( 4 % ) RAM blocks: 335 / 2,014 ( 17 % ) Actual clock freq: 268.599999201 Kernel fmax: 268.6 1x clock fmax: 268.6 2x clock fmax: 10000 Highest non-global fanout: 3167 ALMsは34%程度を使用 Kernel Clockは268 MHz Workitem(=1ハッシュ)あたり1.2cycleで計算できている

まとめ

OpenCL知ってるソフトウェア屋なら FPGAプログラミングは普通にできる OpenCLも別に難しくないコンパイル時間はもっと短くなってほしい・・・最適化するなら VerilogとLLVM IRは読めるほうがいい

タイミングアキュレートな回路を作るのは難しいベンダ拡張でHDLと混ぜれるので部分的に活用するとかなんでもできるわけではない

単なるアクセラレータとしてはハマる分野を選ぶ外部I/Oやレイテンシ重視ならアリ電力性能比やコスト性能比を総合して考えるべきスループット重視なら GPUも検討すべき

Happy Programming !

OpenCL Programming for FPGA

OpenCL Programming for FPGA

More Decks by Takuro IIZUKA

Other Decks in Technology

Featured

Transcript