CompML CUDA C Hello World!

Slide 1

Slide 1 text

CompML CUDA “Hello World!” Ryohei Izawa

Slide 2

Slide 2 text

CompML CUDA “Hello World!” +PIO$IFOH .BY(SPTTNBO 5Z.D,FSDIFS $6%"$ϓϩϑΣογϣφϧ ϓϩάϥϛϯά JNQSFTTUPQHFBSγϦʔζ ΠϯϓϨε 1 主に，「CUDA C プロフェッショナルプログラミング」を参考にしながら，CUDA Cについて学ぶこと⽬的本資料では，並列コンピューティングやGPUアーキテクチャ， CUDA Cプログラミングの初歩的な処理の流れを概観する．

Slide 3

Slide 3 text

CompML 並列コンピューティング

Slide 4

Slide 4 text

CompML 並列プログラミング逐次プログラム並列プログラム問題を⼩さな計算(タスク)に分割し、逐次的に実⾏データ依存性のない複数のタスクを同時に実⾏ 3 ※多くの場合は逐次的に処理する部分も含まれる +PIO$IFOH ଞ QQ

Slide 5

Slide 5 text

CompML 並列化タスク並列化データ並列化 4 機能を複数のコアに分散させて実⾏する．個別に処理することが可能で，かつ⼤部分を並⾏して実⾏できるタスクや関数が⼤量にある場合に可能．データを複数のコアに分散させて実⾏する．同時に処理できるデータ要素が⼤量にある場合に可能． ⇨ CUDAプログラミングは特にデータ並列化に適している． +PIO$IFOH ଞ QQ

Slide 6

Slide 6 text

CompML コンピュータアーキテクチャフリンの分類 5 命令 Single Multiple Single Multiple データ Single Instruction Multiple Data (SIMD) Multiple Instruction Multiple Data (MIMD) Single Instruction Single Data (SISD) Multiple Instruction Single Data (MISD) SISD (Single Instruction Single Data) 逐次アーキテクチャ．1つのコアで，単⼀の命令ストリームで、単⼀のデータを操作する． SIMD (Single Instruction Multiple Data) 並列アーキテクチャ．複数コアが全て同じ命令ストリームを，別々のデータに対して実⾏ MISD (Multiple Instruction Single Data) 各コアが別々の命令ストリームを通じて，同じデータストリームを実⾏． MIMD (Multiple Instruction Multiple Data) 並列アーキテクチャ．複数のコアが複数のデータストリームを処理し，それぞれ別の命令を実⾏する． +PIO$IFOH ଞ QQ

Slide 7

Slide 7 text

CompML 並列化の⽬的 6 遅延の低減演算の開始から完了までにかかる時間．μ秒で表⽰されることが多い．帯域幅の改善単位時間あたりに処理できるデータ量．MB/s または GB/sで表⽰される．スループットの改善単位時間あたりに処理できる演算量．GFLOPS※で表⽰される． ※ 1秒間に10億回の浮動⼩数点数演算を実⾏できること． +PIO$IFOH ଞ Q

Slide 8

Slide 8 text

CompML メモリ構成に基づくアーキテクチャ 7 マルチノード分散メモリを使⽤マルチプロセッサシェアードメモリ使⽤プロセッサキャッシュメモリ相互接続ネットワークプロセッサキャッシュメモリプロセッサキャッシュメモリ … … … 複数のプロセッサがそれぞれのローカルメモリの内容をネットワーク経由でやりとりする．プロセッサキャッシュシェアードメモリプロセッサキャッシュプロセッサキャッシュ … … バス数⼗〜数百のプロセッサが物理的に同じメモリに接続する． +PIO$IFOH ଞ QQ

Slide 9

Slide 9 text

CompML GPU

Slide 10

Slide 10 text

CompML ヘテロジニアスアーキテクチャ 9 ホモジニアス(同種)システム：同じアーキテクチャのプロセッサを使ってアプリケーションを実⾏ヘテロジニアス(異種)システム：複数のプロセッサアーキテクチャを使ってアプリケーションを実⾏ ALU ALU ALU ALU CU キャッシュ DRAM CPU DRAM DRAM GPU PCI Express GPUはCPUのコプロセッサ ⇨ CPU：ホスト GPU：デバイスヘテロジニアスアーキテクチャキャッシュ SM SM SM … Giga Thread Engine +PIO$IFOH ଞ Q

Slide 11

Slide 11 text

CompML GPUの性能評価 10 GPUの性能は，主に以下の特性によって表現される． GPUのパフォーマンスを表す指標単位時間あたりに処理できる単精度または倍精度浮動⼩数点数演算量． GFLOPSまたはTFLOPSで表⽰される． • ピーク性能評価メモリからデータを読み取る，またはメモリにデータを格納する時のレート． GB/sで表⽰される． • メモリ帯域幅 • CUDAコアの数 • メモリのサイズ +PIO$IFOH ଞ QQ

Slide 12

Slide 12 text

CompML CUDAプログラミング

Slide 13

Slide 13 text

CompML CUDAプログラムの処理の流れ 12 CPU GPU 1. CPUメモリからGPUメモリにデータをコピー 2. カーネルを呼び出し，GPUメモリにあるデータを操作 3. GPUメモリからCPUメモリにデータをコピー 1. GPUへデータをコピー 2. CUDAカーネル実⾏ 3. CPUへデータをコピー GPUでの演算ホストデバイス /WJEJB+BQBO Q

Slide 14

Slide 14 text

CompML スレッドの構成 13 CPU GPU グリッドカーネルホストデバイスグリッドブロック (0, 0) ブロック (1, 0) ブロック (2, 0) ブロック (0, 1) ブロック (1, 1) ブロック (2, 1) ブロックスレッド (0, 0) スレッド (1, 0) スレッド (1, 0) スレッド (2, 0) スレッド (1, 1) スレッド (1, 2) スレッド (3, 0) スレッド (1, 3) スレッド (2 0) スレッド (2, 1) スレッド (2, 2) スレッド (2, 3) • CPUから呼び出される． • グリッド内のスレッドは1つのグローバルメモリ空間を共有．ブロック • ブロック内のスレッド間の同期が可能 • ブロック内でメモリを共有．スレッド • 最⼩の実⾏単位 +PIO$IFOH ଞ Q

Slide 15

Slide 15 text

CompML Streaming Multiprocessor 14 演算器の集まり CUDAプログラムブロック (0, 0) ブロック (1, 0) ブロック (2, 0) ブロック (0, 1) ブロック (1, 1) ブロック (2, 1) ブロック (3, 0) ブロック (3 1) CUDAプログラムブロック (0, 0) ブロック (1, 0) ブロック (2, 0) ブロック (0, 1) ブロック (1, 1) ブロック (2, 1) ブロック (3, 0) ブロック (3 1) SM SM SM SM 各ブロックはSMに割り当てられる • 複数のSMにまたがらない • ブロック内部ではSMのリソースを活⽤可能各ブロックは独⽴に⾮同期に処理を実⾏ • 実⾏順序の保証はない • ブロック間の通信・同期は⾏わない /WJEJB+BQBO QQ

Slide 16

Slide 16 text

CompML Warp 15 並列実⾏の最⼩単位ブロック (0, 0) ブロック Warp Warp Warp Warp … スレッドスレッドスレッドスレッド … スレッド 32 スレッド Core Core Core Core … Core 1命令を32並列実⾏ SM • 各ブロックは32個の連続するスレッドで構成されたワープに分割される． • ワープ内のスレッドは全て同じ命令を実⾏する．ワープ1 ワープ2 ワープ3 スレッド0, スレッド1, … , スレッド31 スレッド32, スレッド33, … , スレッド63 スレッド64, スレッド65, … , スレッド95 128個のスレッドを含むブロックの構成ワープ4 スレッド96, スレッド97, … , スレッド127 /WJEJB+BQBO Q

Slide 17

Slide 17 text

CompML CUDA “Hello World!” 16 処理の流れ 1. デバイスメモリのアロケーション 2. ホストメモリからデバイスメモリへのデータコピー 3. カーネルの呼び出し 4. 同期 5. 処理終了

Slide 18

Slide 18 text

CompML References 17 • John Cheng, Max Grossman, Ty McKercher, CUDA C プロフェッショナルプログラミング, impress top gearシリーズ,インプレス, 2015. • NVIDIA Japan, CUDAプログラミング⼊⾨, https://www.slideshare.net/NVIDIAJapan/cuda- 57590006, 2016. (参照2020-11-26)