ベクトル型スーパーコンピュータ「AOBA-S」の性能評価

Slide 1

Slide 1 text

⾼橋慧智1, 藤本壮也2, ⻑瀬悟2, 磯部洋⼦2, 下村陽⼀1, 江川隆輔3, 滝沢寛之1 1東北⼤学サイバーサイエンスセンター 2⽇本電気株式会社 3東京電機⼤学ベクトル型スーパーコンピュータ「AOBA-S」の性能評価第191回HPC研究会@東北⼤学 1

Slide 2

Slide 2 text

概要 • サイバーサイエンスセンターでは2023年8⽉よりスーパーコンピュータAOBA-S の本格運⽤を開始 • AOBA-SはNEC製の最新世代Vector Engine (VE30) プロセッサを搭載した，世界最⾼性能のベクトル型スーパーコンピュータ (2023年9⽉現在) • 本発表では，サービス提供開始前に実施した以下の性能評価の結果を報告 • VE30プロセッサの単体性能 • システム全体としての性能 • 実アプリ性能 (SPEChpc) 第191回HPC研究会@東北⼤学 2

Slide 3

Slide 3 text

AOBA-1.5の概要第191回HPC研究会@東北⼤学 3 InfiniBand NDR 200G InfiniBand HDR 200G Ethernet 10G AOBA-S AOBA-A AOBA-B AOBA-A/B ストレージ AOBA-S ストレージ 21.05 PFLOP/s 9.97 PB/s 1.48 PFLOP/s 893 TB/s 4.5 PB Lustre 2 PB ScaTeFS 279 TFLOP/s 29 TB/s NEC SX-AT B401-8 x72 NEC LX406Rz-2 x68 DDN SFA7990XE DDN ES400NVX2 NEC SX-AT C401-8 x504

Slide 4

Slide 4 text

SX-Aurora TSUBASA • SX-Aurora TSUBASA (SX-AT) • x86であるVector Host (VH)とSXシリーズを継承するベクトルプロセッサVector Engine (VE) からなるヘテロジニアスなシステム • アプリはVE上で実⾏され，システムコールをホストへ「オフロード」する実⾏⽅式 • Vector Engine (VE) • メモリ律速なアプリを対象とし，ベクトルアーキテクチャと⾼帯域幅メモリを特徴とするプロセッサ • 標準プログラミングモデル (MPI+OpenMP) によってプログラム可能 • ⾼度な⾃動ベクトル化機能を備えたC/C++およびFortranコンパイラが利⽤可能第191回HPC研究会@東北⼤学 4 Vector Engine Vector Host (x86) Vector Engine PCIe Switch … InfiniBand HCA https://www.nec.com/en/global/solutions/hpc/s x/vector_engine.html RDMA Syscalls

Slide 5

Slide 5 text

AOBA-Sの構成第191回HPC研究会@東北⼤学 5 ノード単体システム全体 VE数 8 4,032 VH数 1 504 VE理論演算性能 39.28 TFLOP/s 19.79 PFLOP/s VEメモリ帯域幅 19.60 TB/s 9.87 PB/s VEメモリ容量 768 GB 378 TB VH理論演算性能 2.50 TFLOP/s 1.26 PFLOP/s VHメモリ帯域幅 0.20 TB/s 0.1 PB/s VHメモリ容量 256 GB 126 TB 相互結合網 InfiniBand NDR 200G ストレージ Lustre 4.4 PB VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 ノード構成

Slide 6

Slide 6 text

AOBA-Sの相互結合網とストレージ • フルバイセクションかつノンブロッキングの2段Fat-treeトポロジによって計算ノード，ストレージ，各種サーバを接続 • 計4.4 PBのLustreストレージ第191回HPC研究会@東北⼤学 6 NDR Switch … NDR Switch NDR Switch … NDR Switch NDR Switch NDR Switch x16 x16 x2 HCA HCA HCA HCA … HCA HCA … 32 VHs (64 HCAs) 504 VHs (1,008 HCAs) Storage Frontend Servers

Slide 7

Slide 7 text

VE30プロセッサのアーキテクチャ第191回HPC研究会@東北⼤学 7 Main Memory (96 GB) Last-Level Cache (64 MB) Network on Chip (2D Mesh) SPU VPU L3 Cache (2 MB) 6.4 TB/s 2.45 TB/s 410 GB/s 410 GB/s 16コア Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E …

Slide 8

Slide 8 text

VE20からの強化点 • コア専有L3キャッシュ • L3キャッシュはソフトウェア制御によってバイパスすることが可能 • LLC内演算器 • 各LLCバンクが加算器を内蔵することでリスト総和演算をLLC内で実⾏可能 • FP32演算性能の強化 • VE20ではFP32データが8バイトアラインされている必要があったが，4バイトアラインに緩和第191回HPC研究会@東北⼤学 8 VE Type 20A (10コアモデル) VE Type 30A コア数 10 16 FP64演算性能 [TFLOP/s] 3.07 4.91 メモリ帯域幅 [TB/s] 1.53 2.45 メモリ容量 [GB] 48 96 LLC帯域幅 [TB/s] 3.0 6.4 LLC容量 [MB] 16 64 1.6x 1.6x 1.6x 2x 2.1x 4x

Slide 9

Slide 9 text

HPL，HPCG，姫野ベンチ，東北⼤カーネルプロセッサ単体性能の評価第191回HPC研究会@東北⼤学 9

Slide 10

Slide 10 text

⽐較対象のプロセッサ第191回HPC研究会@東北⼤学 10 NEC VE Type 20B NEC VE Type 30A Fujitsu A64FX Intel Xeon Platinum 8368 NVIDIA A100 80GB PCIe FP64演算性能 (コア) [GFLOP/s] 307 307 70 83.2 181 w/ TC 90 w/o TC コア数 8 16 48 36 108 FP64演算性能 (ソケット) [TFLOP/s] 2.4 4.9 3.3 3.1 19.5 w/ TC 9.7 w/o TC LLC帯域幅 [TB/s] 3.0 6.4 3.6 3.21 4.91 LLC容量 [MB] 16 64 32 57 40 メモリ帯域幅 [TB/s] 1.53 2.45 1.024 0.204 1.935 メモリ容量 [MB] 48 96 32 80 プロセスルール [nm] 16 7 7 10 7

Slide 11

Slide 11 text

基本性能の評価において⽤いたベンチマーク • HPL1: ピボット選択付LU分解によって密な連⽴⼀次⽅程式を求解する演算律速なベンチマーク • BabelStream2: 実効メモリ帯域幅を計測するSTREAMベンチマークを様々なプログラミングモデルで実装したベンチマーク • HPCG1: 疎な連⽴⼀次⽅程式を幾何学的マルチグリッド前処理を⽤いた共役勾配法によって求解するメモリ律速なベンチマーク • 姫野ベンチ: ポワソン⽅程式をヤコビ法によって求解するメモリ律速なベンチマーク • 東北⼤カーネル: ユーザアプリより抽出した6種のカーネル第191回HPC研究会@東北⼤学 11

Slide 12

Slide 12 text

基本性能 (HPLとBabelStream) 第191回HPC研究会@東北⼤学 12 0 2 4 6 8 10 12 14 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 20 40 60 80 100 TFLOP/s Efficiency [%] Performance Efficiency 2.13 4.43 2.78 1.83 11.8 12.5 86% 90% 82% 57% 60% 64% HPL ⾼い演算性能スロットリングによる効率低下 0 500 1000 1500 2000 VE20 VE30 A64FXIceLake ×2 A100 40GB A100 80GB 0 20 40 60 80 100 GB/s Efficiency [%] Performance Efficiency 1230 1793 826 163 1410 1657 80% 72% 81% 80% 91% 86% 最も⾼いメモリ帯域幅 BabelStream

Slide 13

Slide 13 text

基本性能 (HPCGと姫野ベンチ) 第191回HPC研究会@東北⼤学 13 0 100 200 300 400 500 600 700 800 900 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 5 10 15 20 GFLOP/s Efficiency [%] Performance Efficiency 388 837 342 75 553 634 16% 17% 10% 2.3% 2.8% 3.2% 0 50 100 150 200 250 300 VE20 VE30 A64FX IceLake A100 40GB A100 80GB 0 1 2 3 4 5 6 7 GFLOP/s Efficiency [%] Performance Efficiency 139 258 106 29 222 259 5.6% 5.2% 3.1% 0.94% 2.2% 2.6% HPCG 姫野ベンチマーク A100 80 GBと同等最も⾼い

Slide 14

Slide 14 text

東北⼤カーネル集第191回HPC研究会@東北⼤学 14 科学分野律速要因 VE30/VE20 Earthquake 地震学メモリ帯域幅 1.56x Turbulent Flow 流体⼒学 LLC帯域幅 2.33x Antenna 電波⼯学メモリ帯域幅 1.77x Land Mine 電波⼯学メモリ帯域幅 1.92x Turbine 流体⼒学レイテンシ 2.40x Plasma プラズマ科学レイテンシ 2.41x サイバーサイエンスセンターのユーザアプリから抽出した6種のカーネルメモリ・LLC 帯域幅の向上 L3CとLLC帯域幅の向上 L3Cによるレイテンシの短縮 VE30 HW性能向上率メモリ帯域幅: 1.60x LLC帯域幅: 2.13x 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s VE20 VE30 w/o L3 cache VE30 w/ L3 cache

Slide 15

Slide 15 text

HPL，HPCG，MPI，ストレージシステム全体の評価第191回HPC研究会@東北⼤学 15

Slide 16

Slide 16 text

マルチノード性能 (HPL, HPCG) 504 VH を⽤いた全系実⾏では • HPL: 16.33 PFLOP/s (効率82.4%) • HPCG: 913.1 TFLOP/s (効率4.61%) • 2023年6⽉版Top500リストではHPL は国内5位，HPCGは国内2位に相当 • 2023年11⽉版Top500リスト登録に向けてパラメータ調整等のチューニングを実施予定第191回HPC研究会@東北⼤学 16 10 100 1000 10000 100000 100 0 20 40 60 80 100 Performance [TFLOP/s] Efficiency [%] # of VHs HPL Performance HPCG Performance HPL Efficiency HPCG Efficiency

Slide 17

Slide 17 text

MPI通信性能第191回HPC研究会@東北⼤学 17 VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 InfiniBand NDR Switch ③同⼀PCIe スイッチ配下 ②同⼀ノード配下 ①同⼀IBスイッチ配下 ④同⼀IBスイッチ配下 (VH間)

Slide 18

Slide 18 text

MPI通信性能の測定結果第191回HPC研究会@東北⼤学 18 1 10 100 1000 1 10 100 1000 10000 100000 1x106 Latency [µs] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) 0.1 1 10 100 1000 10000 100000 1 10 100 1000 10000 100000 1x106 Bandwidth [MB/s] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) • 同⼀PCIe SW配下: 1.51us • 同⼀ノード内: 1.88us • 同⼀ラック内: 3.87us GPU-awareなMPI とほぼ同等 OSU Micro Benchmark 7.2，NEC MPI 3.4.0を使⽤ • 同⼀PCIe SW配下: 23.1 GB/s • 同⼀ノード内: 22.7 GB/s • 同⼀ラック内: 23.6 GB/s 遅延 (osu_latency) 帯域幅 (osu_bw)

Slide 19

Slide 19 text

ストレージ性能 (iorとmdtest) 第191回HPC研究会@東北⼤学 19 20 40 60 80 100 120 140 160 180 200 100 1000 Throughput [KIOps] # of Processes File creation File stat File removal 5 10 15 20 25 30 35 40 45 50 100 1000 Throughput [GB/s] # of Processes Write Read 読み書き性能メタデータ性能 ior 3.3.0を⽤い，1VEにつきior/mdtestを1プロセス起動し，1ファイル/プロセスの条件で計測．読み書き共にページキャッシュの効果を排除するよう設定．

Slide 20

Slide 20 text

SPEChpc 2021 実アプリを想定したベンチマーク第191回HPC研究会@東北⼤学 20

Slide 21

Slide 21 text

SPEChpc 2021 • SPECにより開発されているHPC分野のベンチマーク集 • 実⾏条件: • VE20/30，A64FX ，IceLake-SPではMPI+OpenMP，A100では MPI+OpenACCを使⽤ • 全てのベンチマークはソースコード改変なしで実⾏ • 問題サイズ: • Tiny (9ベンチ，60GB程度のメモリ使⽤量) • 実⾏可能な最低ソケット数で実⾏し，使⽤したソケット数で性能を正規化 • Large (6ベンチ, 14.5TB程度のメモリ使⽤量) • 先⾏研究[1]において⾏われたTACC Frontera (Intel Xeon Platinum 8280 2 基) およびJUWELS Booster (AMD EPYC 7402+NVIDIA A100 SXM4 40GB 4基) での測定結果と⽐較 • 性能指標: • ベースラインシステム (Haswellクラスタ) に対する⾼速化率を⽐較第191回HPC研究会@東北⼤学 21 [1] Brunst et al., “First Experiences in Performance Benchmarking with the New SPEChpc 2021 Suites,” CCGrid 2022.

Slide 22

Slide 22 text

SPEChpc 2021 tinyサイズの性能⽐較 • LBM, TeaLeaf, POT3DではVE30が最も性能が⾼い • CloverLeafとminiWeatherではVE30がA100に少し劣る • SPH-EXAとHPGMG-FVではVE30の性能が低い第191回HPC研究会@東北⼤学 22 0 5 10 15 20 25 30 35 LBM TeaLeaf CloverLeaf POT3D SPH-EXA HPGMG-FV miniWeather Speedup over Baseline System VE20 x2 VE30 x1 A100 80GB x1 A100 40GB x2 A64FX x3 IceLake-SP x1

Slide 23

Slide 23 text

SPEChpc 2021 tinyサイズの性能分析 • LBM, TeaLeaf, CloverLeaf, POT3D • メモリ律速でありVEが最も性能が⾼い • CloverLeafではギャザアクセスをともなうカーネルはA100より性能が低い • SPH-EXA • 8分⽊を⽤いた近傍粒⼦探索がベクトル化できない • 近傍粒⼦探索をホストCPUへオフロードすることにより⾼速化可能 • HPGMG-FV • 最内ループのループ⻑ (32回) がVEのベクトル⻑ (倍精度で256要素) に⽐べ短い • ループ⼀重化によりループ⻑を拡⼤させることで⾼速化可能 • miniWeather • メモリ律速なカーネルはA100より⾼速だが，演算律速なカーネルでA100に劣る第191回HPC研究会@東北⼤学 23

Slide 24

Slide 24 text

SPEChpc 2021 largeサイズの性能⽐較 • HPGMG-FV以外の全てのベンチでFronteraより⼤幅に⾼速 • TeaLeafとPOT3DではBooster より⾼い性能 • LBM, CloverLeaf, miniWeatherではBoosterより性能が低く，スケールアウトするにつれ差が開く傾向第191回HPC研究会@東北⼤学 24 0 20 40 60 80 100 120 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 10 20 30 40 50 60 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 35 40 45 50 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 160 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather

Slide 25

Slide 25 text

SPEChpc 2021 largeサイズの性能分析第191回HPC研究会@東北⼤学 25 0 50 100 150 200 250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Computation MPI Communication 0 50 100 150 200 250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Launch Overhead Time Application Init Time Application Core Time Application Resid Time • Launch Overhead Time: スケジューラやMPIで費やされた起動オーバーヘッド • Application Init Time: アプリ内初期化処理 • Application Core Time: メインの計算 • Application Residual Time: その他スケーラビリティが悪いLBM，CloverLeaf， miniWeatherでは通信時間が占める割合は⼩さく，通信がボトルネックとはなっていない 1400 VEでのプロファイル結果

Slide 26

Slide 26 text

まとめ • VE30はメモリ律速のアプリケーションにおいて優れた性能を発揮 • 新設されたL3Cや強化されたLLCが寄与し，VE20と⽐較すると理論演算性能とメモリ帯域幅の向上を超える性能向上を達成 • SPEChpc 2021ではソースコードの改変なしに，同世代のCPUやGPUと同等以上の性能を達成 • ⼤規模実⾏ (400 VE〜) において他システムよりスケーラビリティが劣る場合が明らかになったので，さらに分析を進める第191回HPC研究会@東北⼤学 26

Slide 27

Slide 27 text

予備スライド第191回HPC研究会@東北⼤学 27

Slide 28

Slide 28 text

各プロセッサの評価に使⽤したシステム第191回HPC研究会@東北⼤学 28 プロセッサシステムノード構成相互結合網 VE20 AOBA-C@東北⼤ AMD EPYC 7402P x1 Vector Engine Type 20B x8 InfiniBand HDR 200G x2 VE30 試作機@NEC AMD EPYC 7713P x1 Vector Engine Type 30A x8 InfiniBand HDR 200G x2 A64FX 不⽼Type I@名⼤ Fujitsu A64FX x1 Tofu-D IceLake-SP SQUID@阪⼤ Intel Xeon Platinum 8368 x2 InfiniBand HDR 200G x1 A100 40GB SQUID@阪⼤ Intel Xeon Platinum 8368 x2 NVIDIA A100 40 GB x8 InfiniBand HDR 100G x4

Slide 29

Slide 29 text

コア専有L3キャッシュ第191回HPC研究会@東北⼤学 29 Main Memory Last-Level Cache Network on Chip SPU VPU L3 Cache NoCの輻輳緩和ソフトウェアによりバイパス可 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s w/o L3 cache w/ L3 cache VE30はソフトウェア制御可能なコア専有L3キャッシュ (2MB，ユニファイド，ライトスルー) を追加 L3Cによりギャザのレイテンシ縮減 3.13倍の性能向上東北⼤カーネル集 LLCの競合緩和アクセス遅延の削減

Slide 30

Slide 30 text

キャッシュ内演算機能第191回HPC研究会@東北⼤学 30 for (int i = 0; i < n; i++) { y[l[i]] = y[l[i]] + x[i]; } VE20ではユーザは以下から選択する必要: • スカラ: スカラ命令によって計算 (デフォルト) • ivdep: ベクトル命令のみによって計算．ユーザはl[i]が重複しないことを保証する必要あり．(コンパイラディレクティブを使⽤) • list_vector: ベクトル命令によって計算し，重複部分の結果をスカラ命令によって補正．(コンパイラディレクティブを使⽤) VE30では: • vlfa: リスト総和演算専⽤の命令 (デフォルト) Core LLC Memory l[i] x[i] y[l[i]] 各LLCバンクが演算器を備えるリスト総和演算は有限要素法，粒⼦法等で必要となる演算パターン

Slide 31

Slide 31 text

リスト総和演算専⽤ハードウェア第191回HPC研究会@東北⼤学 31 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 4 8 12 16 20 24 28 32 GFLOP/s # of Overlapping Indices VE20 scalar VE20 list_vector VE30 scalar VE30 list_vector VE30 vlfa リスト総和演算を⾏うマイクロベンチマークを作成し，重複するアドレスの数を変化させながらシングルコアの性能を計測 (32個のアドレスの中でx個が重複). vlfaはスカラより低性能 vlfaはlist_vector より3.48x⾼速 vlfaは常にlist_vectorより⾼速であり，実アプリでは多数のアドレスが重複することは稀であるため，ユーザは基本的ににvlfaを選択すればよい

Slide 32

Slide 32 text

選択的L3キャッシング • VE30では再利⽤されるデータのみをL3 キャッシュに選択的キャッシングさせることが可能. • 姫野ベンチマークにより選択的L3キャッシングの効果を評価 • a, b, c, bnd, wrk1, wrk2はストリーミングアクセス • pは再利⽤性あり (理想的には最内ループのにおける19ロード中18がキャッシュヒット). 第191回HPC研究会@東北⼤学 32 for (i=1 ; i

Slide 33

Slide 33 text

姫野ベンチにおける選択的キャッシングの効果第191回HPC研究会@東北⼤学 33 250 255 260 265 270 275 280 285 290 Watt Cache all Bypass all Cache p only 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 GFLOP/s per Watt 0 100 200 300 400 500 600 700 800 900 S M L XL GFLOP/s Problem Size Cache all Bypass all Cache p only サイズ配列サイズ S 64x64x128 M 128x128x256 L 256x256x512 XL 512x512x1024 選択的キャッシングにより+6.9% pがL3Cに収まらない選択的キャッシングにより+5.7% 性能電⼒ (Lサイズ) 電⼒効率(Lサイズ) VE20: 2.14 GFLOP/s/W A100: 2.21 GFLOP/s/W +8.2% -0.6% 選択的キャッシングにより+6.5%

Slide 34

Slide 34 text

パーティショニングモード • VEを2つのNUMAノードに分割する • 各NUMAノードは半分のコア，LLC，HBMを有する (容量と帯域幅も半分) • NoCにおける競合を緩和し，LLCの実効帯域幅が向上 • キャッシュ負荷が⾼いアプリは⾼速化が期待可能第191回HPC研究会@東北⼤学 34 Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E 0 100 200 300 400 500 600 700 800 900 VE20 VE30 GFLOP/s w/o Partitionig Mode w/ Partitionig Mode +7.1%性能向上 NUMA ノード #0 NUMA ノード #1 姫野ベンチマーク

Slide 35

Slide 35 text

SPEChpc mediumサイズのMPIプロファイル第191回HPC研究会@東北⼤学 35 0 20 40 60 80 100 120 140 160 VE30 A100 VE30 A100 VE30 A100 VE30 A100 VE30 A100 Runtime [s] Others MPI_Init(_thread) MPI_Reduce MPI_Barrier MPI_Waitall MPI_Allreduce MPI_Irecv MPI_Isend miniWeather POT3D CloverLeaf TeaLeaf LBM 0 100 200 300 400 500 600 700 VE30 A100 Runtime [s] HPGMG-FV

Slide 36

Slide 36 text

FP32ベクトルのアラインメント制約緩和 • VE20ではFP32ベクトルをロード・ストアする際は8バイトアラインされている必要があり，⼀部のアクセスパターン (ステンシル等) では性能低下が発⽣ • VE30はこの制約を4バイトアラインに緩和第191回HPC研究会@東北⼤学 36 0 10 20 30 40 50 60 70 VE20 w/o packed VE30 w/o packed VE30 w/ packed GFLOP/s do k = 1, nz do j = 1, ny do i = 1, nx a(i,j,k) = a(i,j,k) + & (b(i-1,j-1,k-1) + b(i ,j-1,k-1) + b(i+1,j-1,k-1) + & b(i-1,j ,k-1) + b(i ,j ,k-1) + b(i+1,j ,k-1) + & b(i-1,j+1,k-1) + b(i ,j+1,k-1) + b(i+1,j+1,k-1) + & b(i-1,j-1,k ) + b(i ,j-1,k ) + b(i+1,j-1,k ) + & b(i-1,j ,k ) + b(i ,j ,k ) + b(i+1,j ,k ) + & b(i-1,j+1,k ) + b(i ,j+1,k ) + b(i+1,j+1,k ) + & b(i-1,j-1,k+1) + b(i ,j-1,k+1) + b(i+1,j-1,k+1) + & b(i-1,j ,k+1) + b(i ,j ,k+1) + b(i+1,j ,k+1) + & b(i-1,j+1,k+1) + b(i ,j+1,k+1) + b(i+1,j+1,k+1))/27.0 end do end do end do 27点ステンシルベンチマーク

Slide 37

Slide 37 text

実アプリにおけるリスト総和演算カーネル • CFDアプリから抽出したカーネル (256中4つのインデックスが重複，2つの同⼀インデックスの組が存在) • vlfa命令により実⾏時間が175.6sから12.0sに短縮 (14.6倍⾼速化) 第191回HPC研究会@東北⼤学 37 DO N = nstart,nend IF(flag3(N)==1) THEN COF(7,WI(N),WJ(N),WK(N))=COF(7,WI(N),WJ(N),WK(N))+W_TAUWC(N) * W_AREA_1(N) SOC(WI(N),WJ(N),WK(N))=SOC(WI(N),WJ(N),WK(N))+W_TAUWS(N) * W_AREA_1(N) ENDIF ENDDO

Slide 38

Slide 38 text

NVIDIA H100シリーズとの⽐較第191回HPC研究会@東北⼤学 38 NEC VE Type 30A NVIDIA H100 PCIe NVIDIA H100 SXM5 NVIDIA H100 NVL FP64演算性能/コア [GFLOP/s] 307 449.2 w/ TC 224 w/o TC 506.8 w/ TC 253.4 w/o TC 1013.7 w/TC 506.8 w/o TC コア (SM) 数 16 114 132 264 FP64性能/ソケット [TFLOP/s] 4.9 51.2 w/ TC 25.6 w/o TC 66.9 w/ TC 33.5 w/o TC 133.8 w/ TC 67 w/o TC LLC容量 [MB] 64 50 50 100 メモリ帯域幅 [TB/s] 2.45 2 3.35 7.8 メモリ容量 [GB] 96 80 80 188 プロセスルール [nm] 7 4 4 4 TDP 300 W 350 W 700 W 700-800 W