Slide 1

Slide 1 text

⾼橋 慧智1, 藤本 壮也2, ⻑瀬 悟2, 磯部 洋⼦2, 下村 陽⼀1, 江川 隆輔3, 滝沢 寛之1 1東北⼤学サイバーサイエンスセンター 2⽇本電気株式会社 3東京電機⼤学 ベクトル型スーパーコンピュータ「AOBA-S」の 性能評価 第191回HPC研究会@東北⼤学 1

Slide 2

Slide 2 text

概要 • サイバーサイエンスセンターでは2023年8⽉よりスーパーコンピュータAOBA-S の本格運⽤を開始 • AOBA-SはNEC製の最新世代Vector Engine (VE30) プロセッサを搭載した, 世界最⾼性能のベクトル型スーパーコンピュータ (2023年9⽉現在) • 本発表では,サービス提供開始前に実施した以下の性能評価の結果を報告 • VE30プロセッサの単体性能 • システム全体としての性能 • 実アプリ性能 (SPEChpc) 第191回HPC研究会@東北⼤学 2

Slide 3

Slide 3 text

AOBA-1.5の概要 第191回HPC研究会@東北⼤学 3 InfiniBand NDR 200G InfiniBand HDR 200G Ethernet 10G AOBA-S AOBA-A AOBA-B AOBA-A/B ストレージ AOBA-S ストレージ 21.05 PFLOP/s 9.97 PB/s 1.48 PFLOP/s 893 TB/s 4.5 PB Lustre 2 PB ScaTeFS 279 TFLOP/s 29 TB/s NEC SX-AT B401-8 x72 NEC LX406Rz-2 x68 DDN SFA7990XE DDN ES400NVX2 NEC SX-AT C401-8 x504

Slide 4

Slide 4 text

SX-Aurora TSUBASA • SX-Aurora TSUBASA (SX-AT) • x86であるVector Host (VH)とSXシリーズを継承するベクト ルプロセッサVector Engine (VE) からなるヘテロジニアスな システム • アプリはVE上で実⾏され,システムコールをホストへ「オフ ロード」する実⾏⽅式 • Vector Engine (VE) • メモリ律速なアプリを対象とし,ベクトルアーキテクチャと⾼ 帯域幅メモリを特徴とするプロセッサ • 標準プログラミングモデル (MPI+OpenMP) によってプログラ ム可能 • ⾼度な⾃動ベクトル化機能を備えたC/C++およびFortranコン パイラが利⽤可能 第191回HPC研究会@東北⼤学 4 Vector Engine Vector Host (x86) Vector Engine PCIe Switch … InfiniBand HCA https://www.nec.com/en/global/solutions/hpc/s x/vector_engine.html RDMA Syscalls

Slide 5

Slide 5 text

AOBA-Sの構成 第191回HPC研究会@東北⼤学 5 ノード単体 システム全体 VE数 8 4,032 VH数 1 504 VE理論演算性能 39.28 TFLOP/s 19.79 PFLOP/s VEメモリ帯域幅 19.60 TB/s 9.87 PB/s VEメモリ容量 768 GB 378 TB VH理論演算性能 2.50 TFLOP/s 1.26 PFLOP/s VHメモリ帯域幅 0.20 TB/s 0.1 PB/s VHメモリ容量 256 GB 126 TB 相互結合網 InfiniBand NDR 200G ストレージ Lustre 4.4 PB VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 ノード構成

Slide 6

Slide 6 text

AOBA-Sの相互結合網とストレージ • フルバイセクションかつノン ブロッキングの2段Fat-treeト ポロジによって計算ノード, ストレージ,各種サーバを接 続 • 計4.4 PBのLustreストレージ 第191回HPC研究会@東北⼤学 6 NDR Switch … NDR Switch NDR Switch … NDR Switch NDR Switch NDR Switch x16 x16 x2 HCA HCA HCA HCA … HCA HCA … 32 VHs (64 HCAs) 504 VHs (1,008 HCAs) Storage Frontend Servers

Slide 7

Slide 7 text

VE30プロセッサのアーキテクチャ 第191回HPC研究会@東北⼤学 7 Main Memory (96 GB) Last-Level Cache (64 MB) Network on Chip (2D Mesh) SPU VPU L3 Cache (2 MB) 6.4 TB/s 2.45 TB/s 410 GB/s 410 GB/s 16コア Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E …

Slide 8

Slide 8 text

VE20からの強化点 • コア専有L3キャッシュ • L3キャッシュはソフトウェア制御に よってバイパスすることが可能 • LLC内演算器 • 各LLCバンクが加算器を内蔵すること でリスト総和演算をLLC内で実⾏可能 • FP32演算性能の強化 • VE20ではFP32データが8バイトアライ ンされている必要があったが,4バイト アラインに緩和 第191回HPC研究会@東北⼤学 8 VE Type 20A (10コアモデル) VE Type 30A コア数 10 16 FP64演算性能 [TFLOP/s] 3.07 4.91 メモリ帯域幅 [TB/s] 1.53 2.45 メモリ容量 [GB] 48 96 LLC帯域幅 [TB/s] 3.0 6.4 LLC容量 [MB] 16 64 1.6x 1.6x 1.6x 2x 2.1x 4x

Slide 9

Slide 9 text

HPL,HPCG,姫野ベンチ,東北⼤カーネル プロセッサ単体性能の評価 第191回HPC研究会@東北⼤学 9

Slide 10

Slide 10 text

⽐較対象のプロセッサ 第191回HPC研究会@東北⼤学 10 NEC VE Type 20B NEC VE Type 30A Fujitsu A64FX Intel Xeon Platinum 8368 NVIDIA A100 80GB PCIe FP64演算性能 (コア) [GFLOP/s] 307 307 70 83.2 181 w/ TC 90 w/o TC コア数 8 16 48 36 108 FP64演算性能 (ソケット) [TFLOP/s] 2.4 4.9 3.3 3.1 19.5 w/ TC 9.7 w/o TC LLC帯域幅 [TB/s] 3.0 6.4 3.6 3.21 4.91 LLC容量 [MB] 16 64 32 57 40 メモリ帯域幅 [TB/s] 1.53 2.45 1.024 0.204 1.935 メモリ容量 [MB] 48 96 32 80 プロセスルール [nm] 16 7 7 10 7

Slide 11

Slide 11 text

基本性能の評価において⽤いたベンチマーク • HPL1: ピボット選択付LU分解によって密な連⽴⼀次⽅程式を求解する演算律速な ベンチマーク • BabelStream2: 実効メモリ帯域幅を計測するSTREAMベンチマークを様々なプロ グラミングモデルで実装したベンチマーク • HPCG1: 疎な連⽴⼀次⽅程式を幾何学的マルチグリッド前処理を⽤いた共役勾配 法によって求解するメモリ律速なベンチマーク • 姫野ベンチ: ポワソン⽅程式をヤコビ法によって求解するメモリ律速なベンチ マーク • 東北⼤カーネル: ユーザアプリより抽出した6種のカーネル 第191回HPC研究会@東北⼤学 11

Slide 12

Slide 12 text

基本性能 (HPLとBabelStream) 第191回HPC研究会@東北⼤学 12 0 2 4 6 8 10 12 14 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 20 40 60 80 100 TFLOP/s Efficiency [%] Performance Efficiency 2.13 4.43 2.78 1.83 11.8 12.5 86% 90% 82% 57% 60% 64% HPL ⾼い演算性能 スロットリング による効率低下 0 500 1000 1500 2000 VE20 VE30 A64FXIceLake ×2 A100 40GB A100 80GB 0 20 40 60 80 100 GB/s Efficiency [%] Performance Efficiency 1230 1793 826 163 1410 1657 80% 72% 81% 80% 91% 86% 最も⾼いメモ リ帯域幅 BabelStream

Slide 13

Slide 13 text

基本性能 (HPCGと姫野ベンチ) 第191回HPC研究会@東北⼤学 13 0 100 200 300 400 500 600 700 800 900 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 5 10 15 20 GFLOP/s Efficiency [%] Performance Efficiency 388 837 342 75 553 634 16% 17% 10% 2.3% 2.8% 3.2% 0 50 100 150 200 250 300 VE20 VE30 A64FX IceLake A100 40GB A100 80GB 0 1 2 3 4 5 6 7 GFLOP/s Efficiency [%] Performance Efficiency 139 258 106 29 222 259 5.6% 5.2% 3.1% 0.94% 2.2% 2.6% HPCG 姫野ベンチマーク A100 80 GBと同等 最も⾼い

Slide 14

Slide 14 text

東北⼤カーネル集 第191回HPC研究会@東北⼤学 14 科学分野 律速要因 VE30/VE20 Earthquake 地震学 メモリ帯域幅 1.56x Turbulent Flow 流体⼒学 LLC帯域幅 2.33x Antenna 電波⼯学 メモリ帯域幅 1.77x Land Mine 電波⼯学 メモリ帯域幅 1.92x Turbine 流体⼒学 レイテンシ 2.40x Plasma プラズマ科学 レイテンシ 2.41x サイバーサイエンスセンターのユーザアプリから抽出した6種のカーネル メモリ・LLC 帯域幅の向上 L3CとLLC帯域 幅の向上 L3Cによるレイ テンシの短縮 VE30 HW性能向上率 メモリ帯域幅: 1.60x LLC帯域幅: 2.13x 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s VE20 VE30 w/o L3 cache VE30 w/ L3 cache

Slide 15

Slide 15 text

HPL,HPCG,MPI,ストレージ システム全体の評価 第191回HPC研究会@東北⼤学 15

Slide 16

Slide 16 text

マルチノード性能 (HPL, HPCG) 504 VH を⽤いた全系実⾏では • HPL: 16.33 PFLOP/s (効率82.4%) • HPCG: 913.1 TFLOP/s (効率4.61%) • 2023年6⽉版Top500リストではHPL は国内5位,HPCGは国内2位に相当 • 2023年11⽉版Top500リスト登録に 向けてパラメータ調整等のチューニ ングを実施予定 第191回HPC研究会@東北⼤学 16 10 100 1000 10000 100000 100 0 20 40 60 80 100 Performance [TFLOP/s] Efficiency [%] # of VHs HPL Performance HPCG Performance HPL Efficiency HPCG Efficiency

Slide 17

Slide 17 text

MPI通信性能 第191回HPC研究会@東北⼤学 17 VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 InfiniBand NDR Switch ③同⼀PCIe スイッチ配下 ②同⼀ノード配下 ①同⼀IBスイッチ配下 ④同⼀IBスイッチ配下 (VH間)

Slide 18

Slide 18 text

MPI通信性能の測定結果 第191回HPC研究会@東北⼤学 18 1 10 100 1000 1 10 100 1000 10000 100000 1x106 Latency [µs] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) 0.1 1 10 100 1000 10000 100000 1 10 100 1000 10000 100000 1x106 Bandwidth [MB/s] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) • 同⼀PCIe SW配下: 1.51us • 同⼀ノード内: 1.88us • 同⼀ラック内: 3.87us GPU-awareなMPI とほぼ同等 OSU Micro Benchmark 7.2,NEC MPI 3.4.0を使⽤ • 同⼀PCIe SW配下: 23.1 GB/s • 同⼀ノード内: 22.7 GB/s • 同⼀ラック内: 23.6 GB/s 遅延 (osu_latency) 帯域幅 (osu_bw)

Slide 19

Slide 19 text

ストレージ性能 (iorとmdtest) 第191回HPC研究会@東北⼤学 19 20 40 60 80 100 120 140 160 180 200 100 1000 Throughput [KIOps] # of Processes File creation File stat File removal 5 10 15 20 25 30 35 40 45 50 100 1000 Throughput [GB/s] # of Processes Write Read 読み書き性能 メタデータ性能 ior 3.3.0を⽤い,1VEにつきior/mdtestを1プロセス起動し,1ファイル/プロセスの条件で計測. 読み書き共にページキャッシュの効果を排除するよう設定.

Slide 20

Slide 20 text

SPEChpc 2021 実アプリを想定したベンチマーク 第191回HPC研究会@東北⼤学 20

Slide 21

Slide 21 text

SPEChpc 2021 • SPECにより開発されているHPC分野のベンチマーク集 • 実⾏条件: • VE20/30,A64FX ,IceLake-SPではMPI+OpenMP,A100では MPI+OpenACCを使⽤ • 全てのベンチマークはソースコード改変なしで実⾏ • 問題サイズ: • Tiny (9ベンチ,60GB程度のメモリ使⽤量) • 実⾏可能な最低ソケット数で実⾏し,使⽤したソケット数で性能を正規化 • Large (6ベンチ, 14.5TB程度のメモリ使⽤量) • 先⾏研究[1]において⾏われたTACC Frontera (Intel Xeon Platinum 8280 2 基) およびJUWELS Booster (AMD EPYC 7402+NVIDIA A100 SXM4 40GB 4基) での測定結果と⽐較 • 性能指標: • ベースラインシステム (Haswellクラスタ) に対する⾼速化率を⽐較 第191回HPC研究会@東北⼤学 21 [1] Brunst et al., “First Experiences in Performance Benchmarking with the New SPEChpc 2021 Suites,” CCGrid 2022.

Slide 22

Slide 22 text

SPEChpc 2021 tinyサイズの性能⽐較 • LBM, TeaLeaf, POT3DではVE30が最も性能が⾼い • CloverLeafとminiWeatherではVE30がA100に少し劣る • SPH-EXAとHPGMG-FVではVE30の性能が低い 第191回HPC研究会@東北⼤学 22 0 5 10 15 20 25 30 35 LBM TeaLeaf CloverLeaf POT3D SPH-EXA HPGMG-FV miniWeather Speedup over Baseline System VE20 x2 VE30 x1 A100 80GB x1 A100 40GB x2 A64FX x3 IceLake-SP x1

Slide 23

Slide 23 text

SPEChpc 2021 tinyサイズの性能分析 • LBM, TeaLeaf, CloverLeaf, POT3D • メモリ律速でありVEが最も性能が⾼い • CloverLeafではギャザアクセスをともなうカーネルはA100より性能が低い • SPH-EXA • 8分⽊を⽤いた近傍粒⼦探索がベクトル化できない • 近傍粒⼦探索をホストCPUへオフロードすることにより⾼速化可能 • HPGMG-FV • 最内ループのループ⻑ (32回) がVEのベクトル⻑ (倍精度で256要素) に⽐べ短い • ループ⼀重化によりループ⻑を拡⼤させることで⾼速化可能 • miniWeather • メモリ律速なカーネルはA100より⾼速だが,演算律速なカーネルでA100に劣る 第191回HPC研究会@東北⼤学 23

Slide 24

Slide 24 text

SPEChpc 2021 largeサイズの性能⽐較 • HPGMG-FV以外の全てのベン チでFronteraより⼤幅に⾼速 • TeaLeafとPOT3DではBooster より⾼い性能 • LBM, CloverLeaf, miniWeatherではBoosterより 性能が低く,スケールアウト するにつれ差が開く傾向 第191回HPC研究会@東北⼤学 24 0 20 40 60 80 100 120 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 10 20 30 40 50 60 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 35 40 45 50 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 160 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather

Slide 25

Slide 25 text

SPEChpc 2021 largeサイズの性能分析 第191回HPC研究会@東北⼤学 25 0 50 100 150 200 250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Computation MPI Communication 0 50 100 150 200 250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Launch Overhead Time Application Init Time Application Core Time Application Resid Time • Launch Overhead Time: スケジューラやMPIで 費やされた起動オーバーヘッド • Application Init Time: アプリ内初期化処理 • Application Core Time: メインの計算 • Application Residual Time: その他 スケーラビリティが悪いLBM,CloverLeaf, miniWeatherでは通信時間が占める割合は⼩さく, 通信がボトルネックとはなっていない 1400 VEでのプロファイル結果

Slide 26

Slide 26 text

まとめ • VE30はメモリ律速のアプリケーションにおいて優れた性能を発揮 • 新設されたL3Cや強化されたLLCが寄与し,VE20と⽐較すると理論演算性能とメ モリ帯域幅の向上を超える性能向上を達成 • SPEChpc 2021ではソースコードの改変なしに,同世代のCPUやGPUと同等以上 の性能を達成 • ⼤規模実⾏ (400 VE〜) において他システムよりスケーラビリティが劣る場合が 明らかになったので,さらに分析を進める 第191回HPC研究会@東北⼤学 26

Slide 27

Slide 27 text

予備スライド 第191回HPC研究会@東北⼤学 27

Slide 28

Slide 28 text

各プロセッサの評価に使⽤したシステム 第191回HPC研究会@東北⼤学 28 プロセッサ システム ノード構成 相互結合網 VE20 AOBA-C@東北⼤ AMD EPYC 7402P x1 Vector Engine Type 20B x8 InfiniBand HDR 200G x2 VE30 試作機@NEC AMD EPYC 7713P x1 Vector Engine Type 30A x8 InfiniBand HDR 200G x2 A64FX 不⽼Type I@名⼤ Fujitsu A64FX x1 Tofu-D IceLake-SP SQUID@阪⼤ Intel Xeon Platinum 8368 x2 InfiniBand HDR 200G x1 A100 40GB SQUID@阪⼤ Intel Xeon Platinum 8368 x2 NVIDIA A100 40 GB x8 InfiniBand HDR 100G x4

Slide 29

Slide 29 text

コア専有L3キャッシュ 第191回HPC研究会@東北⼤学 29 Main Memory Last-Level Cache Network on Chip SPU VPU L3 Cache NoCの輻輳緩 和 ソフトウェアに よりバイパス可 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s w/o L3 cache w/ L3 cache VE30はソフトウェア制御可能なコア専有L3キャッシュ (2MB,ユニファイド,ライトスルー) を追加 L3Cによりギャザ のレイテンシ縮減 3.13倍の性能向上 東北⼤カーネル集 LLCの競合緩 和 アクセス遅延 の削減

Slide 30

Slide 30 text

キャッシュ内演算機能 第191回HPC研究会@東北⼤学 30 for (int i = 0; i < n; i++) { y[l[i]] = y[l[i]] + x[i]; } VE20ではユーザは以下から選択する必要: • スカラ: スカラ命令によって計算 (デフォルト) • ivdep: ベクトル命令のみによって計算.ユーザはl[i]が重 複しないことを保証する必要あり.(コンパイラディレク ティブを使⽤) • list_vector: ベクトル命令によって計算し,重複部分の結 果をスカラ命令によって補正.(コンパイラディレクティ ブを使⽤) VE30では: • vlfa: リスト総和演算専⽤の命令 (デフォルト) Core LLC Memory l[i] x[i] y[l[i]] 各LLCバンクが 演算器を備える リスト総和演算は有限要素法,粒⼦法 等で必要となる演算パターン

Slide 31

Slide 31 text

リスト総和演算専⽤ハードウェア 第191回HPC研究会@東北⼤学 31 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 4 8 12 16 20 24 28 32 GFLOP/s # of Overlapping Indices VE20 scalar VE20 list_vector VE30 scalar VE30 list_vector VE30 vlfa リスト総和演算を⾏うマイクロベンチマークを作成し,重複するアドレスの数を変化させながらシ ングルコアの性能を計測 (32個のアドレスの中でx個が重複). vlfaはスカラよ り低性能 vlfaはlist_vector より3.48x⾼速 vlfaは常にlist_vectorより⾼速であり,実アプリでは多数のアドレスが重複することは稀である ため,ユーザは基本的ににvlfaを選択すればよい

Slide 32

Slide 32 text

選択的L3キャッシング • VE30では再利⽤されるデータのみをL3 キャッシュに選択的キャッシングさせる ことが可能. • 姫野ベンチマークにより選択的L3キャッ シングの効果を評価 • a, b, c, bnd, wrk1, wrk2はストリーミングア クセス • pは再利⽤性あり (理想的には最内ループのに おける19ロード中18がキャッシュヒット). 第191回HPC研究会@東北⼤学 32 for (i=1 ; i

Slide 33

Slide 33 text

姫野ベンチにおける選択的キャッシングの効果 第191回HPC研究会@東北⼤学 33 250 255 260 265 270 275 280 285 290 Watt Cache all Bypass all Cache p only 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 GFLOP/s per Watt 0 100 200 300 400 500 600 700 800 900 S M L XL GFLOP/s Problem Size Cache all Bypass all Cache p only サイズ 配列サイズ S 64x64x128 M 128x128x256 L 256x256x512 XL 512x512x1024 選択的キャッシ ングにより+6.9% pがL3Cに 収まらない 選択的キャッシン グにより+5.7% 性能 電⼒ (Lサイズ) 電⼒効率(Lサイズ) VE20: 2.14 GFLOP/s/W A100: 2.21 GFLOP/s/W +8.2% -0.6% 選択的キャッシン グにより+6.5%

Slide 34

Slide 34 text

パーティショニングモード • VEを2つのNUMAノードに分割する • 各NUMAノードは半分のコア,LLC,HBMを有する (容量と帯域幅も半分) • NoCにおける競合を緩和し,LLCの実効帯域幅が向上 • キャッシュ負荷が⾼いアプリは⾼速化が期待可能 第191回HPC研究会@東北⼤学 34 Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E 0 100 200 300 400 500 600 700 800 900 VE20 VE30 GFLOP/s w/o Partitionig Mode w/ Partitionig Mode +7.1%性能向上 NUMA ノード #0 NUMA ノード #1 姫野ベンチマーク

Slide 35

Slide 35 text

SPEChpc mediumサイズのMPIプロファイル 第191回HPC研究会@東北⼤学 35 0 20 40 60 80 100 120 140 160 VE30 A100 VE30 A100 VE30 A100 VE30 A100 VE30 A100 Runtime [s] Others MPI_Init(_thread) MPI_Reduce MPI_Barrier MPI_Waitall MPI_Allreduce MPI_Irecv MPI_Isend miniWeather POT3D CloverLeaf TeaLeaf LBM 0 100 200 300 400 500 600 700 VE30 A100 Runtime [s] HPGMG-FV

Slide 36

Slide 36 text

FP32ベクトルのアラインメント制約緩和 • VE20ではFP32ベクトルをロード・ストアする際は8バイトアラインされている 必要があり,⼀部のアクセスパターン (ステンシル等) では性能低下が発⽣ • VE30はこの制約を4バイトアラインに緩和 第191回HPC研究会@東北⼤学 36 0 10 20 30 40 50 60 70 VE20 w/o packed VE30 w/o packed VE30 w/ packed GFLOP/s do k = 1, nz do j = 1, ny do i = 1, nx a(i,j,k) = a(i,j,k) + & (b(i-1,j-1,k-1) + b(i ,j-1,k-1) + b(i+1,j-1,k-1) + & b(i-1,j ,k-1) + b(i ,j ,k-1) + b(i+1,j ,k-1) + & b(i-1,j+1,k-1) + b(i ,j+1,k-1) + b(i+1,j+1,k-1) + & b(i-1,j-1,k ) + b(i ,j-1,k ) + b(i+1,j-1,k ) + & b(i-1,j ,k ) + b(i ,j ,k ) + b(i+1,j ,k ) + & b(i-1,j+1,k ) + b(i ,j+1,k ) + b(i+1,j+1,k ) + & b(i-1,j-1,k+1) + b(i ,j-1,k+1) + b(i+1,j-1,k+1) + & b(i-1,j ,k+1) + b(i ,j ,k+1) + b(i+1,j ,k+1) + & b(i-1,j+1,k+1) + b(i ,j+1,k+1) + b(i+1,j+1,k+1))/27.0 end do end do end do 27点ステンシルベンチマーク

Slide 37

Slide 37 text

実アプリにおけるリスト総和演算カーネル • CFDアプリから抽出したカーネル (256中4つのインデックスが重複,2つの同⼀ インデックスの組が存在) • vlfa命令により実⾏時間が175.6sから12.0sに短縮 (14.6倍⾼速化) 第191回HPC研究会@東北⼤学 37 DO N = nstart,nend IF(flag3(N)==1) THEN COF(7,WI(N),WJ(N),WK(N))=COF(7,WI(N),WJ(N),WK(N))+W_TAUWC(N) * W_AREA_1(N) SOC(WI(N),WJ(N),WK(N))=SOC(WI(N),WJ(N),WK(N))+W_TAUWS(N) * W_AREA_1(N) ENDIF ENDDO

Slide 38

Slide 38 text

NVIDIA H100シリーズとの⽐較 第191回HPC研究会@東北⼤学 38 NEC VE Type 30A NVIDIA H100 PCIe NVIDIA H100 SXM5 NVIDIA H100 NVL FP64演算性能/コア [GFLOP/s] 307 449.2 w/ TC 224 w/o TC 506.8 w/ TC 253.4 w/o TC 1013.7 w/TC 506.8 w/o TC コア (SM) 数 16 114 132 264 FP64性能/ソケット [TFLOP/s] 4.9 51.2 w/ TC 25.6 w/o TC 66.9 w/ TC 33.5 w/o TC 133.8 w/ TC 67 w/o TC LLC容量 [MB] 64 50 50 100 メモリ帯域幅 [TB/s] 2.45 2 3.35 7.8 メモリ容量 [GB] 96 80 80 188 プロセスルール [nm] 7 4 4 4 TDP 300 W 350 W 700 W 700-800 W