JAWS-UG : HPC#21 - HPC on AWS Updates

© 2026, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. HPC on AWS Updates JAWS-UG HPC ⽀部 #21 勉強会杉⼭遼⼦（Sugiyama, Tohoko） 2 0 2 6 . 4 . 1 7 | @ ⽬⿊セントラルスクエア Solutions Architect

rights reserved. ⾃⼰紹介杉⼭遼⼦アマゾンウェブサービスジャパンソリューションアーキテクトエネルギー業界のお客様のクラウド活⽤をご⽀援しています。好きな AWS サービス AWS ParallelCluster 2

rights reserved. HPC on Cloud の急成⻑ • HPC on Cloud は、過去成⻑率年間約 7-8 ％だったが、2024 年成⻑率は 23.5 % • AI が成⻑の主な原因ではあるが、従来の HPC ワークロードも成⻑率 8.4 % 4 Accelerating Engineering: Cross-Industry HPC Cloud Transformations (CMP302) 今後もこのトレンドは拡⼤予定 HPC on Cloud は急成⻑し続ける領域

rights reserved. 5 HPC on AWS におけるビルディングブロックオンデマンドインスタンス Savings plan スポットインスタンスキャパシティ予約コンピュートネットワークストレージ管理・オーケストレーション仮想サーバー利⽤オプションコア基盤技術 AWS Parallel Computing Service (PCS) AWS Batch AWS ParallelCluster Research and Engineering Studio on AWS (RES) HPC 最適化アクセラレータコンピュート最適化メモリ最適化 EFA / ENA Amazon FSx for Lustre Amazon S3 Amazon EFS Amazon EC2

rights reserved. hpc8a 7 2.HPC 最適化 HPC クラスタや分⼦動⼒学解析など、ノード間の⾼速ネットワークを要するワークロードに最適 hpc7a hpc6id hpc7g hpc6a 4.メモリ最適化半導体シミュレーションなどアクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 3.コンピュート最適化⼩中規模の科学計算など、単⼀インスタンスでの⾼ CPU タスク C8gn C8g C8a C8gb C8i 新 1.アクセラレータ搭載（⾼速化コンピューティング） GPU、AWS ML アクセラレータ P5 H100 P5en H200 P6- B200 P6e- GB200 P6e- GB300 P6- B300 P5d H100 P4 Trn3 Trn2 Trn1 Inf2 Inf1 G6e L40S G6 L4 G5g G5 G7e 新新 R7iz R7a X8g X8 aedz z1d R7g X2 iezn X8i 新新 HPC ワークロード向け EC2 インスタンス新新 C8in C8ib 新新 7

rights reserved. hpc8a 8 2.HPC 最適化 HPC クラスタや分⼦動⼒学解析など、ノード間の⾼速ネットワークを要するワークロードに最適 hpc7a hpc6id hpc7g hpc6a 4.メモリ最適化半導体シミュレーションなどアクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 3.コンピュート最適化⼩中規模の科学計算など、単⼀インスタンスでの⾼ CPU タスク C8gn C8g C8a C8gb C8i 新 1.アクセラレータ搭載（⾼速化コンピューティング） GPU、AWS ML アクセラレータ P5 H100 P5en H200 P6- B200 P6e- GB200 P6e- GB300 P6- B300 P5d H100 P4 Trn3 Trn2 Trn1 Inf2 Inf1 G6e L40S G6 L4 G5g G5 G7e 新新 R7iz R7a X8g X8 aedz z1d R7g X2 iezn X8i 新新 HPC ワークロード向け EC2 インスタンス新新 C8in C8ib 新新 8 アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化

rights reserved. トレーニング向き推論向きグラフィックス機械学習 GPUやAWS独⾃のMLアクセラレータを搭載した、⾼速化コンピューティング向けのインスタンス⽬的に応じた多様なアクセラレータの選択肢を提供 9 P6- B200 NVIDIA B200 Tensor Core GPU P6e- GB200 NVIDIA GB200 NVL72 P5 (-/e/en) NVIDIA H100/H200 GPU P4 (d/de) NVIDIA A100 GPU P6e- GB300 NVIDIA GB300 NVL72 P6- B300 NVIDIA B300 Tensor Core GPU Trn4 AWS Trainium4 Trn3 AWS Trainium3 G6e NVIDIA L40S GPU G6 NVIDIA L4 GPU Inf2 AWS Inferentia2 Inf1 AWS Inferentia1 G6e NVIDIA L40S GPU G6 NVIDIA L4 GPU G5 NVIDIA A10G GPU G4dn NVIDIA T4 GPU G4ad AMD Radeon Pro V520 GPU 新新アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 Trn2 AWS Trainium2 Trn1 AWS Trainium1 Announced 9 G7e NVIDIA RTX 6000 PRO Blackwell

rights reserved. トレーニング向き推論向きグラフィックス機械学習 GPUやAWS独⾃のMLアクセラレータを搭載した、⾼速化コンピューティング向けのインスタンス⽬的に応じた多様なアクセラレータの選択肢を提供 10 G6e NVIDIA L40S GPU G6 NVIDIA L4 GPU G5 NVIDIA A10G GPU G4dn NVIDIA T4 GPU P6e- GB300 NVIDIA GB300 NVL72 P6- B200 NVIDIA B200 Tensor Core GPU P6e- GB200 NVIDIA GB200 NVL72 P5 (-/e/d) NVIDIA H100 GPU P5en NVIDIA H200 GPU P4 (-/d/de) NVIDIA A100 GPU P6- B300 NVIDIA B300 Tensor Core GPU Inf2 AWS Inferentia2 Inf1 AWS Inferentia1 G6e NVIDIA L40S GPU G6 NVIDIA L4 GPU G5 NVIDIA A10G GPU G4dn NVIDIA T4 GPU G4ad AMD Radeon Pro V520 GPU 新アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 • Bedrock の Claude 3.x, 4.x は Trn で推論 • Claude の 1P API も Trn2 上にデプロイ* AWS Trn3 UltraServers: Power next-generation enterprise AI performance (AIM3335) 10 もともと「トレーニング⽤」として出発した Trainium だが、現在では推論⽤途でも多く使われている Trn4 AWS Trainium4 Trn2 AWS Trainium2 Trn3 AWS Trainium3 Trn1 AWS Trainium1 新 AWS re:Invent 2025 - Keynote with CEO Matt Garman

rights reserved. • AWS Trainium3 を搭載した Amazon EC2 Trn3 UltraServers を発表。より⾼速でコスト効率の⾼い⽣成 AI のトレーニングを実現する - 最⼤144 基の Trainium3 を搭載し、FP8 で 362PFLOPS の演算能⼒を備える - 前世代と⽐較し 4.4 倍の計算能⼒、3 倍のスループット、4 倍のエネルギー消費効率 • 推論⽤途にも利⽤可。GPT-OSS の推論において前世代⽐で 3 倍のスループットと 4 倍⾼速な応答を実現 Amazon EC2 Trn3 UltraServers 11 ⼀般利⽤開始アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 Trainium3 詳細はこちら︓ 【AWS re:Invent 2025 速報】AWS ⾃社設計 AIチップ AWS Trainium3 の全貌 https://zenn.dev/aws_japan/articles/06808526d5c75f

rights reserved. 12 • Trainium4 の登場をアナウンス • Trainium3 の FP4 ⽐で最⼤ 6 倍の性能、メモリ帯域 4 倍、メモリ容量 2 倍 (予定) • Trainium3 搭載 UltraServers 以上に⼤規模・⾼効率なトレーニング/推論が可能に AWS Trainium4 の開発を発表アナウンスアクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 AWS re:Invent 2025 - Keynote with CEO Matt Garman

rights reserved. • Amazon EC2 P6e-GB300 UltraServers を発表 - NVIDIA の GB300 NVL72 を搭載し、P6e-GB200 と⽐較して 1.5 倍の GPU メモリ (288 GB HBM3e/1枚)、1.5 倍の FP4 演算能⼒ (スパース性の利⽤なし) を発揮する - リーズニングやエージェンティック AI のように、⾼度な推論⼿法を必要とするケースや⻑⼤なコンテキストを扱う必要があるケースに最適なパフォーマンスを備える - 利⽤をご希望の場合は、AWS にお問い合わせください Amazon EC2 P6e-GB300 UltraServers 13 ⼀般利⽤開始アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化

rights reserved. Nvidia GPU 搭載の機械学習トレーニングに特化した最上位 P5, P6, P6e-GB インスタンスファミリー 14 機械学習トレーニング向けインスタンス - 概要 P6e- GB • NVIDIA H100/H200 を最⼤ 8 基搭載 • インスタンスサイズのバリエーションが豊富で、単⼀（シングル） GPU 検証も可能 P5 P6 • NVIDIA Blackwell B200/B300 を 8 基搭載 • P5 からの既存の分散学習基盤をそのまま Blackwell 世代にリフレッシュしやすい • GB200/GB300 NVL72 (Grace Blackwell) 搭載の UltraServers（1 ラック = 1 インスタンス） • 兆パラメータ級の⼤規模な⼀括 LLM 学習・推論に最適化された設計アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 Matt Garman Keynote での P6e-GB300 インスタンス発表

rights reserved. Nvidia GPU 搭載の、機械学習のトレーニングに特化した最上位 P5, P6, P6e-GB インスタンスファミリー 15 機械学習トレーニング向けインスタンス - ⽐較 Instance Family GPU CPU GPU HBM ネットワークと帯域(Gbp) US Regions 対応⽇本 Regions 対応キャパシティ確保⽅法 P5 8* H100 AMD EPYC 7R13 640 GiB 3,200G EFAv2 4 Regions 対応東京 ODCR / Capacity Blocks for ML / HyperPod P5e 8 * H200 AMD EPYC 7R13 1,128 GiB 3,200G EFAv2 us-east-2 us-west-2 Unavailable Capacity Blocks for ML のみ P5en 8* H200 Intel Sapphire Rapids 1,128 GiB 3,200G EFAv3 4 Regions 対応東京 ODCR / Capacity Blocks for ML / HyperPod P6-B200 8* B200 Intel Emerald Rapids 1,440 GiB 3,200G EFAv4 us-east-1 us-east-2 us-west-2 Unavailable ODCR / Capacity Blocks for ML / HyperPod P6e-GB200 72x B200 Nvidia Grace 13.8 TB 3,200G EFAv4 us-east-1 -dfw-2a Unavailable Capacity Blocks for ML のみ P6-B300 8 * B300 Intel Emerald Rapids 2,144 GiB 6,400G EFAv4 us-west-2 Unavailable AWS に相談 P6e-GB300 72x B300 Nvidia Grace 20.7 TB TBA TBA TBA AWS に相談 Amazon EC2 ⾼速コンピューティングインスタンスの仕様: https://docs.aws.amazon.com/ja_jp/ec2/latest/instancetypes/ac.html 新アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化新 ※ 2026/4/17 時点での情報です。最新情報は、AWS 公式ページをご確認ください。

rights reserved. 数値シミュレーション⽤（CAE*、CFD** など） HPC クラスタや分⼦動⼒学解析など、ノード間の⾼速ネットワークを要するワークロードに最適 17 HPC 最適化 Amazon EC2 インスタンス特徴 • インスタンスあたりの物理コア数⼤ • 通信オーバーヘッドの抑制 • ⼩〜中規模の CFD などは 1 ノードで⼗分実⾏可能 • コアあたりの性能が⾼い • ハイパースレッディングを無効化し、コアの計算資源を処理にフル活⽤ • ライセンスがコアあたり課⾦のアプリが多く、コアの性能向上がコスト効率向上につながる hpc7a のインスタンスサイズ展開 (us-east-2) ジョブインスタンス 1 インスタンス 2 インスタンス n ... ノード間通信アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 *CAE: Computer Aided Engineering **CFD: Computational Fluid Dynamics

rights reserved. 18 Amazon EC2 Hpc8a • 第 5 世代 AMD EPYC “Turin” プロセッサを搭載した Amazon EC2 Hpc8a インスタンスを発表。 - 192 コア、768 GiB メモリ、300 Gbps の EFA ネットワーク帯域を備え、⼤規模シミュレーションの⾼速実⾏が可能 - 前世代 Hpc7a と⽐較し、最⼤ 40% の性能向上、42% のメモリ帯域向上、 25% の価格性能改善 • 計算流体⼒学（CFD）、気象シミュレーション、有限要素解析（FEA）、創薬アプリケーションなど、計算集約型の HPC ワークロードに最適 AWS Blog | YouTube アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化⼀般利⽤開始 Hpc8a 概要ページに、ウェザーニューズ様、三菱重⼯様からのコメントが掲載︓ いずれも実アプリケーションベースで Hpc7a と⽐較して +30% 以上の性能向上 https://aws.amazon.com/ec2/instance-types/hpc8a/

rights reserved. 数値シミュレーション⽤（CFD、CAE など） HPC クラスタや分⼦動⼒学解析など、ノード間の⾼速ネットワークを要するワークロードに最適 19 HPC 最適化 Amazon EC2 インスタンス Instance Family CPU 物理コア数メモリ US Regions 対応⽇本 Regions 対応使い⽅ hpc6id Intel 第3世代 Xeon Scalable (Ice Lake) 64 コア 1,024 GiB DDR4 メモリ us-east-2 Unavailable メモリ・ストレージ集約型 HPC 向け。広いメモリ帯域と⼤容量 SSD が必要な有限要素法解析などに最適。 hpc7g AWS Graviton3E 最⼤ 64 コア 128 GiB DDR5 メモリ us-east-1 東京 AWS Nitro Systemで駆動し、1 コアあたりコストを抑えたコスパ特化。気象・⾦融・CFD など計算量が⼤きいスループット型バッチ HPC に最適。 hpc6a AMD 第3世代 EPYC “Milan” 96 コア 384 GiB DDR4 メモリ us-east-2 Unavailable Arm ベースで電⼒効率とコスト効率を重視した HPC。Arm 対応コードを安価に⼤規模展開したい場合に最適。 hpc7a AMD 第4世代 EPYC “Genoa” 最⼤ 192 コア 768 GiB DDR5 メモリ us-east-2 Unavailable hpc6a の“2 倍スケール”版。コア数・メモリ・メモリ帯域が⼤きく増え、ノード当たりリソースを要する⼤規模気象予測や流体解析などに最適。 hpc8a AMD 第5世代 EPYC “Turin” 192 コア 768 GiB DDR5 メモリ us-east-2 東京 AMD ベース HPC の最新世代「AMD 第5世代 EPYC “Turin”」搭載。ピーク性能とメモリ帯域を最⼤化し、ノード数を減らしてスケールさせたい⼤規模ジョブに最適。アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化新 What’s New (hpc8a) ※ 2026/4/17 時点での情報です。最新情報は、AWS 公式ページをご確認ください。

rights reserved. 科学計算の⼩〜中規模処理など、単⼀インスタンスでの⾼CPUタスクの実⾏に最適な c インスタンスファミリー 21 コンピュート最適化 Amazon EC2 インスタンス Instance Family CPU 特徴 US Regions 対応⽇本 Regions 対応使い⽅ C8i Intel Xeon 6 EFA 親和性が⾼く中規模 CFD クラスタの低レイテンシを実現。x86 アプリをそのまま⾼速化できる 4 Regions 対応東京バッチ処理、分散分析、HPC など、コンピューティングを多⽤するワークロード C8g Graviton4 Arm 汎⽤ C系 (標準EBS + ネットワーク50Gbps）⾼帯域 EBS で単体の Arm 検証済み科学計算を電⼒効率⾼く実⾏ 4 Regions 対応東京・⼤阪 HPC, 科学的モデリング、分散分析、CPU ベースのML推論 C8gn Graviton4 Arm ネットワーク最適化 (600Gbps) x86 ⽐ 40 % 電⼒削減し、数万ノード級クラスタの科学計算を最⼤限の電⼒効率で実⾏ 4 Regions 対応 Unavailable データ分析、CPU ベース⼈⼯知能および機械学習 (AI/ML) 推論などのネットワーク集約型ワークロード C8gb Graviton4 Arm EBS 最適化 (EBS 最⼤150Gbps) ⾼帯域EBS（最⼤150Gbps）と帯域幅重み付けで単体Arm科学計算を電⼒効率⾼く実⾏ us-east-1 us-west-2 Unavailable HPC, 科学的モデリング、分散分析、CPU ベースのML推論 C8a AMD 第5世代 EPYC “Turin” 前世代の AMD ベースのインスタンスと⽐較してコストパフォーマンスが最⼤ 19% 向上 us-east-1 us-east-2 us-west-2 Unavailable バッチ処理、分散分析、HPC など、パフォーマンスが⾼く計算量の多いワークロード C8in Intel Xeon 6 ネットワーク最⼤600 Gbps（EC2 インスタンス内で最⾼機能） us-east-1 us_west-2 東京 HPC、データ分析、CPU ベース⼈⼯知能および機械学習推論などのネットワーク集約型ワークロード C8ib Intel Xeon 6 EBS最⼤300 Gbps us-east-1 us_west-2 Unavailable ゲノム解析、地震波解析など I/O ヘビーなワークロードアクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化新新 What’s New (c8gb) | What’s New (c8a) | What’s New (c8in/c8ib) ※ 2026/4/17 時点での情報です。最新情報は、AWS 公式ページをご確認ください。新新

rights reserved. AWS を⽀えるシリコンイノベーション GRAVITON GRAVITON2 GRAVITON3 GRAVITON4 AWS Graviton • ARM コア搭載プロセッサ • クラウドネイティブなワークロードに最適化 2018 2025 GRAVITON5 INFERENTIA TRAINIUM TRAINIUM2 AWS Trainium / Inferentia • 機械学習向けアクセラレータ • 低コスト、⾼い電⼒効率、持続可能な AI 基盤を実現 2019 2025 TRAINIUM3 NITRO NITRO v2 NITRO v3 NITRO v4 NITRO v5 NITRO v6 AWS Nitro System • Amazon EC2 独⾃の仮想化基盤 • 共通処理を専⽤ハードウェアにオフロード 2013 2024

rights reserved. AWS Graviton Processors AWS Graviton 2018 Up to 45% cost reduction than comparable instances for scale-out workloads Up to 40% better price performance than comparable instances AWS Graviton2 2019 Up to 30% better compute performance, 50% more cores, and 75% more memory bandwidth than Graviton3 AWS Graviton4 2023 Up to 25% better compute performance and up to two times the floating-point performance of Graviton2 AWS Graviton3 2021 Up to 25% better compute performance, and 5x the L3 cache of Graviton4 AWS Graviton5 2025

rights reserved. AWS Graviton: Broad workload applicability

rights reserved. R7iz X8 aedz 新 z1d X2 iezn X8i X2 iedn 新⾼周波数インスタンス Intel 最新プロセッサ搭載インスタンス AWS Graviton インスタンス従来は SAP、Oracle などの⼤規模エンタープライズアプリケーションでの利⽤がメインだったが、⼤規模な回路データを扱う処理に向くため、EDA (Electronic Design Automation、半導体設計) での利⽤が増加メモリ最適化 Amazon EC2 インスタンス R8g R7g アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化 26 x86 互換性が最も⾼く、ほぼ全ての EDA ツールがネイティブ対応⾼いシングルスレッド性能と、⼤容量のメモリで⼤規模設計に対応⾼コスト効率で、⼤量のテストケースの並列同時実⾏に最適

rights reserved. • Amazon EC2 X8aedz インスタンスを発表。X8i とは異なる、新世代のメモリ最適化インスタンス - 最⼤ 5Ghz で動作する第 5 世代 AMD EPYC “Turin” プロセッサを搭載、X2iezn と⽐較して最⼤ 2 倍の計算能⼒を備える - 1vCPU あたり 32 GB のメモリ容量構成。最⼤で 96vCPU, 3,072GiB のメモリ、 8TB のローカル NVMe SSD を提供 - 8 種類のサイズと、2 種類のベアメタルインスタンスをご⽤意 • 東京とオレゴンの 2 リージョンで⼀般利⽤開始 Amazon EC2 X8aedz Instance 27 ⼀般利⽤開始アクセラレ & タ搭載 HPC 最適化コンピ 0 & ト最適化メモリ最適化

rights reserved. HPC 関連 EC2 インスタンスアップデート⼀覧（2025/11〜） 28 11/06 新しい EC2 R8a メモリ最適化インスタンスの発表 11/12 Amazon EC2 F2 インスタンスがさらに 4 つの AWS リージョンで⼀般提供開始 11/14 Amazon EC2 I8g インスタンスを利⽤可能な AWS リージョンが増加 11/17 Amazon EC2 Hpc8a インスタンスが発表（AWS Blog） 11/18 Amazon EC2 I7i インスタンスが追加の AWS リージョンで利⽤可能に 11/19 NVIDIA Blackwell Ultra GPU を搭載した Amazon EC2 P6-B300 インスタンスが利⽤可能に 11/20 IDE での AWS CloudFormation インテリジェントオーサリングでインフラストラクチャ開発を加速 11/25 Amazon EC2が中断可能なキャパシティ予約を発表 12/02 Amazon EC2 メモリ最適化X8iインスタンスの発表（プレビュー） 12/02 NVIDIA GB300 NVL72で⾼速化されたAmazon EC2 P6e-GB300 UltraServersが⼀般提供開始 12/02 新しいメモリ最適化Amazon EC2 X8aedzインスタンスの発表 12/02 新しいコンピューティング最適化Amazon EC2 C8aインスタンスの発表 12/02 より⾼速で低コストな⽣成AIトレーニング向けAmazon EC2 Trn3 UltraServersの発表 12/02 AWSがEC2 C8ineインスタンスをプレビュー

rights reserved. HPC / R&D 向けツールの位置付け 30 アンマネージド（ツール）マネージド独⾃スケジューラー従来型の HPC スケジューラー (Slurm) Amazon SageMaker AI ML 向けコンテナ化されたワークロードの計画、スケジューリング、実⾏を⾏うフルマネージドのバッチコンピューティングサービス RES R&Dチームがクラウドの専⾨知識なしで、エンジニアリング⽤デスクトップ環境を作成・管理可能なオープンソースのウェブポータル構築ツール R&D 向け Webポータル構築ツール HPC ジョブスケジューラークラウド専⾨知識なしでHPCクラターを迅速構築・運⽤可能なフルマネージドSlurmサービス AWS Batch AWS PCS AWS ParallelCluster CLI/API/GUI から Slurm 環境を⾃動デプロイできるオープンソースのクラスター管理ツール（本資料対象外）

rights reserved. 数コマンドで⾃動でスケールするクラスタを AWS 上に構築できる公式 OSS AWS ParallelCluster • 既存のHPCスケジューラー（Slurm）と連携してスケーラブルな計算環境を構築 • MPI/NCCL環境が事前設定済み • x86/Arm環境の両⽅に対応 • コマンド/グラフィカルインターフェースでOS、ネットワーク、ストレージ設定の柔軟なカスタマイズが可能 • ソースコードが誰でも利⽤可能なオープンソースプロジェクト *https://github.com/aws/aws-parallelcluster Cluster Head Auto-Scale 計算ノード Scale-Out / Scale-in ジョブスケジューラ (Slurm) /shared NFS mount /home /shared AWS ParallelCluster GUI も利⽤可能 31

rights reserved. 32 AWS ParallelCluster アップデート AWS ParallelCluster v3.15.0 のリリース (2026年3⽉21⽇) Github Releases • 次世代GPUインスタンスのサポート: P6-B300 へ対応（P6-B200 と P6e-GB200 UltraServers へも v3.14.0 で対応しています） • Slurm 25.11 へのメジャーアップグレード: Expedited Requeue（⾼速リキュー）機能が追加され、ノード障害時のジョブ復旧時間が⼤幅に短縮 • EFA のネットワーク設定改善︓IP アドレス消費が NIC ごとでなくインスタンスごとに削減

rights reserved. コンテナ化されたワークロードの⼤規模バッチ処理環境をフルマネージドで提供 33 AWS Batch とは特徴 • AWS Batch がインスタンスの起動や停⽌を⾏うため、スケジューラや計算ノードなどの管理が不要 • ジョブは Docker コンテナイメージを元に作成し、⾃動でスケールするコンピューティング環境で実⾏ • コンピューティング環境ではインスタンスタイプや vCPU 数、スポットインスタンス利⽤有無などを任意に指定可能ジョブキュージョブ Auto Scaling group AWS Fargate Amazon EC2 or ユーザー AWS Batch

rights reserved. 34 AWS Batch アップデート AWS Batch での Graviton 活⽤がより便利に • AWS Batch で AWS Fargate による AWS Graviton ベースのスポットコンピューティングのサポートを開始 (2025年8⽉) ドキュメント • AWS Batch + AWS Fargate + Graviton + Spot を組み合わせて、より安く・柔軟にコンテナジョブを実⾏できるように。 • 通常の Fargate より最⼤ 70 % 安くジョブを実⾏ • AWS Batch がデフォルトのインスタンスタイプオプションのサポートを開始 (2025年8⽉) ドキュメント • インスタンスタイプのオプションが2つ追加（default-x86_64 と default-arm64） • ⾃分で最適なインスタンスを指定することなく、Batch が最適で安価なインスタンスを選択

rights reserved. 移⾏が簡単 HPC ワークロードのコードやスクリプトを変更せずに移⾏できるジョブ管理⼀般的なジョブスケジューラ (Slurm) を使⽤ AWS Parallel Computing Service (AWS PCS) オーケストレーションフルマネージドで、クラウドリソースに⼤規模にアクセス 35

rights reserved. 36 AWS Parallel Computing Service (PCS) アップデート 1. EC2 Capacity Blocks for ML のサポート (2025年9⽉) ドキュメント • GPUキャパシティを事前予約できるため、必要なタイミングで確実にGPUリソース確保が可能に。機械学習やAIワークロードのキャパシティプランニングが容易に。 2. Slurm REST API のサポート (2025年11⽉) ドキュメント • コマンドラインツールに依存せず、HTTPリクエストでジョブ送信やクラスター管理ができるように。Webポータル、CI/CDパイプライン、データ処理フレームワークなど既存システムとの統合が容易に。 ※ EC2 Capacity Blocks for ML: 需要が⾼い GPU リソースを確実に利⽤できるよう、特定の期間に GPU インスタンスのキャパシティを予約する仕組み。

rights reserved. AWS 上にワークステーション環境を簡単に展開、管理、実⾏できる AWS CloudFormation ベースのサービス 37 Research and Engineering Studio on AWS (RES) 特徴 • 研究開発チームがクラウドの専⾨知識を必要とせずに、ワークロードを実⾏できる環境を管理・構築するためのウェブベースのポータルを提供 • ソースコードが誰でも利⽤可能なオープンソースプロジェクト https://github.com/aws/res モニタリングダッシュボードならびに予算管理仮想デスクトップの管理画⾯

rights reserved. 38 Research and Engineering Studio on AWS (RES) アップデート RES v.2025 のリリースで、コスト管理・セキュリティ関連機能強化 Github Releases • 2025 年の 3 度リリース（v2025.03, 06, 09）で関連機能を強化、サポート範囲も拡⼤ • コスト管理︓ • RES コストダッシュボードの追加 • Linux VDI のハイバーネーション機能︓使⽤していない時間にVDIを休⽌してEC2のコスト削減 • RedHat 8/9 のハイバーネーション対応 • セキュリティ︓ • 既存 Cognito プールとの統合が可能に • CFn 外部リソーステンプレートで CIDR 範囲の指定が可能に • サポート範囲の拡⼤︓ • Amazon Linux 2023, Rocky Linux 9 のサポート • 最新世代の g6f インスタンスをサポート︓より⾼速なグラフィック処理を実現

rights reserved. 2025 年 HPC 関連サービスアップデート⼀覧 39 02/04 AWS Batch が EKS ワークロードでの AWS Batch のアクセス制御と管理のための新機能をリリース 02/28 AWS Batch がリソース認識スケジューリングのサポートを開始 03/21 Research and Engineering Studio on AWS バージョン 2025.03 が利⽤可能に 03/25 Terraform による AWS Parallel Computing Service のサポートを発表 04/02 AWS ParallelCluster v3.13.0のリリース 04/16 AWS Batch が Amazon Elastic Container Service Exec と AWS FireLens ログルーターのサポートを開始 05/16 AWS Parallel Computing Service (PCS) が Slurm バージョン 24.11 でのアカウンティングのサポートを開始 06/05 AWS ParallelCluster v3.13.1のリリース 06/20 AWS Parallel Computing Service (PCS) のジョブ完了メタデータロギングのお知らせ 06/28 Research and Engineering Studio on AWS バージョン 2025.06 が利⽤可能に 08/05 AWS Parallel Computing Service が Slurm の SPANK プラグインのサポートを開始 08/06 AWS Parallel Computing Service で Internet Protocol Version 6 (IPv6) のサポートを開始 08/14 AWS Batch で AWS Fargate による AWS Graviton ベースのスポットコンピューティングのサポートを開始 08/18 AWS Batch がデフォルトのインスタンスタイプオプションのサポートを開始 09/17 AWS Parallel Computing Service (PCS) で Amazon EC2 Capacity Blocks for ML のサポートを開始 09/26 Research and Engineering Studio on AWS 2025.09 が利⽤可能に 09/30 AWS ParallelCluster v3.14.0 のリリース 10/02 AWS Parallel Computing Service で動的クラスター更新のサポートを開始 10/02 AWS Parallel Computing Service で Slurm のカスタマイズ機能を拡張 10/02 AWS Parallel Computing Service (PCS) で Slurm によるノード再起動のサポートを開始 10/18 AWS Parallel Computing Service (PCS) が Slurm v25.05 のサポートを開始 10/22 AWS Parallel Computing Service (PCS) がクラスターシークレットキーのローテーションのサポートを開始 11/12 AWS Parallel Computing Service (PCS) が Slurm CLI Filter プラグインのサポートを開始 11/13 Amazon DCV で Amazon EC2 Mac インスタンスのサポートを開始 11/17 AWS Parallel Computing Service が HIPAA 適格に 11/20 AWS Parallel Computing Service が Slurm REST API をサポート

rights reserved. 41 DTN: 気象シミュレーションにおけるHPC on AWSとAI活⽤の拡⼤ • エネルギー・農業・天候など、天気や相場に強く依存する産業向けにデータと分析サービスを提供するグローバルテック企業である DTN が、2020 年には AWS へフルクラウド化、HPC 利⽤拡⼤と近年の気象シミュレーションにおける AI 活⽤について説明。 • 50 年分の気象データでトレーニングした AI モデルが、従来型シミュレーションと⽐較して、予測時間・コスト効率・精度の⾯で上回る。 Accelerating Engineering: Cross-Industry HPC Cloud Transformations (CMP302) AIモデルの予測（破線）従来モデルの予測（実線）精度指標 ※ NVIDIA Earth-2 : 物理ベースの気象シミュレーションに、様々なMLモデルを統合できるプラットフォーム AI モデルがより不確実性が低い結果にハリケーンの挙動予測シミュレーションの従来型/AIモデルの⽐較不確実性が⼤きい不確実性が⼩さい

rights reserved. 42 Adv. Compute 関連セッション⼀覧 Keynotes Inovation Talk Breakout Session Chalk Talk Builderʼs Session Lightning Talk CMP302 | Accelerating Engineering: Cross-Industry HPC Cloud Transformations CMP340 | HPC at Scale with AWS Parallel Computing Service (PCS) CMP201 | Architecting Solution Patterns for GPU-Accelerated HPC and AI/ML CMP308 | AWS Tools: Automate Simulation Jobs Recovery & Maximize Cost Savings CMP309-R | Beyond the Console: Building Powerful AWS Operational Dashboards CMP211 | Hybrid Science: AI + Physics Simulations for Climate & Automotive Engineering CMP345 | Accelerate Drug Discovery R&D at Scale with AWS CMP350 | Accelerating Vehicle Innovation: ML & HPC Best Practices CMP406 | HPC Infrastructure for Financial Services using AWS Batch and AWS CDK CMP353 | Illumina DRAGEN Pipelines on F2 Instances with Nextflow & AWS Batch CMP354 | End-to-End Automotive Simulation: From Design to Analysis on AWS Keynote with Peter DeSantis and Dave Brown Unlocking possibilities with AWS Compute (INV207) EC2 VP Willem Visser が、 Intel/AMD/NVIDIA 最新 CPU/GPU (6-B300/GB300, Hpc8a)、 Graviton4、Nitro強化について発表。 Peter DeSantis and Dave Brown が、 Graviton5を搭載した EC2 M9g（プレビュー）や、 Appleの Swift 活⽤について説明。

rights reserved. 43 Adv. Compute 関連セッション業界別まとめ機械学習トレーニング気象 MFG/Auto Apollo Tyres Accelerates Engineering Workflows with HPC on AWS (IND368) Apollo TyresがAWS HPCに移⾏し、性能59%向上・コスト60%削減を実現した事例の紹介。エンジニアが効率的にシミュレーションジョブを管理できる基盤の導⼊について詳細に解説。 Speed to Impact: AI Factory in the Cloud with NVIDIA on AWS (AIM116) NVIDIAとAWSの協業による DGX Cloud を中⼼に、ServiceNow と SLB が、AIモデル開発とデプロイの経験を共有。クラウド上のターンキーAIファクトリーがどのようにミッションクリティカルなAIシステムの開発を加速させるかについて解説。 Mission-Ready HPC: From NOAA Today to AI Tomorrow (WPS205) ⽶国海洋⼤気庁（NOAA）が、HPC が従来のスーパーコンピューターからAI主導の予測へと進化する過程と、それが気象予測や災害対応にもたらす変化について解説。NOAAの気象予測システムがHPCとAIの融合によってどのように変⾰されているか解説。 Train high-performing AI models at scale on AWS (AIM365) Amazon SageMakerのSr. Product Managerらが、⼤規模AIモデルトレーニングの課題と、 SageMakerでどう解決するかについて解説。メタバース分野の先進企業であるRoblox が、 SageMaker HyperPodを使⽤して4D FMを構築した実例を紹介。⾦融 FIS: High-performance instant payment processing at massive scale (IND3318) FISとAWSが構築した、クラウドネイティブな即時決済処理ソリューションについて解説。FedNow、TCH RTP、暗号ステーブルコインなどの新しい即時決済スキームに対応し、99.99%の稼働率、⾼い回復⼒、オンプレミスのコアバンキング基盤とのシームレスな統合を実現。ヘルスケア Illumina DRAGEN Pipelines on F2 Instances with Nextflow & AWS Batch (CMP353) NextflowとAWS Batchを使⽤したDRAGENパイプラインの最適な構成について実演し、パフォーマンスの最適化と監視戦略に焦点を当て、バイオ製薬企業の実際の移⾏事例を紹介。 Sustainable computing for climate solutions (AIM417) オックスフォード⼤学の研究者たちが、⼤規模な地理空間データ処理と機械学習を通じて地域の⼤気質改善のために持続可能なHPCソリューションをどのように活⽤しているかの事例紹介。エネルギー Shell's HPC Evolution: Accelerating Seismic Processing with AWS GPU Innovation (IND3314) Shell のハイブリッドHPCにおける変⾰的な取り組みについて、オンプレミスと AWSのGPUを組み合わせ、地震探査処理とAIアプリケーションに活⽤した事例を紹介。 Accelerate AI workloads with UltraServers on Amazon SageMaker HyperPod (AIM362) Amazon SageMaker HyperPodとEC2 Ultra Serversによる⽣成AI開発の課題解決について解説しています。Perplexityは開発を40%⾼速化し、最⼤68%のコスト削減を実現しています。

JAWS-UG : HPC#21 - HPC on AWS Updates

JAWS-UG : HPC#21 - HPC on AWS Updates

More Decks by Tohoko Sugiyama

Other Decks in Technology

Featured

Transcript