さくらインターネット研究所の研究開発のご紹介とさくらONEについて

© SAKURA internet Inc. さくらインターネット研究所の研究開発のご紹介、とさくらONEについて 2025年9⽉3⽇さくらインターネット研究所菊地
俊介

© SAKURA internet Inc. 1. さくらインターネット研究所の紹介 2. さくらONEの構成 3. さくらONEの⼯夫ポイント
4. さくらONEのベンチマーク結果本資料について 2 FIT2025(情報科学技術フォーラム)のインダストリアルセッションにて、さくらインターネット研究所の取り組みについてご紹介いたします。特に、研究所が開発を推進した、さくらのスパコンである「さくらONE」の紹介をします。

© SAKURA internet Inc. 菊地俊介（東京都出⾝）⾃⼰紹介 3 所属
さくらインターネット研究所学歴早稲⽥⼤学⼤学院理⼯学研究科電⼦・情報通信学専攻修⼠課程修了早稲⽥⼤学⼤学院国際情報通信研究科博⼠課程単位取得退学職歴富⼠通（株）富⼠通研究所に就職ネットの研究やったり、SEやったり、NICTに出向したり、トイレIoT作ったりさくらインターネットに転職データ流通（FIWARE, NGSI）、OpenFogコンソーシアム（標準化）、量⼦（アニーリング）コンピュータ、Erlang/Elixir、分散システム専⾨エッジ・Fogコンピューティング（分散系システム）、スマートシティビジョナリーとして技術・社会、会社の将来を思い描く新規領域調査、PoC実施、社内適⽤コンサル、講師・講演趣味新技術調査、読書、最近はガンプラ作り @kikuzokikuzo https://note.mu/kikuzokikuzo https://www.facebook.com/ kikuzokikuzo https://twitter.com/kikuzokikuzo

© SAKURA internet Inc. 研究領域：研究員が研究テーマとして研究・検討しているもの • コンピューティング・ネットワーク • クラウド・コンピューティングの未来を形作る技術の研究開発。「システムプラットフォーム」「システム要素技術」「システムエンジニアリング」のサブカテゴリ。
• データ・機械学習・⼈⼯知能（AI） • コンピューティングプラットフォーム上で取り扱われるデータの記録・管理・流通、データ駆動で複雑な構造の理解や多様なシステムタスクの⾃動化に関する研究等。 • 教育・社会・組織 • デジタル社会に根ざした教育学や、研究開発組織のマネジメントに関する研究等。注⽬領域：研究員が要注⽬対象として調査・ウォッチしているもの • 量⼦コンピューティング、バイオインフォマティクスなど 4 さくらインターネット研究所の研究領域・注⽬領域

© SAKURA internet Inc. 5 研究領域クラウドコンピューティングエッジ・フォグコンピューティング SRE （Site
Reliability Engineering） AIインフラ⾼性能計算（HPC）量⼦暗号通信さくらインターネット博物館教育学研究組織開発 AI for Science AI for コンピューティングコンピューティング・ネットワークデータ・機械学習・⼈⼯知能（AI）教育・社会・組織データ流通 HPC向けデータライフサイクルデザインラボ・インフォマティクスシステムソフトウェアメール基盤ミドルウェアマテリアルズ・インフォマティクス AI創薬

© SAKURA internet Inc. • さくらインターネット研究所が主導して構築した、マネージド HPCクラスタ • ＝スーパーコンピュータさくらONE
、とは 6 HPCクラスタ概念図 https://www.weka.io/learn/guide/hpc/what-are-hpc-and-hpc-clusters/

© SAKURA internet Inc. スーパーコンピュータ、とは（1/2） 7 スーパーコンピュータとは、極めて⾼速な計算能⼒を持つコンピュータであり、主に科学技術計算、⼤規模なシミュレーション、気象予測、⼈⼯知能の学習、原⼦核研究など、⾮常に膨⼤なデータ処理や⾼精度な計算を必要とする分野で使⽤されます。
特徴的な点： • 膨⼤な並列処理能⼒（数⼗万〜数百万のプロセッサを同時に動作） • ⾼速な通信・データ転送性能 • 専⽤に最適化されたハードウェアとソフトウェア構成 • 特定の科学技術課題に特化した構造を持つ場合もある

© SAKURA internet Inc. スーパーコンピュータ、とは（2/2） 8 項⽬ PCクラスタ型（現代型）専⽤ハードウェア型（旧型）構成要素
汎⽤CPUやGPUを多数組み合わせたノード専⽤設計のプロセッサ・アーキテクチャ設計思想商⽤サーバやPC部品を多数連結（クラスタ）性能最適化を重視した⼀体型設計拡張性・柔軟性⾼い（ノード単位で増設可能）低い（設計に応じた固定構成）コスト⽐較的低コスト（商⽤部品活⽤）⾮常に⾼価（専⽤開発・製造）開発期間短い（既存技術の組み合わせ）⻑い（専⽤設計・開発が必要）メンテナンス容易（部品交換がしやすい）難しい（特注部品、供給困難）性能効率（理論性能/実効性能）効率は低め（通信・同期のオーバーヘッド）⾼効率（密結合・⾼速通信）代表例 Fugaku（富岳）、Summit、 Frontierなど Earth Simulator、Cray-1、SXシリーズなどネットワーク接続⾼速インターコネクト（InfiniBand など）内部バスや独⾃ネットワーク設計⽐較：PCクラスタ型 vs 専⽤ハードウェア型スーパーコンピュータ

© SAKURA internet Inc. • ⼤阪のデータセンター（OS3）に展開 • NVIDA社GPU H100を8基搭載したノードｘ100ノードで構成 •
GPU間のインターコネクトを⾼⽕⼒PHY H100構成の倍 (400Gbps x 8)に強化 • ストレージ⽤に独⽴したIF • Slurmスケジューラ等（ソフトウェア）が整備 • LLMの学習⽤に最適化された構成さくらONE構成 9

© SAKURA internet Inc. ノード（サーバ１台）の内部構成 11 PCIe Gen5 x16 の転送速度
(双⽅向)は 128 GB/s NIC(インターコネクト⽤)の転送速度は、400 Gb/s (=50 GB/s) GPU間の相互接続である NVSwitchの転送速度は1.8 TB/s

© SAKURA internet Inc. インターコネクトネットワークの構成 12 このような構成をRail- Optimized Topologyと呼ぶこの部分のネットワーク制御
にはEVPN (Ethernet VPN) が⽤いられる

© SAKURA internet Inc. インターコネクトネットワークの構成⽅法 16 • NIC越しのRDMAを実現する技術 • ２種類ある（本当は3種類あるがiWARPは省略）
• InfiniBandは、専⽤ネットワークで⾼いスループットと低いレイテンシーを実現できる通信⽅式。ただし⾼価。 • RoCE(v2) (RDMA over Converged Ethernet)は、Ethernet技術を⽤いて（そこそこ）⾼スループットとレイレイテンシーを実現している通信⽅式。汎⽤機材(NIC/スイッチ)を利⽤できる。

© SAKURA internet Inc. TOP500で49位を獲得！ 17 LINPACK : 33,950.00 [TFlop/s]
= 33.950 [PFlop/s] HPCG : 0.396295 [PFlop/s]

© SAKURA internet Inc. さくらONEの注⽬すべき点 18 • インターコネクトネットワークがEthernetで構成されている点 • 更に、オープン規格のSONiCベースで構成されている点
• TOP500の順位のうち、Ethernetベースで構成されているシステム(HPE Slingshotを除く)に限れば２番⽬、更に、SONiCベースで限定すれば１番！

© SAKURA internet Inc. まとめ 19 さくらインターネット研究所 • さくらの組織内研究所、研究員が各⾃テーマを持って研究を推進 •
コンピューティング、ネットワーク、AI、などを研究さくらONE • さくらインターネットで構成したスーパーコンピュータ • GPUx8を搭載したノードx100台で構成される • Slurmなどのスーパーコンピュータ⽤ソフトウェアを事前搭載 • 超⾼速なノード内GPU接続と、⾼速なノード間接続”インターコネクト”で構成 • インターコネクトにはRail Optimized Topologyを採⽤ • GPU間通信(RDMA)にはRoCEv2を採⽤ • インターコネクトスイッチにはSONiCベースのものを使⽤ベンチマーク • 2025年6⽉のTOP500で、さくらONEは世界で49位 • Ethernetベース、SONiCベースでは1位となっている

© SAKURA internet Inc. • 超個体型データセンターの実現に関する研究 • クラウドアプリケーションにおけるテレメトリー • AIインフラにおけるテレメトリー
• アプリケーションのライブマイグレーション • コンテナ型仮想化技術における隔離技術 • 量⼦暗号通信のクラウド・DCへの導⼊に関する検討 • エッジ・Fogコンピューティングに関する研究 • AI創薬のための⼤規模⾔語モデル(LLM) • ⼤規模⾔語モデル(LLM)を⽤いた知識抽出と構造化 • データのライフサイクルデザインに関する研究 • チェンジラボラトリーによる次世代型拡張的学習理論モデルの検討研究テーマ⼀覧各研究員の最新取り組みテーマコンピューティング・ネットワークデータ・機械学習・⼈⼯知能（AI）教育・社会・組織

© SAKURA internet Inc. RoCEv2（RDMA over Converged Ethernet） RoCE(v2)では、Ethernetでロスレス通信を実現するために、スイッチのフロー制御であるPFC(Priority-based
Flow Control)を有効にする(利⽤する)必要がある。

© SAKURA internet Inc. ベンチマークについてベンチマーク：コンピュータの性能や処理能⼒を客観的に評価・⽐較するためのテストや指標のこと。スーパーコンピュータの性能⽐較のための、いくつかの国際的なランキングがある。 • TOP500(LINPACK)
• HPCG • HPL-AI • MLPerf • IO500 スパコンベンチマークで⾼いスコアを出すためには、システム全体を⻑時間にわたって⾼負荷で安定稼働させる必要があり、ベンチマーク結果には、単なる性能だけでなく信頼性の⾼さも反映されるとされる。

© SAKURA internet Inc. TOP500 :最も有名なスーパーコンピュータランキング世界で最も⾼速なスーパーコンピュータを年に2回（6⽉と11⽉）ランキング形式で発表するプロジェクトで、1993年に始まったもの。このランキングでは「LINPACK （リンパック）」というベンチマークプログラムの実⾏性能が指標として使われる。 https://www.top500.org/
LINPACKでは、倍精度浮動⼩数点演算（⼩数点以下約16桁の精度で計算）に基づく処理速度を測定し、それによってコンピュータの「計算能⼒」を評価する。

© SAKURA internet Inc. HPCG : より実⽤的な処理に近いベンチマーク近年の科学技術計算ではより複雑で通信やメモリアクセスが多い処理が求められることが増えており、LINPACKだけでは現実的な性能を評価しきれないという課題があった。そこでLINPACKに代わる新たなベンチマークとしてHPCG（High
Performance Conjugate Gradients）が開発された。 https://www.hpcg-benchmark.org/ HPCGでは、「疎な⾏列（0が多い⾏列）」に対して、共役勾配法という⼿法を使って連⽴⼀次⽅程式を解く、という処理をモデル化している。LINPACKよりも現実に近い計算負荷や通信パターンを反映するため、実⽤性重視の性能指標として注⽬されている。

© SAKURA internet Inc. HPL-AI : AI時代のスーパーコンピュータ性能指標近年の⼈⼯知能（AI）分野では、低精度演算（約5〜10桁程度の精度）でも⼗分な学習が可能であることが分かってきた。GPUやAI専⽤チップなどは低精度の演算器を多数搭載し⾮常に⾼速に処理できるため、従来の倍精度ベンチマークでは最新のAI向け
スーパーコンピュータの能⼒を⼗分に評価できないという課題が⽣まれた。そこで提案されたのが、 HPL-AI（High Performance Linpack for AI）。 https://hpl-mxp.org/ HPL-AI（High Performance Linpack for AI）は、LINPACKの基本構造を活かしながら、連⽴⼀次⽅程式の解法において低精度演算を許可し、最終的に反復改良（Iterative Refinement）という技術を使って、最終的な計算結果の精度を確保するベンチマーク。⾼速な低精度演算と、⾼精度な仕上げ処理を組み合わせた2段階構成で、AI時代におけるスーパーコンピュータの性能を評価する。

© SAKURA internet Inc. MLPerf : AIの実⼒を測る世界標準のベンチマーク MLPerf（エムエルパフォーマンス）は、⼈⼯知能（AI）・機械学習（ML）モデルの性能を公平に評価するための国際的なベンチマークスイート。2018年に、Google、 NVIDIA、Meta（旧Facebook）、スタンフォード⼤学などの企業・研究機関が中⼼
となって設⽴した⾮営利団体「MLCommons」が主催している。 MLPerfは、利⽤シーン（ターゲット）に応じた複数のカテゴリ分け（Training(学習)、Inference(推論)、Tiny/Edge(⼩型デバイス・組み込み)、Mobile(モバイル端末)）がある。 MLPerf Inference v5.0 ・2025年4⽉に発表された MLPerf Inference v5.0 では、これまでのAIモデルに加え、左記の新しいベンチマークワークロードが導⼊され、特に⽣成AIやLLM（⼤規模⾔語モデル）を重視した構成となっている。ベンチマーク名概要・特徴 Llama 2 70B (Interactive) 約700億パラメータのLLMを使った対話型AI向け推論。低レイテンシー（応答の速さ）も評価軸。 RGAT (Relational Graph Attention Network) ソーシャルグラフや薬物発⾒などに使われるGNNモデル。グラフ構造データを扱う新分野の評価。 PointPainting (3D Object Detection) ⾃動運転などのエッジAIで使われる、カメラ＋Lidar による3D物体検出。リアルタイム性が重視される。これらはすべて実世界のアプリケーションに即した処理内容となっている

© SAKURA internet Inc. IO500 :ストレージシステムの総合性能 IO500 は、スーパーコンピュータや⾼性能コンピューティング（HPC）システムにおけるストレージ性能を評価するための国際的なベンチマーク。 TOP500が計算性能（FLOPS）を指
標にしているのに対し、IO500では、ストレージの読み書き速度やメタデータ処理性能など、実際のアプリケーションに近いI/O性能を総合的に測定する。 https://io500.org/

© SAKURA internet Inc. ベンチマークの種類まとめベンチマーク⽬的評価対象特徴 TOP500
HPC全体の計算性能倍精度演算⻑年使われている定番ランキング HPCG 実アプリに近い負荷疎⾏列×共役勾配法通信やメモリアクセスも評価 HPL-AI AI/HPCハイブリッド低精度＋反復改良 AI向けチップの性能も反映 MLPerf AI性能評価実アプリのAIワークロード LLM・⽣成AI・GNNなども含む、実⽤性重視 IO500 ストレージ性能（I/O 性能）評価・⽐較するファイルの読み書き速度（帯域幅）- メタデータ処理性能（ファイル作成・削除など）実際のHPCアプリを模したリアルなI/O負荷- 総合スコア（幾何平均）で性能を集約

© SAKURA internet Inc. HPL(High Performance LINPACK)で⾼性能を引き出すには？ HPLは複雑な数式（「連⽴⼀次⽅程式」）を⾼速に解くことで、コンピュータが1秒間にどれだけの計算を⾏えるか（FLOPS ‒
FLoating-point Operations Per Second）を評価する。このソフトは、⾮常に⼤きな⾏列（たとえば100万⾏×100万列のような）を使って計算を⾏う。そして、それを複数のコンピュータ（またはCPU/GPUのコア）で分担して処理する。したがって、HPLで⾼性能を引き出すには... • できるだけ⼤きな⾏列サイズ（N）を使う • ⾼速な数値計算ライブラリ（BLASなど）を使う • プロセス格⼦（PとQ）を適切に選び、通信の無駄を減らす

© SAKURA internet Inc. プロセス格⼦とその配置 HPLでは、参加するプロセス（≒並列で動く作業ユニット）をP⾏×Q列のグリッド状（格⼦状）に並べて管理する。これを「プロセス格⼦」と呼ぶ。例えば、8個のプロセスを使う場合には、次のような配置が考えられる。 • P=2,
Q=4 (2⾏4列) • P=4, Q=2 (4⾏2列) • P=1, Q=8 (1 ⾏8列) このプロセス格⼦を単位にして、ＮｘＮの巨⼤な⾏列を複数のプロセスに分割して処理をするのがHPLの実装になっている。この配置は、計算性能や通信効率に影響する重要な設計ポイント

© SAKURA internet Inc. PとQの設計⽅針 HPLでは、⾏列をこのP×Qの格⼦に沿って分割して配置し、それぞれのプロセスが⾃分の担当分を計算する。計算の中には、 • ⾏⽅向に情報を送る（Qに依存） •
列⽅向に情報を送る（Pに依存）といった通信（データのやり取り）が発⽣する。つまり、P,Qのバランスによって、 • 通信が効率的にできるか • 計算の負荷が均等に分散されるかが決まってくる。⼀般には、PとQの⽐率が偏りすぎない（例えば、P≒Qのように近い値）⽅が良いとされる。加えて、HPLでは、プロセス間の通信に「バイナリ交換（binary exchange）」アルゴリズムが使⽤されている。このアルゴリズムは、プロセス数が2の累乗である場合に最も効率的に動作する。具体的には、プロセス数が2の累乗であると、通信ステップ数が最⼩限に抑えられ、全体の通信時間が短縮される。

© SAKURA internet Inc. PとQの設計の実際（さくらONEの場合） (ノード、GPU数(ノード数x8)、P、Q)の組み合わせで、 88、704、32、22 92、736、16、46 92、736、 8、
92 96、768、32、24 96、768、16、48 96、768、 8、96 98、784、16、49 と試して、最終的には (98、784、16、49)が最良。

さくらインターネット研究所の研究開発のご紹介とさくらONEについて

さくらインターネット研究所の研究開発のご紹介とさくらONEについて

KIKUCHI Shunsuke

More Decks by KIKUCHI Shunsuke

Other Decks in Research

Featured

Transcript

© SAKURA internet Inc. さくらインターネット研究所の研究開発のご紹介、とさくらONEについて 2025年9⽉3⽇さくらインターネット研究所菊地

© SAKURA internet Inc. 1. さくらインターネット研究所の紹介 2. さくらONEの構成 3. さくらONEの⼯夫ポイント

© SAKURA internet Inc. 菊地俊介（東京都出⾝）⾃⼰紹介 3 所属

© SAKURA internet Inc. 5 研究領域クラウドコンピューティングエッジ・フォグコンピューティング SRE （Site

© SAKURA internet Inc. • さくらインターネット研究所が主導して構築した、マネージド HPCクラスタ • ＝スーパーコンピュータさくらONE

© SAKURA internet Inc. スーパーコンピュータ、とは（2/2） 8 項⽬ PCクラスタ型（現代型）専⽤ハードウェア型（旧型）構成要素

© SAKURA internet Inc. • ⼤阪のデータセンター（OS3）に展開 • NVIDA社GPU H100を8基搭載したノードｘ100ノードで構成 •

© SAKURA internet Inc. ⾼⽕⼒PHY(H100構成)との⽐較（スペック表） 10 さくらDC (⾮公開)

© SAKURA internet Inc. ノード（サーバ１台）の内部構成 11 PCIe Gen5 x16 の転送速度

© SAKURA internet Inc. インターコネクトネットワークの構成 12 このような構成をRail- Optimized Topologyと呼ぶこの部分のネットワーク制御

© SAKURA internet Inc. GPU間のRDMA通信の例 13 このような構成をRail- Optimized Topologyと呼ぶこの部分のネットワーク制御

© SAKURA internet Inc. GPU間のRDMA通信の例 14 このような構成をRail- Optimized Topologyと呼ぶこの部分のネットワーク制御

© SAKURA internet Inc. ネットワーク装置構成 15 汎⽤ネットワーク製品を使⽤ vendor SONiC

© SAKURA internet Inc. インターコネクトネットワークの構成⽅法 16 • NIC越しのRDMAを実現する技術 • ２種類ある（本当は3種類あるがiWARPは省略）

© SAKURA internet Inc. TOP500で49位を獲得！ 17 LINPACK : 33,950.00 [TFlop/s]

© SAKURA internet Inc. さくらONEの注⽬すべき点 18 • インターコネクトネットワークがEthernetで構成されている点 • 更に、オープン規格のSONiCベースで構成されている点

© SAKURA internet Inc. まとめ 19 さくらインターネット研究所 • さくらの組織内研究所、研究員が各⾃テーマを持って研究を推進 •

© SAKURA internet Inc. 以下付録

© SAKURA internet Inc. • 超個体型データセンターの実現に関する研究 • クラウドアプリケーションにおけるテレメトリー • AIインフラにおけるテレメトリー

© SAKURA internet Inc. RoCEv2（RDMA over Converged Ethernet） RoCE(v2)は、Ethernet上にRDMAを流すための通信⽅式。v2ではUDPベースとなり、L2/L3のネットワーク上で利⽤できるようになった。

© SAKURA internet Inc. RoCEv2（RDMA over Converged Ethernet） RoCE(v2)では、Ethernetでロスレス通信を実現するために、スイッチのフロー制御であるPFC(Priority-based

© SAKURA internet Inc. 「⾼⽕⼒」：⾼性能なGPUを利⽤可能な⽣成AI向けクラウドサービスさくらの⾼⽕⼒サービスラインナップ

© SAKURA internet Inc. さくらの⾼⽕⼒サービスラインナップ

© SAKURA internet Inc.

© SAKURA internet Inc.

© SAKURA internet Inc. ベンチマークの種類まとめベンチマーク⽬的評価対象特徴 TOP500

© SAKURA internet Inc. HPL(High Performance LINPACK)で⾼性能を引き出すには？ HPLは複雑な数式（「連⽴⼀次⽅程式」）を⾼速に解くことで、コンピュータが1秒間にどれだけの計算を⾏えるか（FLOPS ‒

© SAKURA internet Inc. PとQの設計⽅針 HPLでは、⾏列をこのP×Qの格⼦に沿って分割して配置し、それぞれのプロセスが⾃分の担当分を計算する。計算の中には、 • ⾏⽅向に情報を送る（Qに依存） •

© SAKURA internet Inc. PとQの設計の実際（さくらONEの場合） (ノード、GPU数(ノード数x8)、P、Q)の組み合わせで、 88、704、32、22 92、736、16、46 92、736、 8、

© SAKURA internet Inc. ベンチマーク結果 LINPACK : 33,950.00 [TFlop/s] =

さくらインターネット研究所の 研究開発のご紹介とさくらONEについて

さくらインターネット研究所の 研究開発のご紹介とさくらONEについて

More Decks by KIKUCHI Shunsuke

Other Decks in Research

Featured

Transcript

さくらインターネット研究所の研究開発のご紹介とさくらONEについて

さくらインターネット研究所の研究開発のご紹介とさくらONEについて