Upgrade to Pro — share decks privately, control downloads, hide ads and more …

さくらインターネット研究所の 研究開発のご紹介とさくらONEについて

さくらインターネット研究所の 研究開発のご紹介とさくらONEについて

2025年9月3日(水)〜9月5日(金)で開催されました、FIT2025 (https://www.ipsj.or.jp/event/fit/fit2025/index.html) のインダストリアルセッションにて「さくらインターネット研究所の研究開発のご紹介とさくらONEについて」というタイトルで発表しました。

発表資料を公開いたします。
ほとんどが「さくらONE」の解説になっておりますので、ご参照ください。

Avatar for KIKUCHI Shunsuke

KIKUCHI Shunsuke

September 30, 2025
Tweet

More Decks by KIKUCHI Shunsuke

Other Decks in Research

Transcript

  1. © SAKURA internet Inc. 1. さくらインターネット研究所の紹介 2. さくらONEの構成 3. さくらONEの⼯夫ポイント

    4. さくらONEのベンチマーク結果 本資料について 2 FIT2025(情報科学技術フォーラム)のインダストリアルセッショ ンにて、さくらインターネット研究所の取り組みについてご紹介 いたします。 特に、研究所が開発を推進した、さくらのスパコンである「さく らONE」の紹介をします。
  2. © SAKURA internet Inc. 菊地 俊介 (東京都出⾝) ⾃⼰紹介 3 所属

    さくらインターネット研究所 学歴 早稲⽥⼤学⼤学院 理⼯学研究科 電⼦・情報通信学専攻 修⼠課程修了 早稲⽥⼤学⼤学院 国際情報通信研究科 博⼠課程単位取得退学 職歴 富⼠通(株)富⼠通研究所に就職 ネットの研究やったり、SEやったり、NICTに出向したり、 トイレIoT作ったり さくらインターネットに転職 データ流通(FIWARE, NGSI)、OpenFogコンソーシアム(標準化)、 量⼦(アニーリング)コンピュータ、Erlang/Elixir、分散システム 専⾨ エッジ・Fogコンピューティング(分散系システム)、スマートシティ ビジョナリーとして技術・社会、会社の将来を思い描く 新規領域調査、PoC実施、社内適⽤コンサル、講師・講演 趣味 新技術調査、読書、最近はガンプラ作り @kikuzokikuzo https://note.mu/kikuzokikuzo https://www.facebook.com/ kikuzokikuzo https://twitter.com/kikuzokikuzo
  3. © SAKURA internet Inc. 研究領域:研究員が研究テーマとして研究・検討しているもの • コンピューティング・ネットワーク • クラウド・コンピューティングの未来を形作る技術の研究開発。「システムプラット フォーム」「システム要素技術」「システムエンジニアリング」のサブカテゴリ。

    • データ・機械学習・⼈⼯知能(AI) • コンピューティングプラットフォーム上で取り扱われるデータの記録・管理・流通、 データ駆動で複雑な構造の理解や多様なシステムタスクの⾃動化に関する研究等。 • 教育・社会・組織 • デジタル社会に根ざした教育学や、研究開発組織のマネジメントに関する研究等。 注⽬領域:研究員が要注⽬対象として調査・ウォッチしているもの • 量⼦コンピューティング、バイオインフォマティクスなど 4 さくらインターネット研究所の研究領域・注⽬領域
  4. © SAKURA internet Inc. 5 研究領域 クラウドコンピューティング エッジ・フォグコンピューティング SRE (Site

    Reliability Engineering) AIインフラ ⾼性能計算(HPC) 量⼦暗号通信 さくらインターネット博物館 教育学 研究組織開発 AI for Science AI for コンピューティング コンピューティング ・ネットワーク データ・機械学習 ・⼈⼯知能(AI) 教育・社会・組織 データ流通 HPC向けデータ ライフサイクルデザイン ラボ・インフォ マティクス システム ソフトウェア メール基盤 ミドルウェア マテリアルズ・ インフォマティクス AI創薬
  5. © SAKURA internet Inc. スーパーコンピュータ、とは(1/2) 7 スーパーコンピュータとは、極めて⾼速な計算能⼒を持つコン ピュータであり、主に科学技術計算、⼤規模なシミュレーション、気 象予測、⼈⼯知能の学習、原⼦核研究など、⾮常に膨⼤なデータ処理 や⾼精度な計算を必要とする分野で使⽤されます。

    特徴的な点: • 膨⼤な並列処理能⼒(数⼗万〜数百万のプロセッサを同時に動作) • ⾼速な通信・データ転送性能 • 専⽤に最適化されたハードウェアとソフトウェア構成 • 特定の科学技術課題に特化した構造を持つ場合もある
  6. © SAKURA internet Inc. スーパーコンピュータ、とは(2/2) 8 項⽬ PCクラスタ型(現代型) 専⽤ハードウェア型(旧型) 構成要素

    汎⽤CPUやGPUを多数組み合わせ たノード 専⽤設計のプロセッサ・アーキテク チャ 設計思想 商⽤サーバやPC部品を多数連結 (クラスタ) 性能最適化を重視した⼀体型設計 拡張性・柔軟性 ⾼い(ノード単位で増設可能) 低い(設計に応じた固定構成) コスト ⽐較的低コスト(商⽤部品活⽤) ⾮常に⾼価(専⽤開発・製造) 開発期間 短い(既存技術の組み合わせ) ⻑い(専⽤設計・開発が必要) メンテナンス 容易(部品交換がしやすい) 難しい(特注部品、供給困難) 性能効率(理論性能/実効性能) 効率は低め(通信・同期のオー バーヘッド) ⾼効率(密結合・⾼速通信) 代表例 Fugaku(富岳)、Summit、 Frontierなど Earth Simulator、Cray-1、SXシリー ズなど ネットワーク接続 ⾼速インターコネクト(InfiniBand など) 内部バスや独⾃ネットワーク設計 ⽐較:PCクラスタ型 vs 専⽤ハードウェア型スーパーコンピュータ
  7. © SAKURA internet Inc. • ⼤阪のデータセンター(OS3)に展開 • NVIDA社GPU H100を8基搭載したノードx100ノードで構成 •

    GPU間のインターコネクトを⾼⽕⼒PHY H100構成の倍 (400Gbps x 8)に強化 • ストレージ⽤に独⽴したIF • Slurmスケジューラ等(ソフトウェア)が整備 • LLMの学習⽤に最適化された構成 さくらONE構成 9
  8. © SAKURA internet Inc. ノード(サーバ1台)の内部構成 11 PCIe Gen5 x16 の転送速度

    (双⽅向)は 128 GB/s NIC(インターコネクト⽤)の 転送速度は、400 Gb/s (=50 GB/s) GPU間の相互接続である NVSwitchの転送速度は1.8 TB/s
  9. © SAKURA internet Inc. インターコネクトネットワークの構成⽅法 16 • NIC越しのRDMAを実現する技術 • 2種類ある(本当は3種類あるがiWARPは省略)

    • InfiniBandは、専⽤ネットワークで⾼いスループットと低いレイテンシーを 実現できる通信⽅式。ただし⾼価。 • RoCE(v2) (RDMA over Converged Ethernet)は、Ethernet技術を⽤いて (そこそこ)⾼スループットとレイレイテンシーを実現している通信⽅式。 汎⽤機材(NIC/スイッチ)を利⽤できる。
  10. © SAKURA internet Inc. さくらONEの注⽬すべき点 18 • インターコネクトネットワークがEthernetで構成されている点 • 更に、オープン規格のSONiCベースで構成されている点

    • TOP500の順位のうち、Ethernetベースで構成されているシス テム(HPE Slingshotを除く)に限れば2番⽬、更に、SONiCベー スで限定すれば1番!
  11. © SAKURA internet Inc. まとめ 19 さくらインターネット研究所 • さくらの組織内研究所、研究員が各⾃テーマを持って研究を推進 •

    コンピューティング、ネットワーク、AI、などを研究 さくらONE • さくらインターネットで構成したスーパーコンピュータ • GPUx8を搭載したノードx100台で構成される • Slurmなどのスーパーコンピュータ⽤ソフトウェアを事前搭載 • 超⾼速なノード内GPU接続と、⾼速なノード間接続”インターコネクト”で構成 • インターコネクトにはRail Optimized Topologyを採⽤ • GPU間通信(RDMA)にはRoCEv2を採⽤ • インターコネクトスイッチにはSONiCベースのものを使⽤ ベンチマーク • 2025年6⽉のTOP500で、さくらONEは世界で49位 • Ethernetベース、SONiCベースでは1位となっている
  12. © SAKURA internet Inc. • 超個体型データセンターの実現に関する研究 • クラウドアプリケーションにおけるテレメトリー • AIインフラにおけるテレメトリー

    • アプリケーションのライブマイグレーション • コンテナ型仮想化技術における隔離技術 • 量⼦暗号通信のクラウド・DCへの導⼊に関する検討 • エッジ・Fogコンピューティングに関する研究 • AI創薬のための⼤規模⾔語モデル(LLM) • ⼤規模⾔語モデル(LLM)を⽤いた知識抽出と構造化 • データのライフサイクルデザインに関する研究 • チェンジラボラトリーによる次世代型拡張的学習理論モデルの検討 研究テーマ ⼀覧 各研究員の最新取り組みテーマ コンピューティング・ネットワーク データ・機械学習・⼈⼯知能(AI) 教育・社会・組織
  13. © SAKURA internet Inc. ベンチマークについて ベンチマーク:コンピュータの性能や処理能⼒を客観的に評価・⽐較するためのテス トや指標のこと。 スーパーコンピュータの性能⽐較のための、いくつかの国際的なランキングがある。 • TOP500(LINPACK)

    • HPCG • HPL-AI • MLPerf • IO500 スパコンベンチマークで⾼いスコアを出すためには、システム全体を⻑時間にわたっ て⾼負荷で安定稼働させる必要があり、ベンチマーク結果には、単なる性能だけでな く信頼性の⾼さも反映されるとされる。
  14. © SAKURA internet Inc. HPCG : より実⽤的な処理に近いベンチマーク 近年の科学技術計算ではより複雑で通信やメモリアクセスが多い処理が求められるこ とが増えており、LINPACKだけでは現実的な性能を評価しきれないという課題が あった。そこでLINPACKに代わる新たなベンチマークとしてHPCG(High

    Performance Conjugate Gradients)が開発された。 https://www.hpcg-benchmark.org/ HPCGでは、「 疎な⾏列(0が多い⾏列) 」 に対して、共役勾配法 という⼿法を使って 連⽴⼀次⽅程式を解く、という処理をモデル 化している。LINPACKよりも現実に近い計 算負荷や通信パターンを反映するため、実⽤ 性重視の性能指標として注⽬されている。
  15. © SAKURA internet Inc. HPL-AI : AI時代のスーパーコンピュータ性能指標 近年の⼈⼯知能(AI)分野では、低精度演算(約5〜10桁程度の精度)でも⼗分な学 習が可能であることが分かってきた。GPUやAI専⽤チップなどは低精度の演算器を多 数搭載し⾮常に⾼速に処理できるため、従来の倍精度ベンチマークでは最新のAI向け

    スーパーコンピュータの能⼒を⼗分に評価できないという課題が⽣まれた。そこで提 案されたのが、 HPL-AI(High Performance Linpack for AI)。 https://hpl-mxp.org/ HPL-AI(High Performance Linpack for AI)は、LINPACKの基本構造を活かしなが ら、連⽴⼀次⽅程式の解法において低精度演 算を許可し、最終的に反復改良(Iterative Refinement)という技術を使って、最終的 な計算結果の精度を確保するベンチマーク。 ⾼速な低精度演算と、⾼精度な仕上げ処理を 組み合わせた2段階構成 で、AI時代における スーパーコンピュータの性能を評価する。
  16. © SAKURA internet Inc. MLPerf : AIの実⼒を測る世界標準のベンチマーク MLPerf(エムエルパフォーマンス)は、⼈⼯知能(AI)・機械学習(ML)モデルの 性能を公平に評価するための国際的なベンチマークスイート。2018年に、Google、 NVIDIA、Meta(旧Facebook)、スタンフォード⼤学などの企業・研究機関が中⼼

    となって設⽴した⾮営利団体「MLCommons」が主催している。 MLPerfは、利⽤シーン(ターゲット)に応じた複数のカテゴリ分け(Training(学 習)、Inference(推論)、Tiny/Edge(⼩型デバイス・組み込み)、Mobile(モバイル端 末))がある。 MLPerf Inference v5.0 ・2025年4⽉に発表された MLPerf Inference v5.0 では、 これまでのAIモデルに加え、 左記の新しいベンチマーク ワークロードが導⼊され、特 に⽣成AIやLLM(⼤規模⾔語 モデル)を重視した構成と なっている。 ベンチマーク名 概要・特徴 Llama 2 70B (Interactive) 約700億パラメータのLLMを使った対話型AI向け推論。 低レイテンシー(応答の速さ)も評価軸。 RGAT (Relational Graph Attention Network) ソーシャルグラフや薬物発⾒などに使われるGNNモ デル。グラフ構造データを扱う新分野の評価。 PointPainting (3D Object Detection) ⾃動運転などのエッジAIで使われる、カメラ+Lidar による3D物体検出。リアルタイム性が重視される。 これらはすべて 実世界のアプリケーションに即した処理内容 となっている
  17. © SAKURA internet Inc. IO500 :ストレージシステムの総合性能 IO500 は、スーパーコンピュータや⾼性能コンピューティング(HPC)システムに おけるストレージ性能を評価するための国際的なベンチマーク。 TOP500が計算性能(FLOPS)を指

    標にしているのに対し、IO500では、 ストレージの読み書き速度やメタ データ処理性能など、実際のアプリ ケーションに近いI/O性能 を総合的 に測定する。 https://io500.org/
  18. © SAKURA internet Inc. ベンチマークの種類まとめ ベンチマーク ⽬的 評価対象 特徴 TOP500

    HPC全体の計算性能 倍精度演算 ⻑年使われている定番ランキング HPCG 実アプリに近い負荷 疎⾏列×共役勾配法 通信やメモリアクセスも評価 HPL-AI AI/HPCハイブリッド 低精度+反復改良 AI向けチップの性能も反映 MLPerf AI性能評価 実アプリのAIワークロード LLM・⽣成AI・GNNなども含む、 実⽤性重視 IO500 ストレージ性能(I/O 性能)評価・⽐較す る ファイルの読み書き速度 (帯域幅)- メタデータ処 理性能(ファイル作成・削 除など) 実際のHPCアプリを模したリアル なI/O負荷- 総合スコア(幾何平 均)で性能を集約
  19. © SAKURA internet Inc. HPL(High Performance LINPACK)で⾼性能を引き出すには? HPLは複雑な数式(「連⽴⼀次⽅程式」)を⾼速に解くことで、コンピュータが1秒間 にどれだけの計算を⾏えるか(FLOPS ‒

    FLoating-point Operations Per Second) を評価する。このソフトは、⾮常に⼤きな⾏列(たとえば100万⾏×100万列のよう な)を使って計算を⾏う。そして、それを複数のコンピュータ(またはCPU/GPUの コア)で分担して処理する。 したがって、HPLで⾼性能を引き出すには... • できるだけ⼤きな⾏列サイズ(N)を使う • ⾼速な数値計算ライブラリ(BLASなど)を使う • プロセス格⼦(PとQ)を適切に選び、通信の無駄を減らす
  20. © SAKURA internet Inc. プロセス格⼦とその配置 HPLでは、参加するプロセス(≒並列で動く作業ユニット)をP⾏×Q列のグリッド状(格⼦ 状)に並べて管理する。これを「プロセス格⼦」と呼ぶ。 例えば、8個のプロセスを使う場合には、次のような配置が考えられる。 • P=2,

    Q=4 (2⾏4列) • P=4, Q=2 (4⾏2列) • P=1, Q=8 (1 ⾏8列) このプロセス格⼦を単位にして、NxNの巨⼤な⾏列を複数のプロセスに分割して処理をする のがHPLの実装になっている。 この配置は、計算性能や通信効率に影響する重要な設計ポイント
  21. © SAKURA internet Inc. PとQの設計⽅針 HPLでは、⾏列をこのP×Qの格⼦に沿って分割して配置し、それぞれのプロセスが⾃分の担当 分を計算する。計算の中には、 • ⾏⽅向に情報を送る(Qに依存) •

    列⽅向に情報を送る(Pに依存) といった通信(データのやり取り)が発⽣する。 つまり、P,Qのバランスによって、 • 通信が効率的にできるか • 計算の負荷が均等に分散されるか が決まってくる。⼀般には、PとQの⽐率が偏りすぎない(例えば、P≒Qのように近い値)⽅ が良いとされる。 加えて、HPLでは、プロセス間の通信に「バイナリ交換(binary exchange)」アルゴリズム が使⽤されている。このアルゴリズムは、プロセス数が2の累乗である場合に最も効率的に動 作する。具体的には、プロセス数が2の累乗であると、通信ステップ数が最⼩限に抑えられ、 全体の通信時間が短縮される。
  22. © SAKURA internet Inc. PとQの設計の実際(さくらONEの場合) (ノード、GPU数(ノード数x8)、P、Q)の組み合わせで、 88、704、32、22 92、736、16、46 92、736、 8、

    92 96、768、32、24 96、768、16、48 96、768、 8、96 98、784、16、49 と試して、最終的には (98、784、16、49)が最良。