Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SONiCでマルチテナントサービスを1年間運用してみた

 SONiCでマルチテナントサービスを1年間運用してみた

SONiCでマルチテナントサービスを1年間運用してみた
三井情報株式会社
芹田 大輔

SONiC Workshop Japan 2025
https://sonic.connpass.com/event/345182/

Tweet

Transcript

  1. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. 自己紹介

    1 芹田 大輔  三井情報 株式会社 ◼ ソリューション技術グループ イノベーション推進部 第二技術室 ◼ L2/L3スイッチを取り扱うネットワークエンジニア ◼ 2001年~ (当時はアダムネット株式会社)  出身:秋田県  その他:猫と住んでます
  2. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. アジェンダ

    2  HPC環境の構成イメージ  1年かけて追加してきたサービス ◼ コンピュートファブリック ① Multi Node GPUサービスの開始 ② 障害:ポートがリンクアップしない ③ 障害:ネットワークの試験で通信が回復しない ◼ 運用自動化  1年やってみて...
  3. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. HPC環境の構成イメージ

    3 2024年2月(サービス開始時点) • ネットワーク :RoCEv2、100Gbps • GPUサーバ :1筐体あたりH100を8枚搭載したGPUサーバ、高性能CPUや大容量RAM • ストレージ :高速並列ファイルシステム、NVMe高速ストレージ • ソフトウェアスタック:Slurmなどのジョブ管理、CUDA等のGPU開発環境、並列計算ライブラリ Spine Spine Leaf Leaf Leaf Leaf Leaf Leaf GPUサーバ VM基盤 コンテナ基盤 NFS/Lustre ストレージ VPN ファイアウォール インターネット User Fabric 100GbE
  4. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. HPC環境の構成イメージ

    4 2025年5月現在 • ネットワーク :RoCEv2、100Gbps、400Gbps • GPUサーバ :1筐体あたりH100を8枚搭載したGPUサーバ、高性能CPUや大容量RAM、Multi Node GPU • ストレージ :高速並列ファイルシステム、NVMe高速ストレージ • ソフトウェアスタック:Slurmなどのジョブ管理、CUDA等のGPU開発環境、並列計算ライブラリ Spine Spine Leaf Leaf Leaf Leaf GPUサーバ Compute Fabric 400GbE Spine Spine Leaf Leaf Leaf Leaf Leaf Leaf VM基盤 コンテナ基盤 NFS/Lustre ストレージ VPN ファイアウォール インターネット User Fabric 100GbE
  5. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. ①

    Multi Node GPUサービスの開始 • 設計の基本要素:通信帯域幅1:1、ロスレス ✓ ネットワークテスタやNCCL Testsで検証、GPU通信の優先やECNの動作が期待通りであることを確認 ✓ 実際のユーザ様のMulti Nodeのワークロードも問題無し、サービス提供が出来ている 1年かけて追加してきたサービス:コンピュートファブリック 5 Spine Leaf Leaf Spine Leaf Leaf 400G×5本=2Tbps GPU1つにつき200G GPU2個分の400G ・・・合計9台 NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU NIC GPU Leaf 1台当たりのUplink → 4Tbps Leaf 1台当たりのDownlink → 3.6Tbps(9台×400G)
  6. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. 1年かけて追加してきたサービス:コンピュートファブリック

    6 ② 障害:ポートがリンクアップしない AOCケーブルのメーカにファームを書き換えてもらうことでリンクアップするように。 ただ、稀にサーバ側でポートの初期化に失敗することがあり、この場合はケーブルの抜き差しが必要。 • GPUサーバ側のケーブルの抜き差し ➢ 抜いて30秒待ってから刺す → 繰り返せば復旧する • SONiCスイッチの再起動 ➢ ほとんど復旧できない • GPUサーバの再起動 ➢ 代わりに別ポートがダウンすることも。。。
  7. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. 1年かけて追加してきたサービス:コンピュートファブリック

    7 ③ 障害:ネットワークの障害試験で通信が欠落する ⚫ 対処方法はgraceful-restartなどによるBGPのステータス変動 • 対象のノードはGPUサーバの通信状況から判別 • SONiCのTableでは判断できない ➢ EVPN ARP/ND Suppression設定を実施 ✓ GPUサーバ間通信を確保 • SONiC同士のPingはNGのまま... 項番 項目 補足 Leaf1 Leaf2 Leaf3 Leaf4 DGX#6, #7 1 Spine1障害 Spine1の電源断を実施 Leaf向けping確認、DGX間通信確認 〇 〇 NG 〇 NG 2 Spine1の電源投入を実施 Leaf向けping確認、DGX間通信確認 NG 〇 NG 〇 NG 3 Spine2障害 Spine2の電源断を実施 Leaf向けping確認、DGX間通信確認 NG 〇 〇 〇 NG 4 Spine2の電源投入を実施 Leaf向けping確認、DGX間通信確認 NG 〇 〇 〇 NG Spine Spine Leaf Leaf Leaf Leaf GPU GPU GPU GPU GPU GPU GPU GPU Spine Spine Leaf Leaf Leaf Leaf GPU GPU GPU GPU GPU GPU GPU GPU GPU8個×2台のフルメッシュ確認、1つでもNGがある場合はNG判定↑
  8. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. 1年かけて追加してきたサービス:運用自動化

    8 テナント追加・削除の自動化 手作業による課題 作業項目 スイッチ、GPUサーバ、ストレージ、仮想マシン、コンテナ、セキュリティ... 人的リソース サービス対応以外にもお仕事有り 効率や品質 得意不得意、作業品質、作業時間 冪等性 想定外事象への対処
  9. ©2025 MITSUI KNOWLEDGE INDUSTRY CO., LTD. All rights reserved. 1年やってみて...

    9 SONiCの(運用中の)障害件数 まさかの0件 ➢ シンプルにデザインしたこと ➢ OSSであること 課題 ➢ 未解決事象(2スライド前の件) ➢ VersionUP ➢ 自動化 確認作業の自動化 ロールバック機能の追加 マイクロサービスアーキテクチャの考え方の取り込み まだまだやれることは沢山ありそう...