Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~

SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~

SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~

さくらインターネット株式会社
黒澤 潔裕

SONiC Workshop Japan 2026
https://sonic.connpass.com/event/385386/

Avatar for SONiC Users Group Japan

SONiC Users Group Japan

June 19, 2026

More Decks by SONiC Users Group Japan

Other Decks in Technology

Transcript

  1. © SAKURA internet Inc. 本日の位置づけ 1 2025/5 SONiC Workshop Japan

    2025 (※1) 2026/2 JANOG57 (※3) 2025/10 The Linux Foundation SONiC Project User Story (※2) Linuxのナレッジを活用した 迅速な立ち上げと自動化 世界49位のクラスタにおける OSS Ecosystemの活用 GPUクラスタにおける マルチベンダーの実践 実装編 SONiC導入においてはNOSに留まらない理解と自動化が鍵になった (※1)https://speakerdeck.com/sonic/sonicdegou-zhu-yun-yong-surusheng-cheng-aixiang-kepaburitukukuraudonetutowaku (※2)https://sonicfoundation.dev/wp-content/uploads/sites/21/2025/10/sonic_userstory_sakura.pdf (※3)https://www.janog.gr.jp/meeting/janog57/hpc/
  2. © SAKURA internet Inc. 自己紹介 3 さくらインターネット株式会社 サービス統括本部 サービス基盤部 黒澤

    潔裕 / KUROSAWA Kiyohiro 2024/9 さくらインターネット入社 2025/1 ホワイトボックスを活用した H100 GPUクラスタ設計 2026/2 B200 1100GPUを擁する 新クラスタ設計 2025/10 The Linux Foudation SONiC Projectに対して成功事例を寄稿 通信・コンテンツ事業者等 DCネットワークの設計に 従事
  3. © SAKURA internet Inc. 会社概要 4 (※2026年3月末日現在) 会社概要 商 号

    さくらインターネット株式会社 本社所在地 大阪府大阪市北区大深町6番38号 創業年月日 1996年12月23日 (会社設立は1999年8月17日) 上場年月日 2005年10月12日(マザーズ) 2015年11月27日 (東証一部(現プライム市場)へ市場変更) 資 本 金 112億8,316万円 従 業 員 数 1,135名(連結) 石狩データセンター開設 2011 東証マザーズ上場 2005 1996 1999 株式会社を設立 / 最初のデータセンター開設 東証一部に市場変更 2015 さくらインターネット創業 2021 創業25周年 2022 2005年10月に東京証券取引所マザーズ市場に上場 2011年11月、北海道石狩市に国内最大級の 郊外型大規模データセンターを開設 2015年11月に東京証券取引所市場第一部に市場変更 2021年12月、創業25周年 東証プライム市場へ移行 東京証券取引所 新市場区分のプライム市場へ移行 1999年8月に株式会社を設立。10月には、第1号となる データセンターを大阪市中央区に開設 1996年12月に現社長の田中邦裕が、 舞鶴高専在学中に学内ベンチャーとして創業 沿革 ガバメントクラウド提供事業者に採択(国産初) 2023年11月の条件付き採択を経て、2026年3月「さくらのクラウド」 が国産で初のガバメントクラウドサービス提供事業者に採択 2026
  4. © SAKURA internet Inc. 生成AI基盤の沿革 5 2016年9月 さくらの専用サーバ 高火力シリーズの提供開始 2023年6月

    特定重要物資「クラウドプログラム」の供給確保計画に関する経済産業省の認定(※1) 2024年1月 生成AI向けクラウドサービス ベアメタルシリーズ「高火力 PHY」の提供開始 現行提供GPU:NVIDIA H100, H200, B200 2011年11月 さくらインターネット自社運営の石狩データセンターを開所 (※1)AI向けの高度な電子計算機提供に対する、経済産業省による認定及びNEDOからの助成金交付事業 (※2)ISC2025 TOP500 https://www.top500.org/system/180383/ 2025年9月 マネージド型スーパーコンピュータ「さくらONE」の提供開始 現行提供GPU:NVIDIA H100, H200, B200 2025年6月 当社HPCクラスタが性能ランキングTOP500で世界49位を獲得(※2) 2026年2月 B200 GPU 1100基を擁する最新世代のクラスターをサービスイン 2024年4月に再度の認定
  5. © SAKURA internet Inc. SONiCを活用したクラスタ 6 稼働GPU H100 800基 HGX

    H100 x 100台 スイッチ台数 Tomahawk5 26台 Edgecore AIS800-64O(800G 64 Port) 1,400 over 約38kW スイッチの消費電力 ポート数 GPU 800 / Storage 200 / Switch間 400 + Clos × Full bisection Topology CLIによる積算(無効電力は考慮外) Storage Servers ・・・ ・・・ ・・・ 1 8 ・・ 1 8 ・・ 1 8 ・・ 1 8 ・・
  6. © SAKURA internet Inc. ・・・ ・・・ ・・・ 1 8 ・・

    1 8 ・・ 1 8 ・・ 1 8 ・・ 稼働中のサービス 7 同一の基盤からお客様の要望に合わせた提供 GPUベアメタルサーバー マネージドHPCクラスタサービス Scheduler GPU8基のサーバーをベアメタル提供 構築済みのHPCクラスタをマネージド提供 マルチベンダー戦略の一環としてSONiCを活用
  7. © SAKURA internet Inc. Slurm さくらONEとは 8 ・・・ ・・・ ・・・

    1 8 ・・ 1 8 ・・ 1 8 ・・ 1 8 ・・ さくらインターネット研究所 によって設計・運用 Job マルチテナンシー提供された 専用ネットワーク TOP500にランクインした技術を商用化したHPCサービス 実際の研究者によって提供されている
  8. © SAKURA internet Inc. 迅速なデリバリーを支える体制 9 Distributor QA 技術サポート Slackを中心として三社が直接会話できる体制

    早期の段階からスピード感を重視した体制を構築 SAKURA internet Workspace 3名程度 ケース作成 Patch提供/QA 軽微な内容であれば 1日でClose
  9. © SAKURA internet Inc. 運用する中で色々ありました 11 ⚫ Hardwareの不具合 ⚫ 一定条件でARPが更新されない

    ⚫ 不意にOSがHang-up ⚫ 4台同時にRebootしたら、全台FRRがDown ⚫ 突然TransceiverがDownして抜き差しが必要 ⚫ RMA(2026年5月時点で 1台) ⚫ 最新のcommunityの修正が未反映 ⚫ CPUにおけるP-State/C-State Errata ⚫ 経路消込時の不整合 ⚫ 対向の400G transceiverにFirmware不具合 事象 原因
  10. © SAKURA internet Inc. 運用する中で色々ありました 12 ネットワークの提供はOSのBugとの戦い…? ⚫ RMA(2026年5月時点で 1台)

    ⚫ 最新のcommunityの修正が未反映 ⚫ CPUにおけるP-State/C-State Errata ⚫ 経路消込時の不整合 ⚫ 対向の400G transceiverにFirmware不具合 解決すべきIssueは NOSに留まらない 故障 Branch管理 Hardware issue Tomahawk5拡張 対向機器の問題
  11. © SAKURA internet Inc. 運用する中で色々ありましたが 13 2025/4 2024/12 OS Version

    UP Build 483 OS Version UP Build 577 2025/9 OS Version UP Build 735 + BIOS/BMC/ASIC firmware Update ~2026/6 2024/9 Project start 2025/9に大規模メンテナンスを行うことによる解消 (Hardware以外別物・・・?)
  12. © SAKURA internet Inc. 実装による解決 15 根本解決にはOS/BIOS/BMC/ASIC firmware Updateが必要 一次対応

    効率的な検証 作業時間 一つ一つの課題を技術的な実装により解決 開発期間におけるサービス維持 短いサイクルで試験を行う環境 複数の更新を短期間で対応する必要 異常時の復旧、自動通知 GitHub ActionをベースにしたCI取り入れ 自動化範囲の拡大、高速化
  13. © SAKURA internet Inc. 一次対応を支えた実装 16 確実な復旧 • AIS800にはBMC(管理用コントローラー)が搭載 •

    IPMIを用いて、BMCとの間でheartbeatを通知 • 一定時間の無反応でPower Cycle IPMI watchdogによるfail safe実装 迅速な通知 復旧判定の上、適切なエスカレーション • お客様への影響通知が命題 • 自動復旧の成否により緊急度が変わる • Prometheusの標準対応に加えた個別実装 BMC CPU ASIC
  14. © SAKURA internet Inc. 効率的な検証を支える実装 17 • 採用見送りも多数 • テスト結果

    • スケジュール • Issue trackingの複雑化 2025/9 ~2026/6 Continuous Integration OSセットアップ 設定変更 Deploy 構成管理 Try & Error リリースの裏にある無数の試行錯誤 GitHubを中心とした短期サイクルの検証 1回のテストサイクルを短くする必要性
  15. © SAKURA internet Inc. 効率的な検証を支える実装 18 GitHub ActionによるPR/CommitをトリガーにしたCI実装 © SAKURA

    internet Inc. 2 約15分で検証可能 • Lint • Health check • 予備機上のDry-run/Config • 各種showコマンド確認 • エラー検出 User Storyより抜粋 PRに基づいた透明性に加え
  16. © SAKURA internet Inc. 作業時間を短縮する実装 19 更新対象の追加による作業時間の増大 OS BIOS BMC

    FW 80分/台 5時間半 3-4時間+ 技術的に解決すべき課題として模索 3営業日 従来で1営業日のところ に拡大 諦めるべきではない
  17. © SAKURA internet Inc. 作業時間を短縮する実装 20 ハードウェアベンダーにも協力いただき大幅な短縮 OS 高速なUniversal installer実装

    展開プロセスの自動化 35分/台 対象判定 Health check Installer登録 Bootoption変更 Installer実行 ONIE Updater Health check 再起動 従来同様の1営業日でメンテナンス完遂 柔軟な現地対応に支えられ
  18. © SAKURA internet Inc. まとめ(クラスタを支える実装) 22 ⚫ OSセットアップ、設定変更 ⚫ コードベースの構成管理

    実装できたこと ⚫ サーバーのアセットの活用 ⚫ PRをトリガーにしたCI導入 ⚫ 自動化拡大による作業時間の短縮 残された課題 ⚫ CI/CDの高度化 ⚫ 妥当性の評価 BMC/IPMIによる早期の異常検知・復旧 OSSを活用したサービスレベル維持 Lint/Dry-run/Apply/Health Check GitHub Actionによるサイクルの短縮 OSからFirmware更新に範囲を拡大 環境の再構築を含めた再現性 OSの再セットアップ エラーではない異常の早期発見 インテントベースのチェック 困難な課題を実装により解決してきた Firmware更新 テストケースの標準化
  19. © SAKURA internet Inc. まとめ(SONiCを運用してみて) 23 NOSに留まらない アーキテクチャ全体 理解の重要性 「SONiCの運用」は大変じゃないか?

    まあまあ大変だが、SONiCに限らない アーリーアダプター特有のIssueも多い 過去の私のコメント SAKURA internet SONiC User Storyより抜粋 You must invest in automation early DELL SONiC User Story より抜粋 早期の自動化が サービスを支えた実例