Cycloud ML Platform: Hardware and Infrastructure Update 2023

Cycloud ML Platform: Hardware and Infrastructure Update 2023 Accelerated Computing
SIG Daisuke Takahashi

Proﬁle: Daisuke Takahashi • Twitter: @yaemonsan, GitHub: @shield-9 • MSFS2020:
1000+ hrs (Loves B748) • Work at: CIU (CyberAgent group Infrastructure Unit), CyberAgent, Inc. ◦ 2019年新卒入社 Infrastructure Engineer ◦ AI Div.と兼務 • In charge of: ◦ 変わり種の物理全般 (企画～運用) ▪ AI / ML, 3DCG Rendering, etc. ◦ Solution Architect ▪ 主にAI Div.のサービス・プロダクトの担当

おしらせ • スライドの完成度についてはご容赦ください ◦ ほぼ1晩で作った資料です🥱 • Google SlidesのQ&A機能を有効にしています ◦ ご質問があれば、いつでもどうぞ
(匿名OK) ◦ 随時 or セッションの最後に回答します •

最近、CAから様々な発表をしました ↖このプレスリリース、ご覧いただけましたか？

システム概要 • GPUaaS: GPUコンテナ / Jupyter Notebook • AI Platform:
GCP互換のML基盤+分散学習機械学習環境 GPU環境 AFF A800 Prediction Distributed DGX A100 H100 / A100 / A2 / T4 Training GPUaaS（Kubernetes + Web UI） ※詳しくは岩井のセッションでご紹介しています (多分)

ハードウェア概要 (2023-06) 25 GbE 400 GbE Storage NetApp AFF A800
Compute NVIDIA DGX Systems Dell PowerEdge Servers Interconnect Mellanox SN4700 A2, T4, A100 SXM4 40GB/80GB, H100 SXM5 80GB (80基) ※記載された数字は構築中を含みます ※画像は必ずしも実際の台数や製品を表しません

GPU基盤 HW・インフラの歴史

v1: GPUコンテナ • 複数の研究者が持つGPU資源の⼀元管理を実現 ◦ 原則、各⾃が1ホストを占有 v2: GPUコンテナ + Jupyter
Notebook • 研究者向けにマネージドなNotebook環境を提供 • v1同様のGPUコンテナ単体も選択可能 v3: GPUコンテナ + Jupyter Notebook + AI Platform • 研究者に加え、開発者向けにもv2と同等機能を提供 • GPUaaS上で動作するAI Platform (GCP互換のML基盤) を開発‧ホスティング v3.x: GPUコンテナ + Jupyter Notebook + AI Platform + 分散学習 • LLMなど⼤規模モデルの研究者向けに分散学習環境を提供 GPUaaSの歴史

GPUaaS v1 GPU資源の運⽤の効率化 • 研究者が個別に利⽤していたワークステーションを⼀元管理 ◦ 各利⽤者に1ホスト (ノード) 単位で提供 •
オフィス内のサーバールーム (という名前のMDF室) に設置 ◦ 空冷‧1~2kVA/ラック‧100V (業務⽤エアコンのみ) ◦ GPU: 20x NVIDIA GeForce GTX 1080Ti 11GB (220GB) 再現が容易な環境 • コンテナ型仮想化によって実験環境を容易に再構築可能 • 社内でマネージド基盤の運⽤実績があるKubernetesを導⼊ ◦ Kubernetes APIへの直接アクセスを利⽤者に提供

GPUaaS v2 GPUaaS v1の後継 • GPU資源などはv1から移⾏ ◦ 空冷‧1~2kVA/ラック‧100V (業務⽤エアコンのみ) •
ホスト占有から共同利⽤へ変更 (マルチテナント) NEW: 学習データ⽤共有ストレージ • クラスタ内の各コンテナから同⼀データを参照可能 • Kubernetes上にSoftware-deﬁned Storageを構築 ◦ Rook (Ceph) によるNFSストレージ ◦ SATA SSD 48TB分 NEW: マネージドな学習環境 • Kubernetesを意識させずにJupyter Notebookを提供 • 他のコンテナイメージも利⽤可能

v2の運⽤上の課題設置環境 • オフィスへの⾼電⼒機器の設置は想定外 ◦ 限られた電⼒供給と冷却性能 ◦ 法定停電 • データセンターとの接続品質
◦ Site-to-site VPNのみ ◦ ⾮冗⻑な回線構成 → プライベートクラウド⽤のDC (東京都内) に設置マシンの管理 • リモート管理機能 (IPMI/BMC) の⽋如 ◦ 些細な作業でも現地での運⽤が必要 ◦ COVID-19によるオフィスの制限 → GPUaaS⽤のサーバーを新規調達 (IPMI搭載) 性能 • GPUメモリの不⾜ ◦ ML向けではないGeForceシリーズ • 経年による陳腐化 ◦ 新世代のCPUやGPUの登場 ◦ ハードウェア故障の頻度上昇 → 容量のメモリを持つデータセンター向けGPUを選択好評を受けて、サービスの開発者から本番環境としての要望が届いていた求められる品質の達成には、ソフトウェアだけでなく、ハード⾯の取り組みが不可⽋

ストレージの制約 (ハードウェアの仕様) • ラックの占有スペースに対して、容量効率が低い → ⼤容量ディスクやディスク搭載数の多い筐体の導⼊ • A100 GPUの性能に対して、アクセス速度の不⾜ →
ディスク性能とネットワーク性能の改善ストレージ運⽤からの解放 • Rook (Ceph) は既存資源を活⽤するGPUaaS v2の⽅針にマッチしていたため選定 ◦ ストレージ⾃体が⽬的ではないため、SDSへのモチベーションが⾼くない • → SDSよりも、アプライアンスを検討追加の機能 • GPUaaSの内部メタデータ⽤のブロックアクセス • GPUaaSのログ‧メトリクス⽤のオブジェクトアクセス v2のストレージの課題

GPUaaS v3: サーバー GPUハードウェアを刷新 • NVIDIA DGX A100を採⽤ ◦ GPU:
8x NVIDIA A100 40GB ▪ V100 GPUの20倍の性能‧内部接続600Gbps • 「DGX-Ready」対応データセンターへ設置 ◦ 空冷‧4~6kVA/ラック‧200V (床吹き出し⽅式) ◦ 電⼒や冷却能⼒、搬⼊経路などが安⼼ • その他のラインナップ ◦ NVIDIA A100 80GB (HGX 500W仕様) ◦ NVIDIA T4 16GB ◦ NVIDIA A2 16GB

学習データ⽤共有ストレージを刷新 • NetApp AFF A800を採⽤ ◦ NVMe SSD (All-flash) ▪
スケールアウト‧スケールアップが可能: • 空きベイへのディスク追加 • ディスクシェルフ追加 • コントローラー追加 ◦ マルチプロトコルでのアクセスに対応 ▪ File (NFS, SMB), Block (iSCSIなど), Object (S3) ◦ Kubernetesとの連携 (CSI) を最重要視 • 「NVIDIA DGX POD」を意識して選定 ◦ DGXシステムとストレージのscalableな参考構成 ◦ NetAppからはONTAP AIとして発表 GPUaaS v3: ストレージ * Photo of the evaluation system. Some configurations differ.

GPUaaS v3.x: NVIDIA H100 GPUラインナップを追加 • NVIDIA DGX/HGX H100を採⽤ ◦
GPU: 8x NVIDIA H100 GPU (合計80GPU) ▪ A100 GPUの7倍の性能‧内部接続900GB/s ▪ Transformer Engine, DPX Instruction, etc. ◦ 消費電⼒: 約2000W (無負荷)~約8000W (GPU 100%) ▪ 定格11.3kW ▪ 電源不⾜時のPower Brakeは-75%程度イベント初公開情報 (redacted) (redacted) (redacted)

GPUaaS v3.x: その他キャパシティの⼤幅向上 • 丸ごと都内の新データセンターに移設 ◦ リアドア空調‧15~35kVA/ラック‧200V (RDHx) ▪
増加し続けるGPUの消費電⼒への対応の選択肢の1つとして、将来的なDLCの導⼊も? ◦ 最⼤で100~200ラック規模にスケール可能 ▪ 基盤モデルなどはH100 GPUを⾼い並列数で利⽤する⼀⽅、過半数の⽤途では過剰スペック ▪ 既存のA100 GPUなども継続的に増設 • GPUの増設に合わせてストレージも増設 ◦ ディスクとディスクシェルフを追加 ◦ 約3年で約3倍へ ▪ NFS over RDMA / GPUDirect Storageなどの対応はニーズを調査中 ▪ Kubernetes CSI Driverとの相性なども情報収集 400GbE RoCEv2によるインターコネクト • 基盤モデルをマルチノードで学習 ◦ ネットワーク⾃体: 内⽥さんのセッションにて詳しくご紹介 (多分) ◦ Kubernetes関連: 漆⽥さんがCyberAgent Developer Conference 2023にて詳しくご紹介 (予定)

ハードウェア概要 (2023-06) [再掲] 25 GbE 400 GbE Storage NetApp AFF
A800 Compute NVIDIA DGX Systems Dell PowerEdge Servers Interconnect Mellanox SN4700 A2, T4, A100 SXM4 40GB/80GB, H100 SXM5 80GB (80基) ※記載された数字は構築中を含みます ※画像は必ずしも実際の台数や製品を表しません

この後もCIU Tech Meetupをお楽しみください懇親会では… • プロジェクトのより細かい話 ◦ DC選定とか？ ◦ DGX
H100とか？ • インフラ的な未来の話 (構想 & 妄想) ◦ Hopper-nextとか？ ◦ 今後ぶつかりそうな課題とか？ ▪ などなど会場のどこかで展⽰ (予定) • 400G NIC‧トランシーバー • 800Gトランシーバー 400Gネットワークの話 • 内⽥さんのセッションでご紹介 (多分)

当⽇&後⽇頂いた質問 (抜粋) 1. サーバーやストレージの帯域 ◦ サーバーからDCネットワークへの接続は25GbEx2 ◦ ストレージは25GbEx8 ▪ プロトコルに応じて物理IFを使い分け
2. ストレージの選定 ◦ DGX PODの認定ストレージを中⼼に、まずはCSI Driverの機能表を⾒て候補をリストアップ ◦ その後、検証機やシミュレーターで機器性能やCSI Driverの完成度を中⼼に評価 ◦ CSI Driverのインストール⼿順が独特 (専⽤のシェルスクリプトの実⾏が必要など) だったり、サポート体制が不⼗分という理由で1社しか残らなかった ▪ K8s向けストレージでの競争を期待しており、CSI Driverに起因して不採⽤となっている製品に対しては、そのストレージがK8sから使⽤しやすいものとなるよう、継続的なフィードバックを実施中 3. H100サーバーの内部的なレイテンシ ◦ Hostpingのような研究があることは承知している ◦ 本基盤では機器導⼊前にトポロジ図などを確認することで評価した ▪ HGX H100出荷前に判断する必要があったため、実測という選択肢がなかった 4. ConnectX-7の仕様 (ConnectX-7 / OSFP-RHS被害者の会) ◦ OSFP-RHSという特殊な形状のトランシーバーが必要 ▪ 知らずにサードパーティー製品のOSFPトランシーバーを購⼊してしまった ▪ サードパーティーと連携して、OSFP-RHSトランシーバーの評価を実施予定 ◦ 複数の不具合が⾒つかっており、FWを最新まで更新することで多くが解消される ▪ すべて解消されるわけではないので、パートナーと密に会話をしていく ▪ Ethしか把握できておらず、IBの事情は不明

当⽇&後⽇頂いた質問 (抜粋) 1. 納期リスク ◦ 全体的にリードタイムが⻑期化している点で、⼊⼿性が課題 ◦ 発注の可能性や、導⼊のインパクトなどをこまめにシェアすることでパートナーの協⼒を得やすいと考えている 2. GPUサーバーの運⽤
◦ 重量が100kgを超えるため、電動リフターを利⽤している。決して、⼿で持ち上げるとか考えてはいけない ◦ リアドア空調⽅式によって部屋の温度を24度に保っている ▪ リアドアを開放した場合、エアが逆流する点が課題。ミキシングアイルキャッピングの弊害と推測される ▪ XE8545は温度制限が厳しく、T ℃ =28がHW上限‧T ℃ =27でアラート対応 (30℃までは耐えてほしい…) 3. 今後の増設 ◦ A100/H100をメインで考えているが、具体的なロードマップは決まっていない (L4も導⼊検討中) ▪ 社内の需要を⾒ながら、数か⽉単位で都度判断していく ▪ 100~200基では「A100/H100が不⾜→T4/A2で妥協」or「T4/A2で⼗分」はヒアリングが必須 ◦ H100の納期が⻑く、増設判断の在り⽅は再考中 ▪ 納期待っている間にHopper Next (TDP 1000Wぐらい？) が…。Interconnectも800Gに…? 4. 将来の話 ◦ Hopper NextやHopper Next Nextにリアドアの性能 (35kW) が追いつかない疑惑 ▪ 重量級のHGXサーバーと液浸冷却のオペレーションはマッチしないと考えている ◦ これから検証するのは⽔冷 (DLC)だが、既に課題も⾒えている ▪ 「メモリやディスクまで冷やせるベンダー vs 冷やせないベンダー」(空調/In-row/リアドアなどを併⽤) ▪ つまり、「設計‧製造コスト vs 空調設備コスト」or「究極の⽔冷 vs ⽔冷へのオフロード」？ ◦ 単相200V30Aだと、1ラック12~18回路になってしまい、運⽤がつらい ▪ 三相電源の導⼊も検討していくが、UPS周りなど、⼤掛かりな設備改修はハードルが⾼い

Cycloud ML Platform: Hardware and Infrastructur...

Cycloud ML Platform: Hardware and Infrastructure Update 2023

Daisuke Takahashi

More Decks by Daisuke Takahashi

Other Decks in Technology

Featured

Transcript

Cycloud ML Platform: Hardware and Infrastructure Update 2023 Accelerated Computing

Proﬁle: Daisuke Takahashi • Twitter: @yaemonsan, GitHub: @shield-9 • MSFS2020:

おしらせ • スライドの完成度についてはご容赦ください ◦ ほぼ1晩で作った資料です🥱 • Google SlidesのQ&A機能を有効にしています ◦ ご質問があれば、いつでもどうぞ

最近、CAから様々な発表をしました ↖このプレスリリース、ご覧いただけましたか？

システム概要 • GPUaaS: GPUコンテナ / Jupyter Notebook • AI Platform:

ハードウェア概要 (2023-06) 25 GbE 400 GbE Storage NetApp AFF A800

GPU基盤 HW・インフラの歴史

v1: GPUコンテナ • 複数の研究者が持つGPU資源の⼀元管理を実現 ◦ 原則、各⾃が1ホストを占有 v2: GPUコンテナ + Jupyter

GPUaaS v1 GPU資源の運⽤の効率化 • 研究者が個別に利⽤していたワークステーションを⼀元管理 ◦ 各利⽤者に1ホスト (ノード) 単位で提供 •

GPUaaS v2 GPUaaS v1の後継 • GPU資源などはv1から移⾏ ◦ 空冷‧1~2kVA/ラック‧100V (業務⽤エアコンのみ) •

v2の運⽤上の課題設置環境 • オフィスへの⾼電⼒機器の設置は想定外 ◦ 限られた電⼒供給と冷却性能 ◦ 法定停電 • データセンターとの接続品質

ストレージの制約 (ハードウェアの仕様) • ラックの占有スペースに対して、容量効率が低い → ⼤容量ディスクやディスク搭載数の多い筐体の導⼊ • A100 GPUの性能に対して、アクセス速度の不⾜ →

GPUaaS v3: サーバー GPUハードウェアを刷新 • NVIDIA DGX A100を採⽤ ◦ GPU:

学習データ⽤共有ストレージを刷新 • NetApp AFF A800を採⽤ ◦ NVMe SSD (All-ﬂash) ▪

GPUaaS v3.x: NVIDIA H100 GPUラインナップを追加 • NVIDIA DGX/HGX H100を採⽤ ◦

GPUaaS v3.x: その他キャパシティの⼤幅向上 • 丸ごと都内の新データセンターに移設 ◦ リアドア空調‧15~35kVA/ラック‧200V (RDHx) ▪

ハードウェア概要 (2023-06) [再掲] 25 GbE 400 GbE Storage NetApp AFF

この後もCIU Tech Meetupをお楽しみください懇親会では… • プロジェクトのより細かい話 ◦ DC選定とか？ ◦ DGX

当⽇&後⽇頂いた質問 (抜粋) 1. サーバーやストレージの帯域 ◦ サーバーからDCネットワークへの接続は25GbEx2 ◦ ストレージは25GbEx8 ▪ プロトコルに応じて物理IFを使い分け