Slide 1

Slide 1 text

KubeCon + CloudNativeCon Europe 2025 Recap The GPUs on the Bus Go ‘Round and ‘Round Hidehito Yabuuchi, Preferred Networks, Inc. 2025-05-20 Kubernetes Meetup Tokyo #70

Slide 2

Slide 2 text

2 ● 薮内 秀仁 (YABUUCHI Hidehito) ● Preferred Networks, Inc. (PFN) ● 機械学習プラットフォーム ○ https://pfcomputing.com/ (PFCP) ○ スケジューラ ○ コンテナレジストリ ○ ユーザ向けサービス、etc. ● 社内 CI/CD プラットフォーム 自己紹介

Slide 3

Slide 3 text

3 ● The GPUs on the Bus Go ‘Round and ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA ○ NVIDIA のクラスタでの GPU 故障検知や復旧の話 ■ 30,000+ ノードの規模でクラウドゲーミングが稼働 ○ https://sched.co/1tx7H, https://youtu.be/cLJRh4y4vXg ● 取り上げる理由 ○ PFN でもクラスタを運用しており、デバイス管理に取り組んでいる ○ 似ている点・違う点を知り、よりよい解決策を考えたい 取り上げるセッション

Slide 4

Slide 4 text

4 デバイスは壊れる ● 大規模化により故障率も高まる ● 素早く復旧させてクラスタの資源 を有効活用したい

Slide 5

Slide 5 text

5 ● 故障検知 ● ノード障害を検知する DaemonSet ○ Node conditions, Event に報告 ● 検知ルールがカスタムできる ○ PFN での例 ■ GPU が nvidia-smi で見えない ■ PCIe リンクがデグレード

Slide 6

Slide 6 text

6 復旧 ● Reboot is a legit solution ● しかし... ○ ノードの全デバイス、Pod に影響 ■ 計算途中の状態が失われる ■ 分散学習だとより影響大 ○ 時間がかかる ■ ノードの drain など 📝 影響を小さくするには KEP-5055 “DRA: device taints and tolerations” が役立ちそう

Slide 7

Slide 7 text

7 ある種のノード障害が復旧するまでにかかった時間(概算)の累積分布関数 復旧にかかる時間(PFN での例) ● 短いカテゴリ = 自動復旧 ○ リブート or 一時的な問題 ● リブートで復旧するまでに 20-30 分ほどかかっている

Slide 8

Slide 8 text

8 ● Discovery of remediation loops ○ ノードが短時間で何度もリブートしているとアラート ■ 無用なリブートによるワークロードの中断を防ぐ ● More efficient draining ○ 停止しやすいワークロードだけがあるノードを優先 ■ Pre-warmed sessions 復旧プロセスの改善

Slide 9

Slide 9 text

9 ● If 1 of 8 GPUs failed, do we reboot the node? ○ KEP-5055 “DRA: device taints and tolerations” が役立つ場面 ○ 2 つ壊れたら? 3 つは? ● If there is a problematic GPU that is restarted every few days, should the scheduler try to avoid this node? ○ あやしいデバイスにどう対処するか ○ 📝 監視で見つけて返品保証を依頼するのがいい。見つけられるよう にするのが大事 さらなる改善へ

Slide 10

Slide 10 text

10 ● node-problem-detector などでノード障害を検知 ● Node Operation Controller で自動復旧 ○ 同時にアラートを発し、復旧しなかったらマニュアル対処 ● OSS のツールも試したり、構成を見直したりし始めている PFN での取り組み ノード node-problem- detector Node Operation Controller Conditions 更新 ● Conditions 監視 ● Taint, drain ● リブートなど

Slide 11

Slide 11 text

11 ● IBM のクラスタ運用についての発表 ○ Cluster Management for Large Scale AI and GPUs: Challenges and Opportunities - Claudia Misale & David Grove, IBM ○ https://sched.co/1u5fr ● OSS ○ https://github.com/medik8s ○ https://github.com/kubereboot/kured ○ https://github.com/planetlabs/draino ○ https://github.com/cloudflare/sciuro ○ https://github.com/NVIDIA/pika ○ ... みんな似たような課題をもっている

Slide 12

Slide 12 text

12 ● kubernetes/community#8396 ● goal of this working group is to develop unified APIs that the entire ecosystem can depend on ● 📝 期待!貢献や Node Operation Controller での連携を考えたい コミュニティでの動き

Slide 13

Slide 13 text

13 ● The GPUs on the Bus Go ‘Round and ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA を紹介 ○ Kubernetes クラスタでのデバイス故障検知や復旧にどう取り組ん でいるかの話 ○ node-problem-detector などで検知し、かしこく復旧をスケ ジュールすることでワークロードの中断を小さく ● 各組織がそれぞれ取り組んでいる ○ Node Lifecycle WG で統一 API をつくりエコシステムをまとめる まとめ

Slide 14

Slide 14 text

14 ● We’re hiring! ○ 機械学習プラットフォームエンジニア ○ ストレージエンジニア ○ 大規模計算基盤エンジニア ● KubeCon Japan で発表します ○ New Cache Hierarchy for Container Images and OCI Artifact in Kubernetes Clusters Using Containerd - Toru Komatsu & Hidehito Yabuuchi, Preferred Networks, Inc. ○ BGP Peering Patterns for Kubernetes Networking at Preferred Networks - Sho Shimizu, Preferred Networks, Inc. & Yutaro Hayakawa, Isovalent at Cisco お知らせ カジュアル面談もお気軽に!

Slide 15

Slide 15 text

Making the real world computable