KubeCon + CloudNativeCon Europe 2025 Recap: The GPUs on the Bus Go 'Round and 'Round / Kubernetes Meetup Tokyo #70

Slide 1

Slide 1 text

KubeCon + CloudNativeCon Europe 2025 Recap The GPUs on the Bus Go ‘Round and ‘Round Hidehito Yabuuchi, Preferred Networks, Inc. 2025-05-20 Kubernetes Meetup Tokyo #70

Slide 2

Slide 2 text

2 ● 薮内秀仁 (YABUUCHI Hidehito) ● Preferred Networks, Inc. (PFN) ● 機械学習プラットフォーム ○ https://pfcomputing.com/ (PFCP) ○ スケジューラ ○ コンテナレジストリ ○ ユーザ向けサービス、etc. ● 社内 CI/CD プラットフォーム自己紹介

Slide 3

Slide 3 text

3 ● The GPUs on the Bus Go ‘Round and ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA ○ NVIDIA のクラスタでの GPU 故障検知や復旧の話 ■ 30,000+ ノードの規模でクラウドゲーミングが稼働 ○ https://sched.co/1tx7H, https://youtu.be/cLJRh4y4vXg ● 取り上げる理由 ○ PFN でもクラスタを運用しており、デバイス管理に取り組んでいる ○ 似ている点・違う点を知り、よりよい解決策を考えたい取り上げるセッション

Slide 4

Slide 4 text

4 デバイスは壊れる ● 大規模化により故障率も高まる ● 素早く復旧させてクラスタの資源を有効活用したい

Slide 5

Slide 5 text

5 ● 故障検知 ● ノード障害を検知する DaemonSet ○ Node conditions, Event に報告 ● 検知ルールがカスタムできる ○ PFN での例 ■ GPU が nvidia-smi で見えない ■ PCIe リンクがデグレード

Slide 6

Slide 6 text

6 復旧 ● Reboot is a legit solution ● しかし... ○ ノードの全デバイス、Pod に影響 ■ 計算途中の状態が失われる ■ 分散学習だとより影響大 ○ 時間がかかる ■ ノードの drain など 📝 影響を小さくするには KEP-5055 “DRA: device taints and tolerations” が役立ちそう

Slide 7

Slide 7 text

7 ある種のノード障害が復旧するまでにかかった時間（概算）の累積分布関数復旧にかかる時間（PFN での例） ● 短いカテゴリ = 自動復旧 ○ リブート or 一時的な問題 ● リブートで復旧するまでに 20-30 分ほどかかっている

Slide 8

Slide 8 text

8 ● Discovery of remediation loops ○ ノードが短時間で何度もリブートしているとアラート ■ 無用なリブートによるワークロードの中断を防ぐ ● More eﬃcient draining ○ 停止しやすいワークロードだけがあるノードを優先 ■ Pre-warmed sessions 復旧プロセスの改善

Slide 9

Slide 9 text

9 ● If 1 of 8 GPUs failed, do we reboot the node? ○ KEP-5055 “DRA: device taints and tolerations” が役立つ場面 ○ 2 つ壊れたら？ 3 つは？ ● If there is a problematic GPU that is restarted every few days, should the scheduler try to avoid this node? ○ あやしいデバイスにどう対処するか ○ 📝 監視で見つけて返品保証を依頼するのがいい。見つけられるようにするのが大事さらなる改善へ

Slide 10

Slide 10 text

10 ● node-problem-detector などでノード障害を検知 ● Node Operation Controller で自動復旧 ○ 同時にアラートを発し、復旧しなかったらマニュアル対処 ● OSS のツールも試したり、構成を見直したりし始めている PFN での取り組みノード node-problem- detector Node Operation Controller Conditions 更新 ● Conditions 監視 ● Taint, drain ● リブートなど

Slide 11

Slide 11 text

11 ● IBM のクラスタ運用についての発表 ○ Cluster Management for Large Scale AI and GPUs: Challenges and Opportunities - Claudia Misale & David Grove, IBM ○ https://sched.co/1u5fr ● OSS ○ https://github.com/medik8s ○ https://github.com/kubereboot/kured ○ https://github.com/planetlabs/draino ○ https://github.com/cloudﬂare/sciuro ○ https://github.com/NVIDIA/pika ○ ... みんな似たような課題をもっている

Slide 12

Slide 12 text

12 ● kubernetes/community#8396 ● goal of this working group is to develop uniﬁed APIs that the entire ecosystem can depend on ● 📝 期待！貢献や Node Operation Controller での連携を考えたいコミュニティでの動き

Slide 13

Slide 13 text

13 ● The GPUs on the Bus Go ‘Round and ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA を紹介 ○ Kubernetes クラスタでのデバイス故障検知や復旧にどう取り組んでいるかの話 ○ node-problem-detector などで検知し、かしこく復旧をスケジュールすることでワークロードの中断を小さく ● 各組織がそれぞれ取り組んでいる ○ Node Lifecycle WG で統一 API をつくりエコシステムをまとめるまとめ

Slide 14

Slide 14 text

14 ● We’re hiring! ○ 機械学習プラットフォームエンジニア ○ ストレージエンジニア ○ 大規模計算基盤エンジニア ● KubeCon Japan で発表します ○ New Cache Hierarchy for Container Images and OCI Artifact in Kubernetes Clusters Using Containerd - Toru Komatsu & Hidehito Yabuuchi, Preferred Networks, Inc. ○ BGP Peering Patterns for Kubernetes Networking at Preferred Networks - Sho Shimizu, Preferred Networks, Inc. & Yutaro Hayakawa, Isovalent at Cisco お知らせカジュアル面談もお気軽に！

Slide 15

Slide 15 text

Making the real world computable