生成AI向け機械学習クラスタ構築のレシピ　北海道石狩編

生成AI向け機械学習クラスタ構築のレシピ　北海道石狩編 Cloud Native Days Summer 2024 Sho Shimizu and
Yuichiro Ueno, Preferred Networks, Inc.

2 自己紹介 : 清水翔 (Sho Shimizu / @oshothebig) •
2019 ~ 現在 Preferred Networks • 2010 ~ 2019 富士通研究所 • Kubernetesクラスタの開発 & 運用 ◦ コンテナネットワーキング ▪ CNI plugin周りの色々 ◦ データセンターネットワーク ▪ IP Clos, BGP

3 自己紹介 : 上野裕一郎 (Yuichiro Ueno / @y1r) •
2021/04~:Preferred Networks に新卒入社 • そのまえ: 東工大横田理央研究室 ◦ 多数のGPUで深層学習を効率的にやる • Kubernetesクラスタの開発 & 運用 ◦ GPU, MN-Core, NIC 周りなどもろもろ ◦ 分散キャッシュシステム

4 PFNの事業: AI技術のバリューチェーンを垂直統合ソリューション・製品計算基盤 AIチップ PFNは、チップ、計算基盤、生成AI・基盤モデル、ソリューション・製品まで、AI技術のバリューチェーンを垂直統合し、ソフトウェアとハードウェアを高度に融合することで、競争力の高い技術の開発および産業応用を進めています。生成AI・基盤モデル様々な産業・消費者向けのソリューション・製品群
MN-Core™ MN-Core™ 2 GPUクラスタ MN-3 (MN-Core™ クラスタ) 大規模言語モデルマルチモーダル基盤モデル (2024年リリース予定) 次世代機 MN-4 （MN-Core™2 クラスタ) MN-Core™ 2による計算能力のクラウド提供 (2024年開始予定）物質の電子状態・エネルギー計算モデル 13B Preferred Potential (PFP)

5 PFNの事業: AI技術の水平展開生成AI・基盤モデル社会コンシューマー人間の能力の拡張新しい創作表現・娯楽体験安心・安全な社会高度な教育・医療
生産性向上・品質改善属人化回避・人手不足解消計算基盤産業 AIチップ PFNは、AI技術のバリューチェーンを垂直統合し、産業、コンシューマー、社会に向けて様々な領域でソリューション・製品を水平展開しています。工場・製造エンタメロボット小売・流通ヘルスケア創薬素材・化学教育

6 • PFN / PFE では、という大規模言語モデル（LLM）を開発中 • LLM：学習可能なパラメータが多い言語モデル ◦
例えば 10B（100 億）のパラメータがあったとすると？ ▪ パラメータと Optimizer の内部状態だけで 120 GB ◦ 1 デバイスでは扱えないため、パラメータを分散させて学習する • 今後 PFN / PFE ではさらに大きなモデルも学習したい ◦ より大きな計算量・要求メモリ → さらに計算資源が必要 ▪ 今日は、この機械学習クラスタをどう構築するかという話！生成AI向け機械学習クラスタ構築のレシピ北海道石狩編: ざっくり生成AIの学習とは？

7 • 生成AI向け機械学習クラスタとは？ ◦ 生成AI に求められる要件、設計の大方針、デザイン空間 • 機械学習クラスタ構築のレシピ ◦ サーバ構成
◦ ネットワーク構成（ノード間、対外接続、LB、活用方法） ◦ Pod ネットワーク（RDMAの実現手段、CNI Plugin 選定） ◦ クラスタ構築（Cluster API infrastructure provider の自前実装） ◦ ストレージ構築今日のもくじ

8 生成AI向け機械学習クラスタとは？

9 開発する機械学習クラスタの要件早く学習を始めたい GPUがたくさんほしい使い勝手は既存のクラスタと同じで (Kubernetes) GPU同士の高速な通信 (RDMA) LLM
スナップショット用高速ストレージ複数ユーザで共有したい最新の速い NVIDIA GPU 運用効率運用省力化

10 さくらインターネットの高火力PHY 生成AI 学習に向いたベアメタルサービス • 高性能なGPUサーバ ◦ NVIDIA
H100 GPU x 8 搭載 ▪ 80 GB VRAM / GPU • ベアメタル ◦ 低オーバーヘッド • インターコネクト（広帯域ロスレスネットワーク） ◦ 200 Gbps x 4 (RoCEv2 対応)

11 構築するクラスタの規模 CPUコア GPU メモリ NVMe 7500+ 500+ (VRAM 40+
TB) 130+ TB 2.0+ PB

12 • メンバーは3人 ◦ 全員他の業務も抱えている ◦ さくらインターネットのサービスの知識がほぼない ◦ 👉 サービスの理解とクラスタの設計を並行で進めないといけない
• GPUは貴重なリソース ◦ 高価で調達も難しいため遊ばせるのは無駄でしかない ◦ 👉 「サーバが利用可能 → クラスタ完成」の時間を最小限にしたいプロジェクトの置かれた状況

13 • 利用可能サーバは2段階で増える ◦ 第1弾: 一部のサーバが利用可能 ◦ 第2弾: 第1弾の3~4ヶ月後に多数サーバ追加 👉
本番環境 • 第1弾 ◦ 本番への準備 ▪ 設計を進めながら検証クラスタを作る約2ヶ月 ▪ Cluster APIなど自動化のための作りこみ約1ヶ月 • 第2弾 ◦ 本番のクラスタをできるだけ早く構築するスケジュール

14 クラスタのデザイン空間クラスタネットワーク Internet クラウドストレージノードノード Control
Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？何を提供する？どうやって作る？活用の方法は？ LBはどうする？ CNI Pluginは?

15 サーバ構成クラスタネットワーク Internet クラウドストレージノードノード Control
Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？活用の方法は？ LBはどうする？何を提供する？どうやって作る？ CNI Pluginは?

16 ネットワーク構成クラスタネットワーク Internet クラウドストレージノードノード Control

17 クラスタ構築クラスタネットワーク Internet クラウドストレージノードノード Control

18 ストレージクラスタネットワーク Internet クラウドストレージノードノード Control
Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？何を提供する？どうやって作る？活用の方法は？ LBはどうする？ CNI Pluginは?

19 構築のレシピ

20 サーバ構成クラスタネットワーク Internet クラウドストレージノードノード Control

21 さくらインターネットの2つのサービスさくらのクラウド高火力PHY さくらの専用サーバPHY IaaS ベアメタル

22 コントロールプレーンや管理ノードの構成さくらの専用サーバPHY さくらのクラウド提供形態ベアメタル VM 仮想化オーバーヘッド小さい
👍 大きい初期費用ありなし 👍 最低利用期間ありなし 👍 インスタンスの選択肢少ない多い 👍 柔軟性を重視して選択

23 ネットワーク構成 (1/5) : ノード間ネットワーククラスタネットワーク Internet クラウドストレージ
ノードノード Control Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？何を提供する？どうやって作る？活用の方法は？ LBはどうする？ CNI Pluginは?

24 ノード間のネットワーク構成コントロールプレーン管理ノード GPU ノード GPU ノード
通常ネットワークインターコネクト単純さを重視してフラットなL2 高火力PHY クラウド NIC毎に1つのL2が提供される → 4つのサブネットに接続 200 Gbps

25 ネットワーク構成 (2/5) : インターコネクトの活用クラスタネットワーク Internet クラウドストレージ

26 何もしないと多くのトラフィックは通常ネットワークを流れる 👉 できるだけ広帯域なインターコネクトにトラフィックを流したいインターコネクトの活用の小技 192.168.4.0/24 192.168.3.0/24 192.168.2.0/24 192.168.1.0/24 192.0.2.0/24
インターコネクト通常ネットワーク GPUノード .1 .1 GPUノード .2 .2 192.168.1.2 192.168.2.2 192.168.3.2 192.168.4.2 192.0.2.2/32 Destination Next hop スタティック経路を設定してインターコネクト側に曲げる

27 ネットワーク構成 (3/5) : 対外接続クラスタネットワーク Internet クラウドストレージ

28 対外接続: インターネット • インターネットからのインバウンド接続は不要 👉 NATを使ったインターネットアクセスができればOK • 検討した案 ◦
さくらの専用サーバPHY側から接続する ◦ さくらのクラウド側から接続する

29 案1: さくらの専用サーバPHY側から接続 GPUノード Internet Firewall 専用サーバPHY クラウド Cisco Firepower
4125 アプライアンスオプション Control Plane 🙆 高機能 & 高性能 🙅 設定の手間が大きい 🙅 帯域の柔軟性が低い

30 案2: さくらのクラウド側から接続 GPUノード Internet VPCルータ専用サーバPHY Control Plane クラウド
アプライアンスの1種 🙆 設定の手間が少ない 🙆 帯域の選択肢が豊富 🙅 機能や性能の制約あり 👉 環境構築と柔軟性を重視して案2を採用

31 対外接続: パブリッククラウドとの接続の必要性既存拠点1 既存拠点2 新規拠点認証付きLB Cluster API Kubernetes
Kubernetes Kubernetes Kubernetes Kubernetes Kubernetes ユーザ AWS AWSに共通コンポーネントを配置する構成 • ユーザ: 認証付きLB経由でアクセス • クラスタ管理: Cluster APIで複数拠点をまとめて管理今回作成するクラスタも既存拠点と同様に扱いたい 👉 AWSとの接続が必要

32 検討した方法 • OCX (Open Connectivity eXchange) ◦ NaaS (Network
as a Service) ◦ 広帯域のネットワークを比較的低コストに利用可能 • AWS接続オプション @ さくらのクラウド ◦ 管理コンソールから簡単に申込可能 ◦ 利用開始までが短い（5営業日程度） 👉 AWS接続オプションを採用 • 環境構築の時間の短さ • あとから必要に応じてOCXに変更することも可能対外接続: AWS Direct Connectとの接続方法

33 ネットワーク構成 (4/5) : ロードバランサクラスタネットワーク Internet クラウドストレージ

34 • 用途 ◦ APIサーバの冗長化 ◦ Ingress (クラスタ外からの疎通) • 既存の環境では？
◦ MetalLBを使いBGPでVIPを広報 👉 今回の環境では難しい構成 • 手間が少なくすぐに使える方法 👉 さくらのクラウドのアプライアンスオプションにあるロードバランサを選択ロードバランサロードバランサ API request

35 ネットワーク構成 (5/5) : Pod間ネットワーククラスタネットワーク Internet クラウドストレージ

36 SR-IOVによるPodネットワークのRDMA対応 veth VF eth0 net1 PF VF VF veth
VF Pod Podのnetnsに移す NIC ホスト通常ネットワークインターコネクト SR-IOVによる NICの仮想化

37 RDMA対応: 典型的CNI plugin構成 Multus kubelet Pod eth0 net1 CNI
plugin CNI plugin 通常ネットワーク用インターコネクト用 2種類のCNI pluginにそれぞれ何を採用するかという問題 SR-IOVのVFを利用

38 • 既存環境で利用しているため • 動作モードの違い ◦ 既存環境: ネイティブルーティング (BGP) ◦
今回の環境: トンネリングモード (VXLAN) • 理由 ◦ BGPによるL3ファブリック構成の既存環境との構成の違い ◦ 調査項目を減らしできるだけ早くクラスタを構築するため今後可能であればBGPによるネイティブルーティングへの変更を検討したい通常ネットワーク用: Cilium

39 • 既存環境では内製CNI pluginをインターコネクト用に利用 ◦ 課題: 既存環境のネットワーク構成と密結合した実装 • 独自コンポーネントからオープンソースに置き換えたい意向もあった •
IPAM pluginどうするか問題 ◦ インターコネクト用のCNI pluginはIPAMを自分で考える必要がある ◦ WhereaboutsとL2ネットワーク構成のインターコネクトがマッチ 👆 クラスタワイドにアドレスを割り当てるIPAM plugin インターコネクト用: SR-IOV CNI plugin “If you need a way to assign IP addresses dynamically across your cluster -- Whereabouts is the tool for you”

40 クラスタ構築クラスタネットワーク Internet クラウドストレージノードノード Control
Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？活用の方法は？ LBはどうする？何を提供する？どうやって作る？

41 機械学習用 Kubernetes クラスタができるまでワーカーノードのセットアップコンテナランタイム, GPUドライバ, NICドライバなどのインストール
Kubernetes クラスタへの参加コントロールプレーンの構築 etcd, kube-apiserver などクラスタに必要なコンポーネントのインストール・初期化 Kubernetes へのアドオンのインストール NVIDIA device plugin, CNI Plugin (通常, RDMA用), ストレージ構築などなど 👈 ここの話

42 • OS のインストールや IP アドレスの設定などを行う ◦ 例: Terraform や
各種クラウドのAPI を使ってノードを作成する • コンテナランタイムやドライバなどソフトウェアをインストールする ◦ 例: Ansible を使ってインストールする • ノードを Kubernetes クラスタに追加する ◦ 例: kubeadm join コマンドを使ってクラスタに入れる通常のワーカーノードのセットアップ方法

43 • 数十台のサーバを管理するのはとにかく大変 ◦ 事例：「server-35 だけ Ansible が失敗」 ▪ Ansible
を流し直したらserver-35のドライバだけ最新に... • バグを踏むノードと踏まないノードがある、なぜ？？？ ◦ 事例：「GPU 壊れたので交換してもらった」 ▪ OS再インストールからやり直すのが大変... • 一台一台進捗や状態を管理して丁寧に運用する必要があるってこと？ ◦ あまりに大変なのでもっと簡単に運用したい → Cluster API 通常のセットアップ方法の課題

44 • Cluster API: kubernetes-sigs で開発中のオープンソースソフトウェア ◦ 親 Kubernetes 上のカスタムリソースで、子
Kubernetes を管理 ▪ Kubernetes らしく Reconcile でノードを扱う • 「Machine リソースの削除で、ノードを削除する」など Cluster API: Kubernetes で Kubernetes を管理親 Kubernetes 子 Kubernetes Cluster API infrastructure provider クラウド API Machine Watch infrastructure Machine Watch 対応仮想マシン操作作成・削除仮想マシン仮想マシン

45 • ノードの作成からセットアップまで完全に自動化可能 ◦ 事例：「なんかわからないけどノードの機嫌が悪い」 ▪ とりあえず初期化して様子をみてみようがすぐできる！ ◦ 事例：「ハードウェア故障の部品交換って、どこから再設定？」
▪ 全部初期化しちゃえがすぐできる！！ ◦ 事例：「ちょっと急いでセットアップして欲しいんだけど...」 ▪ すぐできる！！！ • infrastructure provider を実装すれば任意のクラウドに対応可能 ◦ これまでベアメタルを管理する MAAS provider を実装して運用 ◦ 今回新たにさくらのクラウド・専用サーバPHY版 provider を実装 Cluster API の良いところ: カスタマイズ可能でハードウェア障害や大規模化にも対応できるベストな方法

46 kind: SakuraHost metadata: name: control-plane-test-001 spec: type: VM ipAddress:
aaa.bbb.ccc.ddd VM の構築の流れ infrastructure provider kind: SakuraMachineTemplate metadata: name: sakura-001-md-0 spec: template: spec: vm: switchID: abcdefghijkl cpu: 4 memoryGB: 8 diskGB: 100 さくらのクラウド API Step 3: VM・ディスク作成依頼 VM Step 6: 作成されたVMに SSH 接続証明書や鍵のコピーコマンド実行（ansible, kubeadm join）ディスク Step 4: ディスク作成・修正 (ローカルIPアドレス等設定) Step 5: VM作成・起動 VM を使ったクラウドなのでインスタンスの追加と削除は API で簡単！さくら製 Go クライアントを活用しました 😊 Step 1: ノードの IP, ホスト名を取得 Step 2: ノードのスペックを取得所要時間：15分

47 高火力PHY の構築の流れ infrastructure provider kind: SakuraHost metadata: name: phy-test-001
spec: type: Phy ipAddress: aaa.bbb.ccc.ddd phyServerID: abcdefghijkl Step 1: ノードの ID, IP, ホスト名を取得 kind: SakuraMachineTemplate metadata: name: sakura-001-md-0-phy spec: template: spec: phy: privateNetworkID: abcdefghijkl os: ubuntu2204 Step 2: ノードのスペックを取得専用サーバ PHY API Step 3: OSインストール依頼 GPU Server Step 4: OS再インストール Step 5: OS再インストール済みのノードに SSH 接続ローカルIPアドレスの設定 NIC Step 6: ネットワーク切替依頼 Step 7: ネットワーク切替 Step 8: ネットワーク切り替え済みのノードに SSH 接続証明書や鍵のコピーコマンド実行（ansible, kubeadm join）ネットワーク切替などベアメタル特有の煩雑さを内製した infrastructure provider で吸収所要時間：1時間

48 ストレージクラスタネットワーク Internet クラウドストレージノードノード Control
Plane インターコネクトノード GPU ノードどこに作る？接続方法は？ Kubernetesクラスタセットアップ方法は？構成は？何を提供する？どうやって作る？活用の方法は？ LBはどうする？

49 • 大規模言語モデル（LLM）は色々取り回しが大変 ◦ 学習時間が長い（数ヶ月におよぶこともある） ◦ 保存したいデータが大きい（数百GBからそれ以上へ） • 物理故障時に計算を途中からやり直すため、スナップショットが必要 ◦
学習中に頻繁にとるし、複数の Pod から分散して書き込みがある ◦ 推論時は Pod 数など条件が変わるかもしれない • これらの要件に適したストレージが現状見つけられていない ◦ NFS? Rook/Ceph? Ozone? 分散キャッシュシステム? 生成AI 向けのストレージ？

50 • 高火力 PHY の GPU サーバのディスクを上手く活用したい ◦ 各サーバに
7.68 TB x 4 の SSD が搭載されている • トレードオフがある以下の方法を併用することからまずはスタート ◦ Rook/Ceph（ブロックストレージ・ファイルストレージ） ▪ 課題: パフォーマンス ◦ 分散キャッシュシステム（高速キャッシュ） ▪ 課題: 信頼性 2024/06 時点のアプローチ https://tech.preferred.jp/ja/blog/distributed-cache-for-deep-learning/ https://speakerdeck.com/pfn/k8s-tokyo-60-distributed-cache-system

51 まとめ

52 • さくらインターネット石狩DC をお借りして生成AI 向けの Kubernetes クラスタを構築しました • クラスタ構築のデザイン空間は広く、考えることがたくさんあります
◦ VM/ベアメタルの組み合わせ, ネットワーク(物理, Pod), 構築方法... ◦ 今回は PFN で考えた構築のレシピを紹介しました • みなさんもGPUクラスタをつくっておすすめレシピを教えてください！まとめ

53 • Preferred Networks の計算基盤関連チームでは採用を実施中です！ ◦ 機械学習プラットフォームエンジニア（Kubernetes, 社内向け機械学習プラットフォーム、外販クラウドサービスの開発運用） ◦
ストレージエンジニア（ストレージの企画設計管理運用） ◦ 大規模計算基盤エンジニア/ネットワーク・インフラ運用エンジニア（クラスタの物理設計、MN-Core™ を含めた先端システム設計等） • カジュアル面談もやってます → We’re hiring! ジョブボードにもはってますお気軽にお声がけください

Making the real world computable

生成AI向け機械学習クラスタ 構築のレシピ 北海道石狩編

生成AI向け機械学習クラスタ 構築のレシピ 北海道石狩編

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

生成AI向け機械学習クラスタ構築のレシピ　北海道石狩編

生成AI向け機械学習クラスタ構築のレシピ　北海道石狩編