マルチテナントKubernetesコンテナ基盤 / 京都大学学術情報メディアセンターセミナー

マルチテナントKubernetesコンテナ基盤 2025年10月14日(火) 京都大学学術情報メディアセンターセミナー株式会社 Preferred Networks 須田一輝、上野裕一郎、小松
享

須田一輝 / @superbrothers • Preferred Networks, Inc. / エンジニア
• Preferred Computing Platform (PFCP) 開発リード • Kubernetes Meetup Tokyo 共同主催者 • オライリー書籍監訳 ◦ 「Kubernetes で実践するクラウドネイティブ DevOps」 ◦ 「入門 Prometheus」

上野裕一郎 / @y1r96 • Preferred Networks, Inc. / エンジニア
• Preferred Computing Platform (PFCP) 開発サブリード • 興味あること ◦ HPC (Accelerator, RDMA, Parallel Computing) ◦ AI/ML, Systems for AI/ML

小松享 / @utam0k • Preferred Networks, Inc. / エンジニア
◦ エンジニアリングマネージャー • OSS 活動 ◦ OCI Runtime Speciﬁcation メンテナ ◦ Kubernetes SIG-Scheduling Reviewer ◦ などなど

5 1. PFN の事業 2. PFN の AI・ML ワークロード向クラウドサービス
Preferred Computing Platform (PFCP) ◦ PFCP の紹介 ◦ PFCP のデモ 3. PFCP のマルチテナント Kubernetes コンテナ基盤を支える技術 ◦ なぜマルチテナントを選択するの ◦ マルチテナントのクラスタを構成する ◦ マルチテナントの制約を緩和する ◦ マルチテナントでの AI・ML ワークロード ◦ マルチテナントで必要な分離 (ネットワーク、Pod） ◦ マルチテナントで計算資源を効率よ使うアジェンダ

6 PFN の事業

7 Preferred Networks (PFN) 会社概要設立本社代表取締役従業員数事業内容
主要子会社出資企業 (五十音順） 2014年3月26日東京都千代田区西川徹（最高経営責任者）岡野原大輔（最高技術責任者）約350名（2025年2月） AIチップ、計算基盤、生成AI基盤モデルなどのAI関連技術を活用したソリューション・製品の開発・販売および研究開発 Matlantis株式会社（2021年6月設立、2025年7月Preferred Computational Chemistryから社名変更）株式会社Preferred Robotics（2021年11月設立）株式会社Preferred Computing Infrastructure（2025年1月設立） SBIグループ　NTT株式会社　ENEOSイノベーションパートナーズ合同会社　株式会社講談社信越化学工業株式会社　SUMISEI INNOVATION FUND　積水ハウス投資事業有限責任組合　中外製薬株式会社 TBSイノベーション・パートナーズ3号投資事業組合　TEL Venture Capital, Inc.　東映アニメーション株式会社トヨタ自動車株式会社　株式会社日本政策投資銀行　株式会社博報堂DYホールディングス　株式会社日立製作所ファナック株式会社　株式会社みずほ銀行　三井住友信託銀行株式会社　三井物産株式会社　三菱商事株式会社三菱UFJ信託銀行株式会社　株式会社ワコム　他ミッション：現実世界を計算可能にする https://www.preferred.jp

8 PFNは、チップ、計算基盤、生成AI基盤モデル、ソリューション・製品まで、AI技術のバリューチェーンを垂直統合し、ソフトウェアとハードウェアを高度に融合することで、競争力の高い技術の開発よび産業応用を進めています。 PFNの事業: AI技術のバリューチェーンを垂直統合 AIソリューション・製品計算基盤 AIチップ
生成AI基盤モデル様々な産業向けのAIソリューション・製品 MN-Core MN-Core 2 GPUクラスタ MN-3 (MN-Coreクラスタ) PLaMo Prime（国産LLM） PLaMo Lite（エッジ向けSLM） MN-Core 次世代 MN-Core 2を計算資源としたクラウドサービス物質のエネルギー計算モデル PFP 生成AI（推論）向け MN-Core L1000 （2027年提供予定）

9 PFNは、AI技術のバリューチェーンを垂直統合し、様々な産業領域でソリューション・製品を水平展開しています。 PFNの事業: AI技術の水平展開生成AI・基盤モデル社会消費者人間の能力の拡張新しい創作表現・娯楽体験
安心・安全な社会高度な教育・医療生産性向上・品質改善属人化回避・人手不足解消計算基盤産業 AIチップ工場・製造コンテンツ製作ロボット小売製薬ヘルスケア素材化学品教育金融

10 PFN の AI・ML ワークロード向けクラウドサービス Preferred Computing Platform （PFCP）

11 • PFN 構築、運用する AI・ML ワークロード向のクラウドサービス ◦ https://pfcomputing.com/ ◦
ユーザガイド: https://docs.pfcomputing.com/ • PFN のエンジニア・リサーチャ使用する環境と同じものを提供 ◦ これまで社内向に計算基盤を開発運用してた経験を元に開発 • 強力な計算ボードと高速なネットワーク ◦ 独自開発したアクセラレータ MN-Core™ シリーズを提供 ◦ 深層学習に最適化された高速なネットワークで相互に接続誰もが MN-Core™ シリーズを利用できる AI クラウドサービス Preferred Computing Platform (PFCP)

12 • 実験も学習も推論も ◦ 実験環境としてマネージドな JupyterLab を提供 ◦ 学習だでな
、推論サーバの運用まで幅広いワークロードをサポート • オープンソースを採用 ◦ コンテナ実行環境にKubernetes を採用 (Linux Foundation / CNCF) ◦ AI・ML ワークロード向に独自に拡張 • リソース使用状況の可視化 ◦ ワークロード状態を観測するためのモニタリングサービスも付随誰もが MN-Core™ シリーズを利用できる AI クラウドサービス Preferred Computing Platform (PFCP) 管理コンソールワークロード・計算資源監視対話型実験環境分散学習・LLM 推論

13 2つの利用形態を計算ノードでサポートします。 • 専有ノード: 月額課金でテナントで専有 • 共有ノード: 従量課金で複数のテナントで共有 *1 計算ノードの利用形態:
専有ノードと共有ノード *1: 共有ノードは専有ノードとは異なり、複数の組織のワークロード同じノード上でカーネルを共有します。テナント間のセキュリティ境界についてより強固な分離必要な場合は、専有ノードの利用を推奨します。共有ノードでは追加のセキュリティ対策として、Linux の User Namespaces の使用を強制し、ホストらコンテナの UID/GID の分離を実施しています。計算ノードの種類と比較 - Preferred Computing Platform（PFCP）ユーザガイド

14 • GENIAC 第1期 ◦ 1000億パラメータの LLM (PLaMo 100B) を開発
*1 • GENIAC 第2期 ◦ 310億パラメータ規模の LLM (PLaMo 2 31B) を開発 *2 ◦ AWS SQS と連携した大規模な事前学習データセット生成システムを構築 *3 • その他 LLM 評価のための推論サーバを複数実行 • NVIDIA H100 を使用 PFCP 利用事例: Preferred Elements (PFE) 様大規模データ生成システムの概略 *1 GENIAC第1サイクルの開発成果として大規模言語モデル PLaMo-100B-Pretrained を公開 - 株式会社Preferred Networks *2 大規模言語モデルの次期バージョン PLaMo 2 31Bの事前学習 - Preferred Networks Research & Development *3 LLMによる大規模な事前学習データセット生成システムの構築と運用 - Preferred Networks Research & Development

15 日本語を入力・出力言語とするテキスト翻訳に特化して PFN フルスクラッチ開発した大規模言語モデル（LLM） PLaMo™翻訳のサービス提供*1 PFCP 利用事例: PLaMo 翻訳
*1 日本語の翻訳に特化したPLaMo翻訳のサブスクリプションサービスを正式リリース - 株式会社Preferred Networks PLaMo翻訳 : https://translate.preferredai.jp PLaMo 翻訳システム構成概略 Google Cloud Cloud Run vLLM

16 1. 対話型実験環境: ワークスペース機能 a. 対話型実験環境を作成して MN-Core 2 デバイスを操作する 2.
安全なサービス公開: ブラウザらのアクセス a. 弊社製の言語モデル plamo-2-translate を vLLM で起動する b. open-webui にブラウザらアクセスする PFCP デモ

17 PFCP のマルチテナント Kubernetes コンテナ基盤を支える技術

18 なぜマルチテナントで Kubernetes を使用するのか MN-Core や GPU といった貴重な計算リソース（アクセラレータ）を無駄な・効率よ
利用するため • テナントごとにクラスタを用意した場合、1つのノード上の計算リソースをテナント間で共有すること難しい（共有ノードの実現難しい） ◦ 仮想ノード (Virtual Kubelet 等) の選択肢もある経験ない • 社内向にマルチテナントで計算基盤を提供してた経験らマルチテナントらはじめることを選択 ◦ 一方でマルチテナントではテナント間の分離頑張りどころ ◦ 将来的にシングルテナントで提供することもでる

19 1. 脆弱性の影響範囲広なることの対応 ◦ シングルテナントの場合、他のテナントに影響するケース少ない 2. クラスタ管理者権限
必要な操作をユーザに提供でないことへの対応 ◦ namespace を作成してもらえない ◦ Kubernetes Operator をインストールしてもらえない 3. テナント間で共有するものを守る ◦ クラスタのデータストア (etcd) を守る ◦ 計算ノードを守る ▪ 専有ノード: 他のテナントのワークロードを入れない 4. テナント間の分離（セキュリティ） ◦ ネットワークの分離（NetworkPolicy は RDMA に効ない） ◦ Pod の分離（共有ノード: 権限昇格などの脆弱性への対策）マルチテナント頑張りどころの一例

20 1. マルチテナントのクラスタを構成する 2. マルチテナントの機能制約を緩和する 3. マルチテナントでの AI・ML ワークロード 4.
マルチテナントで必要な分離 (ネットワーク、Pod） 5. マルチテナントで計算資源を効率よ提供する PFCP のマルチテナント Kubernetes コンテナ基盤を支える技術

21 マルチテナントのクラスタを構成する

22 クラスタを管理する: Cluster API • https://github.com/kubernetes-sigs/cluster-api • 管理クラスタ上のカスタムリソースで、ワークロードクラスタを管理 • Kubernetes
らし Reconcile Loop でノードを扱う ◦ Machine リソースの削除で、ノードを削除する ◦ 健全でないノード数25%未満を維持しならノードを更新する管理クラスタワークロードクラスタ Cluster API infrastructure provider Infra API Machine Watch infrastructure Machine Watch 対応仮想マシン操作作成・削除仮想マシンマシン

23 複数拠点の複数クラスタを Cluster API で一括管理 AWS EKS オンプレミスベアメタル (MN-Core/GPU)
さくらインターネット GPU ベアメタルサーバー高火力 PHY さくらのクラウド（VM） AWS EC2 インスタンス (VM/GPU) 管理クラスタワークロードクラスタ AWS VPC Peering さくらインターネット AWS 接続オプション AW S Direct Connect • 複数種のインフラストラクチャプロバイダ • MAAS・さらインターネットは自作のプロバイダを使用

24 拠点ごとのクラスタ構成拠点 CNI プラグインロードバランサ永続ストレージインターコネクトオンプレミス CIlium
(OSS) (BGP) MetalLB (OSS) (BGP モード) アプライアンス RoCE v2 / Ethernet さくらインターネット Cilium (OSS) (VXLAN) さくらのクラウドロードバランサ Rook Ceph (OSS) RoCE v2 / Ethernet AWS Cilium (OSS) (VXLAN) AWS NLB AWS EBS / EFS AWS EFA 利用者らは同じ使い勝手でも拠点ごとに構成異なる（選択肢の違い）構成異なることでトラブルシュート難しい

25 カーネルで脆弱性報告あっても数時間で全ノードを更新でる体制 • PFCP はメンテナンスポリシで4ヶ月に一度の Kubernetes バージョンのアップグレードを宣言
◦ 最新マイナーバージョンの1つ前を採用 • OS やミドルウェア、アドオンなどのソフトウェアもすべて一緒に更新 ◦ すべてのホストで OS 再インストールら実施する ▪ Cluster API でクラスタのバージョン更新を自動化でている ▪ いつでも全ノードで OS 再インストールでる体制を維持する • マルチテナントでは脆弱性の影響他のテナントに及ぶため、脆弱性を管理し、すに変更を適用でる体制より重要になるクラスタ管理におけるマルチテナントの頑張りどころメンテナンスポリシ - Preferred Computing Platform（PFCP）ユーザガイド

26 マルチテナントの制約を緩和する

27 マルチテナントの機能制約 • Kubernetes Operator をインストールしてもらえない ◦ 一般に Operator は
CRD のインストールを伴う ▪ CRD は cluster-wide リソースなので全テナントに影響ある ▪ kcp などの選択肢も出てている ◦ PFCP は、任意の Operator はインストールさせない割り切り ▪ PFCP は Kubernetes-as-a-Service ではない ▪ AI・ ML ワークロードに特化して必要なものはマネージドで提供する • Namespace リソースを作成してもらえない ◦ 1つのテナントにつ、1つだの Namespace では使いにい ◦ テナントの管理者 Namespace を作成でるようにしたい

28 org-pfn--group4 org-pfn--group3 org-pfn--group2 hierarchical-namespaces (HNC): 階層型の Namespace と操作の委譲テナント管理者が
Namespace を作成できる org-pfn • テナント管理者テナント専用の root namespace に紐づ形で subnamespace (CR) を管理可能 • 先日アップストリームのリポジトリアーカイブされてしまった ◦ PFN でフォークしてメンテを継続 ◦ https://github.com/pfnet/hierarchical-namespaces root namespace (クラスタ管理者が管理) subnamespace (テナント管理者が管理) • namespace 名にポリシの適用 • namespace のラベルの強制（NetworkPolicy 等で機能） • RBAC 等のリソースを subnamespace に自動作成 org-pfn--group1

29 マルチテナントの悪影響を抑える（共有するリソースを守る）

30 特定のテナント大量の Kubernetes オブジェクトを作成してしまう • ResourceQuota で制限 ◦ Namespace
ごとの総リソース消費を制限する ◦ PFCP では HNC を使用してテナント管理者セルフで Namespace を作成でてしまう ◦ テナント単位で制限したい • HierarchicalResourceQuota (HRQ) で制限 ◦ HNC のカスタムリソースで、自身を含む紐づ全ての Namespace の総リソース消費を制限でる ◦ PFCP では1つの root namespace に subnamespace 紐づ ◦ root namespace に HRQ を作成してテナント単位で制限するクラスタのデータストア（etcd）を守る

31 専有ノードにはそのテナントのワークロードのみをスケジュールさせる • どのテナントの namespace にリソース作成されたに基づいて検証・変更を行う ◦
HNC で namespace にテナント名を含むラベル付与を強制 ◦ Admission Webhook や Validating/MutatingAdmissionPolicy で上記のラベルを使用 • Pod リソース ◦ nodeSelector と tolerations を強制 ◦ 任意の tolerations を使用されないように検証する共有ノードのセキュリティについてはこのあと別途解説計算ノードを守る（専有ノード）

32 マルチテナントでの AI・ML ワークロード

33 • 機械学習ジョブはバッチスケジューラでいい感じに動 ◦ Kubernetes だと色々工夫必要になる。ユーザも Kubernetes や
コンテナに慣れる必要ある。 • バッチスケジューラではな、Kubernetes のいいところ ◦ 推論ワークロードを載せやすい ▪ そもそも Web サービスのために作られたのでオートスケール、モニタリング、サービス間接続しやすい！ ▪ （スパコンに Jupyter やサーバを乗せるのは大変そう...） ◦ コミュニティ大い ▪ LLM以降、バッチ利用についても OSS 色々増えてているバッチスケジューラ（Slurm, PBS, …）ではなくわざわざ Kubernetes で頑張る理由

34 機械学習基盤のコンポーネント Scale-out Fabric InﬁniBand, Ethernet Compute Node Compute Node
RDMA NIC RDMA NIC Accelerator Accelerator CPU Scale-up Fabric Compute Node RDMA NIC RDMA NIC Accelerator Accelerator CPU Scale-up Fabric RDMA NIC RDMA NIC Accelerator Accelerator CPU Scale-up Fabric Job Scheduling Framework Kubernetes, Slurm, PBS, … Job Job Multi-Node Job どうやって Multi-Node Job をサポートする？どうやって Scale-up Fabric をサポートする？どうやって Accelerator をサポートする？どうやって RDMA NIC をサポートする？ネットワークをどううまく使う？

36 Multi-Node Job / MPI • MPI: 分散メモリ環境（マルチノード）向の通信インターフェイス ◦
Open MPI などの OSS やベンダープロプライエタリな実装ある ◦ 機械学習でも MPI を使ってジョブを起動すること多い launcher node $ mpiexec ./exec srv-a srv-b srv-c hostﬁle rank=0 (srv-a) $ ./exec ssh srv-a ./exec MPI_Comm_rank() -> 0 MPI_Comm_size() -> 3 ssh srv-b ./exec MPI_Comm_rank() -> 1 MPI_Comm_size() -> 3 rank=1 (srv-b) $ ./exec ssh srv-c ./exec MPI_Comm_rank() -> 2 MPI_Comm_size() -> 3 rank=2 (srv-c) $ ./exec プロセス番号は rank と呼ばれる今のコミュニケータに全部で何台いるも取れる hostﬁle で実際のサーバとプロセスを紐付る MPI_COMM_WORLD 今のジョブの世界全体

37 • launcher 他の Pod 上でコマンドを起動するには： ◦ kubectl exec する方法
▪ API Server の不調やタイムアウトに巻込まれてつらい ◦ sshd たてる + Service で Pod を Discovery する方法 ▪ 鍵作成に手間る、内製オペレータで自動化して解決 MPI on Kubernetes を実現するためのチャレンジ launcher pod $ mpiexec ./exec srv-a srv-b hostﬁle rank=0 pod $ ./exec ??? ??? rank=1 pod $ ./exec

38 • 複数の Pod を同時にスケジュールする ◦ Kubernetes 標準にはそういった機能はない ▪ 内製スケジューラで
Gang Scheduling して解決 ◦ Kueue など OSS で実現でるものもでてている • 設定の複雑さ ◦ 例 ▪ トポロジを考慮したホストファイルの生成 ▪ RDMA の設定（QoS、NCCL、NIC） ◦ ユーザ設定するには難しするので、内製オペレータで initContainer や環境変数を設定してやる MPI on Kubernetes を実現するためのチャレンジ

40 • 基本はデバイスファイルをつてやればいい ... ◦ /dev/nvidiaX (NVIDIA, GPU) ◦
/dev/mncXpYs0 (PFN, MN-Core) • デバイスへんなことやらないは注意必要 ◦ ドライバに脆弱性出ると困る → ちゃんと作る必要ある💪 • 安全にデバイスに設定値を入れたい ◦ 例: アクセラレータの動作周波数をワークロードごとに最適化！ ▪ 標準的な Device Plugin ではパラメータを渡すの難しい ▪ Dynamic Resource Allocation 使える可能性あり • DRA ドライバだに強い権限を持たせる。ユーザには直接渡さない。 Scale-up Fabric や Acclererator のサポート

42 • スパコンだと InﬁniBand 選ばれること多い PFCP だと Ethernet を採用している
• Ethernet のいいところ ◦ 標準で TCP/IP を利用可能 ▪ TCP/IP はストレージやIngress、サービス間通信で重要 • non-RDMA でも ECMP でる ▪ IPoIB しなていい ◦ 色々なベンダらスイッチやスイッチ ASIC でている ▪ Cisco, Arista (Broadcom), NVIDIA ◦ 輻輳制御周りは大変なところもある ... (マルチベンダだと特に) InﬁniBand vs Ethernet → Ethernet を採用

43 • 深層学習フレームワーク通信するテンソルを Pack する • 集団通信ライブラリを呼び出す: ◦ 通信ハードウェアを探索して
TCP/IP を発見 ◦ Socket API を使うためホストに Buffer を Copy • Socket API を呼び出す ◦ Userland / Kernel で Copy ◦ OS NIC に DMA 機械学習アプリから NIC まで（TCP/IP の場合） TCP/IP 通信集団通信ライブラリ xCCL Linux Kernel Socket API connect, write Tensor @ Accelerator NIC Vendor implementation D2H Copy DMA 深層学習フレームワーク機械学習アプリケーション例: LLM, 画像認識, ... ライブラリの呼出 ncclAllReduce, … フレームワークの呼出 torch.distributed.all_reduce Pack Buffer @ Accelerator Buffer @ Host Buffer @ Kernel space to kernel

44 • 深層学習フレームワーク通信するテンソルを Pack する • 集団通信ライブラリを呼び出す: ◦ 通信ハードウェアを探索して
IB Device を発見 • Verbs API を呼び出す ◦ Accelerator ら直接 DMA ◦ PeerDirect RDMA 機械学習アプリから NIC まで（RDMA の場合） RDMA 集団通信ライブラリ xCCL rdma-core (userspace) infiniband subsystem (kernel) InfiniBand Verbs reg_mr, post_send, poll_cq Tensor @ Accelerator RDMA NIC Vendor implementation DMA 深層学習フレームワーク機械学習アプリケーション例: LLM, 画像認識, ... ライブラリの呼出 ncclAllReduce, … フレームワークの呼出 torch.distributed.all_reduce Pack Buffer @ Accelerator

45 機械学習アプリから NIC まで（比較） TCP/IP 通信 RDMA 集団通信ライブラリ xCCL Linux
Kernel Socket API connect, write Tensor @ Accelerator NIC Vendor implementation D2H Copy DMA 深層学習フレームワーク機械学習アプリケーション例: LLM, 画像認識, ... ライブラリの呼出 ncclAllReduce, … フレームワークの呼出 torch.distributed.all_reduce Pack Buffer @ Accelerator Buffer @ Host Buffer @ Kernel space to kernel 集団通信ライブラリ xCCL rdma-core (userspace) infiniband subsystem (kernel) InfiniBand Verbs reg_mr, post_send, poll_cq Tensor @ Accelerator RDMA NIC Vendor implementation DMA 深層学習フレームワーク機械学習アプリケーション例: LLM, 画像認識, ... ライブラリの呼出 ncclAllReduce, … フレームワークの呼出 torch.distributed.all_reduce Pack Buffer @ Accelerator すっ飛ばした分早い！ホストメモリ経由しないのでPCIe帯域を節約！

46 • veth, eBPF で... とは TCP/IP 通信の話である ◦
RDMA はカーネルの TCP/IP スタックを通らない RDMA NIC を直接つける veth VF eth0 net1 PF VF VF veth VF Pod Podのnetnsに移す NIC ホスト通常ネットワークインターコネクト SR-IOV による NIC の仮想化

47 マルチテナントで必要な分離 / ネットワークの分離

48 NetworkPolicy は RDMA に効かない • Kubernetes 内での標準的なネットワークアイソレーションは NetworkPolicy を使った方法である
◦ これをもとに eBPF や iptables を使って通信元や通信先を制限 • RDMA は直接 NIC を Pod につて、カーネルはバイパスする ◦ eBPF や iptables は通らない、ホストで制限でない ◦ 代わりに、NIC やネットワークスイッチででることを考える TCP/IP 通信 RDMA 集団通信ライブラリ xCCL Linux Kernel Socket API NIC Vendor implementation D2H Copy DMA 深層学習フレームワーク ncclAllReduce, … Buffer @ Accelerator Buffer @ Host Buffer @ Kernel space to kernel 集団通信ライブラリ xCCL rdma-core (userspace) infiniband subsystem (kernel) InfiniBand Verbs RDMA NIC Vendor implementation DMA 深層学習フレームワーク ncclAllReduce, … Buffer @ Accelerator eBPF, iptables

49 • NIC ででること：何しらの情報をパケットに付与（色付） ◦ VLAN Switch
Tagging ▪ VF ら出るパケットに強制的に VLAN タグをつる ▪ ConnectX の機能で、ベンダーロックインになる ◦ TC Flower offload / Open vSwitch offload ▪ TC flow rule を NIC にオフロードする ▪ Kernel にある機能で、複数のベンダサポートしている • スイッチででること：ポート VLAN・VRF 分離？ ◦ Pod スケジュール時にスイッチの設定変更をしないといない ◦ スイッチだでは、共有ノードのトラフィックを見分られない NIC やスイッチでのアイソレーション

50 $ grep -R NETIF_F_HW_TC drivers/net/ethernet | cut -d\/ -f4
| sort | uniq airoha aquantia broadcom cadence chelsio freescale hisilicon intel marvell mediatek mellanox microchip mscc netronome qlogic sfc stmicro ti wangxun TC Flower Oﬄoad は広くサポートされている

51 • 使えそうな機能 ◦ VLAN Push / Pop ▪ テナントごとに
VLAN ID や VRF を決めて、色付 ◦ Src/Dst IP による ACL ▪ テナントごとに CIDR を決めていて、それで ACL する ◦ Tunneling (VXLAN, GRE, GENEVE) ▪ オーバーレイネットワークをつる • それぞれ検討して絶賛開発中です TC Flower はどう使えるか？

52 • AWS 拠点だと、EFA (Elastic Fabric Adapter) で RDMA する
◦ EFA は Ethernet (RoCE v2) というよりは InﬁniBand ぽい • ネットワークアイソレーションは Security Group ででる ◦ テナントごとに Security Group を分れば制御可能 ◦ 専有ノードはこれで対応可能 • Security Group は、EFA それぞれではなインスタンスに紐づ ◦ 共有ノード（1インスタンスに複数テナント）は分離不可能 AWS 拠点だとアイソレーションできるのか？ Tenant A Security Group Tenant A Compute Node Tenant A Compute Node Tenant B Security Group Tenant B Compute Node Tenant B Compute Node EFA EFA EFA EFA EFA EFA EFA EFA

53 マルチテナントで必要な分離 / Pod の分離

54 専有ノード: テナント専用ノード (+) ノードに他テナントの Pod いないのでセキュリティ的に安心 (-) ノードごとの月額単位で課金共有ノード:
複数のテナント共有するノード (-) ノードに他のテナントの Pod いるため、セキュリティ懸念 • コンテナを抜られてホストに潜入でるとまずい (+) 利用に合わせて分単位で課金 Pod の分離 PFCP のノードの種類

55 root ユーザー禁止 (+) コンテナを抜られてもすに root ユーザーにはなれない (-)
root ユーザー使えないため apt install などでない root ユーザー許容 (-) コンテナを抜られたとにホストの root ユーザーとなる ◦ 他テナントのコンテナに潜入されるリスク (+) apt install など可能に → root を許可しつつ、安全にしたい Pod の分離コンテナセキュリティ強化と利便性

56 Kata Container • GPU を1枚しサポートでていない ◦ 私の認識だと実装コストの都合
• MN-Core のドライバ側の追加対応、検証必要 gVisor • MN-Core のドライバ側の追加対応、検証必要 KubeVirt • Pod ではななるのであらゆるものを再考しないといな、つらい User Namespace を用いた技 • いままでの延長で可能だった Pod の分離コンテナセキュリティ強化と利便性

57 Pod の分離 User Namespace - UID のマッピング Init User
NS 0 … 999 1000 … 1999 2000 … 2999 3000… 3999 UID 空間 Host

58 Pod の分離 User Namespace - 通常のコンテナ Init User NS
0 … 999 1000 … 1999 2000 … 2999 3000… 3999 Container 1 User NS 0 … 999 Container 2 User NS 0 … 999 Host

NS 0 … 999 1000 … 1999 2000 … 2999 3000 … 3999 Container 1 User NS 0 … 999 Host

NS 0 … 999 1000 … 1999 2000 … 2999 3000 … 3999 Container 1 User NS 0 … 999 Container 2 User NS 0 … 999 1000 …. 1999 Nested User NS 0 … 999 Host

61 User NS の UID/GID のマッピングはあまでもプロセスの話 ◦ ファイルは...？ Pod
の分離ファイルの所有者 Processes Files Processes Files Processes  Files OS 🐧  ここのマッピングは大丈夫 Icon pack by Icons8 - https://icons8.com コンテナコンテナコンテナファイルなどのUID/GIDのマッピングは？

62 Pod の分離 id-mapped mount - Permission Denied $ ls
-l drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt utam0k: 1000 pfn: 1001

-l drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ unshare --user --map-root-user $ cat /proc/$$/uid_map 0 1000 1 utam0k: 1000 pfn: 1001 実行ユーザー(utam0k) を root ユーザーにマッピングコンテナの 0 をホスト 1000 に長さ 1 でマッピングされている utam0k(ホスト) ↔ root(コンテナ)

-l drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ unshare --user --map-root-user $ cat /proc/$$/uid_map 0 1000 1 $ ls -l drwxrwxr-x 2 nobody nogroup 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 root root 10 Nov 9 11:45 utam0k.txt utam0k: 1000 pfn: 1001

-l drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ unshare --user --map-root-user $ cat /proc/$$/uid_map 0 1000 1 $ ls -l drwxrwxr-x 2 nobody nogroup 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 root root 10 Nov 9 11:45 utam0k.txt $ echo "test" | tee -a pfn/pfn.txt tee: pfn/pfn.txt: Permission denied test $ echo "test" | tee -a utam0k.txt test utam0k: 1000 pfn: 1001

66 Pod の分離 id-mapped mount - Permission Denied Init User
NS Container User NS UID/GID のマッピング by FS UID 0 UID 1000 UID 1000 UID 2000 ・・・・・・ Icon pack by Icons8 - https://icons8.com

67 Pod の分離 id-mapped mount - 例 $ ls -l
drwxrwxr-x 2 pfn pfn 4096 Nov 27 08:26 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ sudo mount -m --bind --map-users 1001:1000:1 $(pwd)/pfn $(pwd)/mnt utam0k: 1000 pfn: 1001 1001(pfn) を 1000(utam0k) に長さ 1 でマッピング

68 Pod の分離 id-mapped mount - 例 $ ls -l
drwxrwxr-x 2 pfn pfn 4096 Nov 27 08:26 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ sudo mount -m --bind --map-users 1001:1000:1 $(pwd)/pfn $(pwd)/mnt $ ls -l drwxrwxr-x 2 utam0k nogroup 4096 Nov 10 12:03 mnt/ drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt utam0k: 1000 pfn: 1001

69 Pod の分離全体像 $ sudo mount -m --bind --map-users
1001:1000:1 $(pwd)/pfn $(pwd)/mnt $ ls -l drwxrwxr-x 2 utam0k nogroup 4096 Nov 10 12:03 mnt/ drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt utam0k: 1000 pfn: 1001

70 Pod の分離全体像 $ sudo mount -m --bind --map-users
1001:1000:1 $(pwd)/pfn $(pwd)/mnt $ ls -l drwxrwxr-x 2 utam0k nogroup 4096 Nov 10 12:03 mnt/ drwxrwxr-x 2 pfn pfn 4096 Nov 10 11:43 pfn/ -rw-rw-r-- 1 utam0k utam0k 10 Nov 9 11:45 utam0k.txt $ unshare --user --map-root-user $ echo "test" | tee -a mnt/pfn.txt test $ cat pfn/pfn.txt pfn test utam0k: 1000 pfn: 1001 実行ユーザー(utam0k) を root ユーザーにマッピング

71 ✓ User Namespace プロセスの UID/GID の変換を担当 ✓ id-mapped mount
ファイルシステムレイヤでの UID/GID の変換を担当 Pod の分離共有ノードを支える技術 Processes Files Processes Files Processes  Files OS 🐧  User Namespace id-mapped mount Icon pack by Icons8 - https://icons8.com コンテナコンテナコンテナ

72 id-mapped mount 非対応なファイルシステムある man の mount_setattr(2) の Notes
セクションに対応済み一覧ある ✓ xfs(5) (since Linux 5.12) ✓ ext4(5) (since Linux 5.12) ✓ btrfs(5) (since Linux 5.15) ✓ overlayfs (ID-mapped lower and upper layers supported since Linux 5.19) ✓ cephfs (since Linux 6.7) NFS 非対応で困っている... 😭 → 共有ノードで RWX なストレージを提供でていない Pod の分離直面している課題

73 問題を整理 ➔ NFS id-mapped mount 非対応 ◦ NFS を用いた
PV/PVC を利用するとコンテナの起動に失敗する ➔ id-mapped mount ないとどうなる？ ◦ 起動は成功する ◦ NFS を利用する PV の UID/GID のマッピングななる ➔ そもそも PFCP の PV で UID/GID は必要？ ◦ PVC は Namespace 単位のオブジェクト ◦ PFCP ではテナントは Namespace で区切られているので UID/GID での制御は不要 • 誰書込んでいるは考えなよい(all_squash) Pod の分離直面している課題

74 Pod の分離 id-mapped mount をスキップ実装中

75 Pod の分離 id-mapped mount をスキップここでファイルシステムの種類ごとに id-mapped mount のスキップの制御はで
ない😢 実装中

76 Pod の分離 id-mapped mount をスキップコンテナの加工をプラグインのようにできるコンテナランタイムの新機能 NFS
の時だけ id-mapped mount をスキップ NEW 実装中

77 マルチテナントで計算資源を効率よく提供する / スケジューラ

78 ✓ 利用効率 • 貴重な計算資源を有効活用 ✓ 公平性(実装中) • テナント内でリソース分配 •
テナント間のリソース融通スケジューラ PFCP におけるスケジューラの主な役割

テナント間のリソース融通スケジューラ PFCP におけるスケジューラの主な役割

80 Scheduling Framework: スケジューラーのアーキテクチャ • 機能・目的ごとに拡張点存在し、プラグインとして機能を差し込み可能 • スケジューリングのロジックをプラグインという単位で分割例)
NodeAﬃnity, PodTopologySpread, Preemption ... スケジューラ Kubernetes のスケジューラ拡張

81 • Packing: でるだ効率よ PodをNodeに詰めたい ◦ Podのリソース要求は多次元ベクトル ▪
1次元でもNP-Hardな組合せ最適化問題(Bin Packing) • Defrag: フラグメンテーションを除去したい ← PFNではでていない ◦ Podの実行時間は不定なので時間建つと穴開スケジューラ High Utilization Rate Packing

82 スケジューラ典型的なワークロード All-Reduce スタイル分散深層学習ジョブ (並列)ジョブワークフロー分散(深層)強化学習ジョブ Environments
+ Actors Distributed Learners

83 スケジューラ典型的なワークロード All-Reduce スタイル分散深層学習ジョブ (並列)ジョブワークフロー分散(深層)強化学習ジョブ Environments
+ Actors Distributed Learners Pod を一斉にスタート(着地) させる必要がある

84 スケジューラ Gang-Scheduling (a.k.a. Co-Scheduling) • 複数のPodを一度に配置したい = all or
nothing なスケジューリング ◦ All-Reduceの分散深層学習は全 pods 揃わないと計算開始でない ◦ 2つの Gang を1 Podずつ配置すると容易にデッドロックしてしまう • リソース効率的な観点でも一斉にスケジュールしたい Job A Job B どちらもサイズ6

テナント間のリソース融通スケジューラ PFCP におけるスケジューラの主な役割実装中

86 Kueue: Kubernetes-native Job Queueing • kubernets-sigs/kueue • Workload という単位でリソースマネジメントとスケジュー
リングを行う kube-scheduler の KEP で Kueue への言及増えている • KEP-4671: Gang Scheduling • KEP-5278: Nominated node name for an expected pod placement スケジューラ Kueue 実装中

実装中

90 • Topology Aware Scheduling • Fair Sharing • Dynamic
Resource Allocation のサポート • Multi Kueue • クレジット • 豊富なメトリクススケジューラ Kueue のいろいろな一般的な機能

91 ✓ そもそも Kueue の挙動を理解するの難しい ◦ まだ世の中に情報少ない ◦
ドキュメントはある、想像と違う動をすることも ✓ 既に動いているクラスタに途中で入れるのは難しい ◦ Kueue のリソース管理に移行する必要ある ✓ 開発活発である一方で不安定なところはある ◦ Alpha 機能を使う場合は自分たちでもコミットするスケジューラ Kueue で直面している課題実装中

92 まとめ

93 まとめ (1/3) 1. なぜマルチテナントを選択するの ◦ MN-Core や GPU といった貴重な計算リソースを無駄な
効率よ利用するため 2. マルチテナントのクラスタを構成する ◦ Cluster API を利用して複数拠点の複数クラスタを一括管理 ◦ 脆弱性対応のために常にノードを更新でる体制を維持 3. マルチテナントの制約を緩和する ◦ Kubernetes Operator: 必要なものはマネージドで提供で割り切る ◦ Namespace: hierarchical-namespaces (HNC) を活用

94 4. マルチテナントでの AI・ML ワークロード ◦ MPI: 内製 Operator で簡単に利用可能（ssh
用の鍵作成等を代行） ◦ Gang Scheduling: 内製スケジューラを開発 ◦ 各種デバイスのサポート（Accelerator, RDMA 対応 NIC） ▪ PFCP では InﬁniBand ではな Ethernet を採用 ◦ 従来、機械学習ジョブを Kubernetes でやることは大変だった LLM 以降、Kubernetes や周辺 OSS でのサポート広りつつある 5. マルチテナントで必要な分離 (ネットワーク、Pod） ◦ ネットワーク分離: NetworkPolicy は RDMA に効ない ▪ OVS w/ TC Flower で実現を検討中 ◦ Pod 分離: Usernamespaces + id-mapped mount で解決 ▪ NFS で id-mapped mount 機能しない • NFS だ NRI を利用してip-mapped mount をスキップまとめ (2/3)

95 6. マルチテナントで計算資源を効率よ使う ◦ スケジューラを独自で拡張: Bin-Packing, Gang Scheduling ◦
Kueue への取り組み: バッチスケジューリングに関する多の機能 ▪ 開発活発である一方で若いソフトウェアで不安定 ▪ 自分たちでのコミットしてい必要あるまとめ (3/3)

マルチテナントKubernetesコンテナ基盤 / 京都大学学術情報メディアセンターセミナー

マルチテナントKubernetesコンテナ基盤 / 京都大学学術情報メディアセンターセミナー

More Decks by Preferred Networks

Featured

Transcript