Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon EKS を活⽤した LLM 推論基盤の全体像

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Amazon EKS を活⽤した LLM 推論基盤の全体像

Amazon EKS でスケーリングする生成 AI 環境を構築するハンズオンワークショップ [In Japanese]
https://aws-experience.com/emea/smb/e/f9445/hands-on-workshop-building-and-scaling-genai-workloads-with-amazon-eks-in-japanese

Avatar for Kenta Goto

Kenta Goto

May 26, 2026

More Decks by Kenta Goto

Other Decks in Technology

Transcript

  1. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon EKS を活⽤した LLM 推論基盤の全体像 後藤 健汰 Solutions Architect 2026/05
  2. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ⾃⼰紹介 後藤 健汰 アマゾンウェブサービスジャパン ソリューションアーキテクト 役割 ü 様々な業界の顧客への技術⽀援 ü コンテナ関連の技術⽀援 好きなこと ü Kubernetes ü Platform Engineering 2 @kennygt51
  3. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. 1. はじめに 2. Kubernetes を活⽤した推論基盤の全体像 3. 推論基盤の構築における技術要素 4. Amazon EKS を活⽤した推論基盤 5. まとめ アジェンダ 3
  4. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 4 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. はじめに
  5. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes とは 5 コンテナを複数のホストにわたって管理するオープンソースシステム いわゆる ”コンテナオーケストレーション” 主要な機能 ü 宣⾔的なリソース管理 ü "あるべき状態" を定義してそこに収束させる ü Reconciliation Loop ü スケジューリング ü さまざまな戦略を元にワークロードを適切なサーバーに 配置 ü サービスディスカバリー ü ワークロード間の通信 ü オートヒーリング ü コンテナに障害が発⽣した場合の⾃動回復
  6. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes の進化 6 ü 2015/07 に v1.0 がリリース、2026/05 時点で v1.36 がリリース ü 4 ヶ⽉ごとにマイナーバージョンのアップグレードリ リース ü 当初、Kubernetes は容易に⽔平スケールできるステー トレスなワークロードに最適化されていた ü DB やメッセージングシステムといったステートフルな ワークロードもサポートできるように進化 (StaefulSets API が v1.5 で導⼊) ü また 2019 年 v1.16 で Custom Resource Definition (CRD) が GA となり、Operator Pattern (Custom Controller と CRD による拡張) が Production Ready に 達する https://kubernetes.io/ja/blog/2024/06/06/10-years-of-kubernetes/ CNCF (Cloud Native Computing Foundation) によって管理され、進化を続けている
  7. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AI/ML における Kubernetes 7 ü AI/ML ワークロードは⼀般的な業務アプリケーションとは⼤き く異なるインフラ要件を持つ ü Kubernetes は本来は従来型のアプリケーション向けに設計され たプラットフォームであるものの、LLM の勃興によって AI/ML ワークロードにおけるユースケースが広まっている LLM 勃興に伴い、Kubernetes においても AI/ML ⽂脈での活⽤の議論が活発
  8. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Kubernetes を活⽤した推論基盤の全体像
  9. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes を活⽤した推論基盤の全体像 9 Observability GPU Allocation コンピュート ネットワーキング ストレージ セキュリティ オーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジン モデルサービングコントローラー サービング エンジン プラットフォーム 推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説 インフラ
  10. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes を活⽤した推論基盤の全体像 10 Observability GPU Allocation コンピュート ネットワーキング ストレージ セキュリティ オーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジン モデルサービングコントローラー サービング エンジン プラットフォーム 推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説
  11. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 11 Kubernetes アーキテクチャ https://kubernetes.io/ja/docs/concepts/overview/components/ ü Kubernetes は分散システム ü ⼤きく 2 つのコンポーネント群に分かれる ü コントロールプレーン ü データプレーン ü 多岐にわたる運⽤やそのためのスキルが必要 ü クラスター管理 ü 障害復旧対応 ü セキュリティ ü 監査 ü バージョンアップグレード ü モニタリング / オブザーバビリティ ü Kuebrnetes のメリットを享受しつつ、複雑 な運⽤を避けるため、マネージド Kubernetes (Amazon EKS など) が利⽤され る
  12. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 12 Kubernetes Resource Model (KRM) Kubernetes API と通信する際に⽤いられるリソースの宣⾔的管理モデル 特徴 ü API-centric ü 宣⾔的な制御 ü リソース管理の⼀貫性 ü 拡張性 user-declared desired state observed currens state KRM による AWS リソースの管理 ü Kubernetes API ベースでの AWS リソース管理 ü Kubernetes エコシステムの活⽤ 変更 観測 Reconciliation Loop
  13. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 13 Developer Platform Engineer K8s マニフェスト $ kubectl apply… 作成 Kubernetes Resource Model (KRM)
  14. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 14 https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/ GPU や NIC などの特定のハードウェアリソースを Kubernetes クラスター内で管理/利⽤可能 にするための拡張機能 “Kubernetes は device plugin framework を提供 しており、これを使⽤してシステムのハードウェ アリソースを kubelet にアドバタイズすることが できます” “Kubernetes ⾃体のコードをカスタマイズする代 わりに、ベンダーは⼿動または DaemonSet とし てデプロイ可能な device plugin を実装できま す” Device Plugin
  15. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 15 ü Device Plugin は Woker Node 上で DaemonSet 起動し、gRPC インター フェースを通じて kubeletに⾃⾝を登 録 (kubelet はどの種類のデバイスが 利⽤可能かを認識) ü Device Plugin は kubelet に対して⾃ ⾝が管理するデバイスの⼀覧と状態 を ListAndWatch() で逐次共有 ü Pod 作成時に kubelet は Device Plugin の Allocate() を呼び出し、コ ンテナに割り当てるデバイスファイ ルのマウント情報や環境変数などを 受け取る Device Plugin Device (e.g. GPU) kubelet Device Plugin Manager API Server etcd Control Plane Data Plane (Woker Node) Device (e.g. GPU) Device (e.g. GPU) RegisterRequest ListAndWatch() to get device Start gRPC server https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/ Device Plugin
  16. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 16 ü NVIDIA の GPU をコンテナで利⽤可能にするための Device Plugin ü Woker Node に DaemonSet としてインストールさ れ、ノード上の GPU の状態を監視して kubelet に 通知 ü Pod の作成時に GPU 使⽤のために必要なドライバ ライブラリをコンテナにマウントし、GPU 利⽤の準 備を⾃動化 ü これにより、ユーザーは Pod のリソース指定で nvidia.com/gpu を指定するだけでGPUを利⽤ https://github.com/NVIDIA/k8s-device-plugin NVIDIA Device Plugin
  17. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 17 apiVersion: v1 kind: Pod metadata: name: gpu-pod-example spec: containers: - name: gpu-container image: nvidia/cuda:11.0-base resources: limits: nvidia.com/gpu: 1 T4 GPU EC2 instance contents EC2 instance contents T4 GPU g4dn.xlarge g4dn.xlarge Scheduling Scheduling Device Plugin による⼀般的な GPU Allocation
  18. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 18 ü GPU は整数単位でしか割り当てられず、 部分的なリソース割り当て(0.5 GPUな ど)ができない ü 複数の Pod 間で GPU を共有する仕組み が標準では提供されていないため、リ ソースの効率的活⽤に限界がある ü Kubernetes のスケジューラは GPU の数を基準にノード選択を⾏い、特定 の GPU ID やハードウェアトポロジー (PCIe、NVLINK など)を考慮した細 かい割り当てが困難 ü GPU の物理的な配置や NIC との親和 性を反映した配置が難しく、性能最適 化の制約となる リソース⾮効率 トポロジー考慮 “Traditional” な GPU Allocation の課題
  19. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 19 ü Kubernetes v1.34 で GA となった Kubernetes API ü Kubernetes クラスタ内の特殊ハードウェア資 源(例︓GPU、FPGA)を柔軟に割り当てる ü 以下を実現 • 異なる Pod およびコンテナ内から同じリ ソースへのアクセス • リソース要求に応じた最適なリソースを割 り当て • ユーザーが指定したパラメーターに従って リソースの初期化を実⾏ Dynamic Resource Allocation https://kubernetes.io/blog/2025/09/01/kubernetes-v1-34-dra-updates/
  20. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 resourceClaims: - name: gpu-claim source: resourceClaimTemplateName: single-gpu apiVersion: resource.k8s.io/v1beta1 kind: ResourceClaimTemplate metadata: namespace: gpu-test1 name: single-gpu spec: spec: devices: requests: - name: gpu deviceClassName: gpu.nvidia.com Pod YAML Devic Plugin (従来の⽅法) Dynamic Resource Allocation resources: limits: nvidia.com/gpu: 1 Pod YAML ResourceClaimTemplate YAML DRA を活⽤した場合の GPU Allocation
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 21 ü 特定の GPU メモリをリクエスト ü 80GiB のうち 16GiB を要求 ü メモリ要件とは独⽴してコンピューティング要件を指定 ü Multi GPU ワークロード⽤のトポロジー制約を定義 ü Time-slicing ü MPS (Multi Process Service) ü MIG (Multi Instance GPU) ü GPU 間 の NVLink 接続を理解 ü Amazon EC2 P6e-GB200 UltraServer クラスター向けに IMEX を 活⽤ ü 分散学習ワークロードのための配置を最適化 ü Amazon EC2 P6e-GB200 UltraServer のような次世代システムに必 要 ü マルチノード NVLink などの⾼度な機能を有効化 ü 新しい GPU アーキテクチャーと共有技術をサポート Per-Workload Sharing Stragegies (ワークロードごとの GPU 共有戦略) Fine-grained Resource Control (きめ細やかなリソースコントロール) Topology-Aware Scheduling (トポロジーを意識したスケジューリング) Future-Proof Architecture (将来性のあるアーキテクチャ) DRA による GPU 割り当てのメリット
  22. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 22 Kubernetes を活⽤した推論基盤の全体像 22 Observability GPU Allocation コンピュート ネットワーキング ストレージ セキュリティ オーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジン モデルサービングコントローラー サービング エンジン プラットフォーム インフラ 推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説
  23. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 23 ü 実際のモデル ü モデルをロードして実⾏できるランタイム ü モデルをエンドポイントとして公開し、 ユーザーからの⼊⼒としてプロンプトを受 け取れるようにするためのサーバー API レイヤー モデル ランタイム (PyTorch など) モデルサーバー (vLLM など) GPU モデルレジストリ Batching Sharding Optimization GPU GPU モデルをデプロイするために必要な構成要素 モデルサーバー ü ランタイムを含む、モデルをサービン グするライブラリ ü モデルは API 経由 (REST / gRPC)で公 開される 基盤モデルのデプロイ
  24. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. vLLM 24 ü 効率的なメモリ管理や推論最適化をサポート ü Paged Attention ü Continuous Batching ü OpenAI API 互換 サービング ü 主要なモデル、ハートウェアをサポート ⼤規模⾔語モデル (LLM) を⾼速かつ簡単に利⽤できる LLM 推論&サービングライブラリ https://docs.vllm.ai/en/latest/ vllm serve \ --port=8080 \ --model=/mnt/models \ --served-model-name=meta- llama/Meta-Llama-3-8B Python ライブラリ CLI
  25. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes におけるモデルサーバーのデプロイ 25 GPU リソース管理、tolerations と taints、ストレージ構成、シークレット管 理、モデル固有のパラメータなどすべてが明⽰的な設定が必要 Kubernetes API リソースを組み合わせた形でデプロイ可能 Kubernetes Operator Pattern を活⽤したモデルサーバーコントローラー Amazon EKS へのデプロイ K8s リソースの定義
  26. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes を活⽤した推論基盤の全体像 26 Observability GPU Allocation コンピュート ネットワーキング ストレージ セキュリティ オーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジン モデルサービングコントローラー サービング エンジン プラットフォーム 推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説
  27. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. モデルサーバーコントローラー 27 Custom Controller + CRD (Operator patterns) によるハイレベルな抽象化により モデルサーバーを管理 API レイヤー モデル ランタイム (PyTorch など) モデルサーバー (vLLM など) GPU モデルレジストリ Batching Sharding Optimization GPU GPU モデルサーバーコントローラー (KServe など) Kubernetes API (Deployment etc) ü 複雑性の排除 • Deployment、PersistentVolumeClaim、 GPU 設定、tolerations、モデル固有のパ ラメータなど、多数の Kubernetes リソー スをおーけストレート ü ハイレベルな抽象化 • Custom Resource Definitions (CRDs) を通 じて、抽象化された API による管理 ü 宣⾔的なアプローチ • ⼤量の K8s マニフェストを⼿動で作成し たり、複数のKubernetes リソースを管理 する必要がない ü 集中的なステータス管理 • モデルデプロイメントの健全性と状態を 監視しやすくする、集中化されたステー タス情報を提供
  28. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Ray とは 28 分散処理を簡単に記述するための Python ライブラリ・処理基盤 あたかもローカルで動くような⾒慣れたプログラムを、そのまま分散実⾏ (複数のスレッド、 複数のコア、複数のサーバで実⾏) できる ü 統合ツールセット ü AI/MLライフサイクル全体をカバーするライブラリ (Ray AI Libraries) を提供 ü Ray Data (データ処理)、Ray Train (分散トレーニング)、Ray Tune (ハイパーパラメータ チューニング)、Ray Serve (モデルサービング)、Ray RLlib (強化学習) ü Python ネイティブ ü 最⼩限のコードで Python による並列処理を実装 (既存の関数にデコレータを追加) ü スケーラビリティとパフォーマンス ü Rayは、異なるハードウェア (CPUとGPU) にまたがる分散学習と推論を実現 ü 耐障害性 ü ノード障害を⾃動的に処理し、クラスター内の他のマシンにタスクをルーティングするこ とで、中断のない実⾏を保証 特徴
  29. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Ray アーキテクチャ 29 ü Ray AI Libraries: 分散データ処理、分散学習、ハイパーパラメータ探索、推論サービング、強化学習 などの⽤途向けライブラリ ü Ray Core: Python の関数やオブジェクトを分散実⾏するための中核で、タスクとアクターという基本 モデルを提供 ü Ray クラスター: Head Node と Worker Node からなる実⾏基盤で、必要に応じてスケール https://github.com/ray-project/ray Ray Cluster, Ray Core, Ray AI Libraries から構成される。タスクやアクターを扱う Ray Core があり、その上に Data / Train / Tune / Serve / RLlib などのライブラリが載り、基盤には Head Node と Worker Node で構成されるクラスターが存在
  30. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Ray Cluster 30 https://docs.ray.io/en/latest/cluster/key-concepts.html Ø Head Node : クラスター全体の管理を担当する単 ⼀ノード ü GCS(Global Control Store) : クラスター 全体のメタデータ(Actor、配置グループ、 ノード情報など)を管理 ü Autoscaler: ワークロードのリソース要求に 応じてWorkerノードをスケールイン/アウト ü Driver Process: ray.init() を呼び出したエント リーポイントプロセスが動作 ü Dashboard: クラスターの状態監視⽤Web UI Ø Worker Node: 実際のタスクやActorを実⾏する ノード群、各ノードには Raylet が1つ動作 ü ローカルスケジューラ: タスクのスケジューリ ングとディスパッチ ü オブジェクトストア(Plasma): ノード間で 共有されるインメモリオブジェクトストア (Apache Arrow形式)
  31. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Ray Core 31 Python Funciton Ray Actors Ray Task Single node function 数⾏のコードで分散タスク 数⾏のコートで ステートフルなアプリケーション
  32. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Ray AI Libraries 32 https://docs.ray.io/en/latest/ray-overview/getting-started.html#ray-core-quickstart ü Ray Data: ⼤規模データの読み込み・前処理・変換を ⾏う分散データ処理ライブラリ。学習や推論パイプラ インへのデータ供給に最適化 ü Ray Train: PyTorch、TensorFlow、HuggingFaceなど のフレームワークと統合し、分散学習(データ並列・ モデル並列)を簡単にスケールアウト ü Ray Tune: ハイパーパラメータチューニングを分散環 境で効率的に実⾏するライブラリ。ASHA、PBTなど 多数のスケジューリングアルゴリズムに対応 ü Ray Serve: モデルサービング(推論)のためのライ ブラリ。複数モデルの構成(パイプライン・アンサン ブル)、動的バッチング、オートスケーリングに対応 し、vLLMなどの推論エンジンと組み合わせてLLMの 分散推論にも利⽤される ü Ray Rllib: 強化学習(Reinforcement Learning)のた めのスケーラブルなライブラリ。多数のアルゴリズム (PPO、DQN、SACなど)を分散環境で実⾏可能
  33. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. KubeRay 33 Kubernetes 上で Ray を管理するためのオープンソース https://docs.ray.io/en/latest/cluster/kubernetes/index.html 提供される CRD ü RayCluster: Ray クラスターの作成や削除、オートスケーリングなど、Ray クラスターのラ イフサイクル管理するためのカスタムリソース ü RayJob: 単発の Ray ジョブを実⾏するカスタムリソース ü RayService: Ray Serveを使ったモデルサービングや推論アプリケーションを管理
  34. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. 推論基盤の構築における技術要素
  35. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. オートスケーリング 35
  36. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes におけるオートスケーリング 36 Metrics Store HPA Pending pods X VPA Scale up ASG Cluster Autoscaler API call to ASG Pod Scaling Node Scaling Kubernetes におけるスケーリングは 2 つのレイヤーに分かれる
  37. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes におけるオートスケーリング 37 HPA (Horizontal Pod Autoscaler) ü 主にCPUとメモリの使⽤状況を監視 ü そのため、主にGPUに負荷が集中するLLMワーク ロードには適しておらず、より柔軟なオートスケー リングの仕組みが必要になる KPA (Knative Pod Autoscaler) ü KPA はリクエストベースのアプローチ ü LLM では KPA のようなリクエストベースのアプ ローチでは、「リクエスト数」が実際の実⾏負荷と 必ずしも相関しない ü あるリクエストが多数のトークンを⽣成する⼀⽅で、 別のリクエストはごく少数しか⽣成しないなど LLM 推論基盤における、Pod Scaling の選択肢
  38. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. KEDA: Kubernetes-based Event-Driven Autoscaling 38 ü HPA より柔軟に Pod や Job のスケールが可能な 軽量 OSS コンポーネント ü 内部的には HPA と連携することで上書きや重 複なくシンプルに機能提供 ü 多数の外部メトリクスをサポート ü ゼロスケール対応 ü カスタムリソースのマニフェストを記載すること で設定が可能 https://keda.sh
  39. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. LLM-Aware ルーティグ 39
  40. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Kubernetes におけるルーティング 40 Kubernetes におけるロードバランシング ü クラスター内におけるロードバランシングアルゴリズ ムは基本的にラウンドロビン ü 厳密に⾔えば kube-proxy の動作モードを変更す ることで least connection などもできるが省略 ü クラスター外リクエストからのロードバランシングは Ingress 実装に依存する ü Amazon EKS の場合は ALB の機能に依存 (Round Robin, Least Outstanding Requests) ü Topology Aware Routin ü トラフィックを発信元のトポロジーにできるだけ ⽌める (ネットワークコストの削減など) ユーザーからのリクエストを Pod レプリカに効率的にルーティングする https://kubernetes.io/ja/docs/concepts/services-networking/service/ Service リソース これらは通常のアプリケーショントラフィックが前提
  41. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. LLM Gateway に求められる要件 41 LLM トラフィックを認識し、それを最適化できるゲートウェイコンポーネントを実現すること ü リクエスト数ベースのレート制限 ü パスベースのルーティング ü AutN/Z 従来の API Gateway LLM Gateway ü トークン消費量の追跡 ü モデルやユーザーに基づくトークン消 費量の追跡 ü トークンベースでのレート制限 ü リクエスト数ではなく、⽣成された トークン数などに基づいてクォータを 定義 ü モデル名やセマンティクスによ るルーティング
  42. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Distributed Inference 42
  43. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 43 https://llm-d.ai/docs/architecture Kubernetesネイティブな⼤規模⾔語モデル(LLM)の分散推論フレームワーク ü vLLM ベースの推論ワークロー ドをKubernetes上で管理 ü Inference Scheduler と呼ばれ る機能により、複数の推論イン スタンスに対してリクエストを 適切に振り分けられる ü Well-Lit Paths (アーキテク チャパターン) が提供 ü Precise Prefix Cache Aware Routing ü P/D Disaggregation ü Wide Expert Parallelism llm-d
  44. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon EKS を活⽤した推論基盤
  45. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs 3 4 6 7 2 1 5 2 Run Container 3 Download Model 4 Load Model in GPU Memory 6 Expose an Endpoint 7 Interact 8 Monitor 1 Provision compute 5 Autoscale GPU 6 Monitor Amazon CloudWatch 8 Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Amazon EKS を活⽤したアーキテクチャ例
  46. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU ready な EKS クラスターの作成
  47. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. GPU ready な EKS クラス ターの作成 Option 1 EKS Customer Responsibility EKS with self-managed add-ons AWS responsibility Managed Control Plane Networking Storage Monitoring Security
  48. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. GPU ready な EKS クラス ターの作成 Option 2 EKS Customer Responsibility EKS Auto Mode AWS responsibility Managed Control Plane Networking Storage Monitoring Security
  49. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. GPU and AWS ML Accelerators Trainium accelerator Inferentia accelerator H200, H100, A100, L4, L40S A10G, T4 Announced at GTC and re:inventʼ24 Training Inference Announced at GTC and re:inventʼ24 Trn3 Trn2 Trn1 Inf2 Inf1 P4d P4de P5 P5e P5en P6 G4 G5 G6 G6e アクセラレーテッドコンピューティングポートフォリオ
  50. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Capacity blocks 短期間の中断のないキャパシ ティへのアクセス。最低24時間 から利⽤可能 予測可能で柔軟なワー クロード P4d, P5, P5e, P5en, P6-B200, Trn1, Trn2 On-demand 期的なコミットメントなしで、 使⽤した分だけ⽀払い Spot オンデマンド料⾦の最⼤ 90%オフで、余剰キャパシ ティを利⽤可能 キャパシティの確保が 必要なミッションクリ ティカルなワークロー ド On-demand capacity reservations (ODCR) ⻑期にわたる中断のないキャパ シティへのアクセス Savings plans 1年または3年の時間単位の使⽤ 量コミットメントにより、⼤幅 なコスト削減が可能 耐障害性があり、柔軟 でステートレスなワー クロード コミット済みで定常的 な使⽤量 ステートフルでスパイ ク的なワークロード コストを最適化するための複数の購⼊オプション
  51. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. EFA Adapter Bottlerocket Optimized for EKS OS NVIDIA Neuron NVIDIA kernel driver with MIG Support Device Plugin NVIDIA Runtime à Device Plugin can be easily installed as an EKS add-on EFA Adapter Bottlerocket Optimized for EKS OS Neuron kernel driver dkms Device Plugin Neuron Runtime EFA Adapter Optimized for EKS OS NVIDIA Neuron NVIDIA kernel driver with MIG Support NVIDIA Runtime EFA Adapter AL2023 Optimized for EKS OS Neuron kernel driver dkms Neuron Runtime AL2023 EKS 最適化 AMI
  52. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU ready な EKS クラスターの作成
  53. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Deep Learning Containers
  54. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 複数のMLフレームワークサポート TensorFlow、PyTorch、XGBoost、JAXなど、複数のMLフレー ムワークが設定済み。numpy、sklearn、scipy、pandasなど、 多数のPythonパッケージを含む。 Pre-bundled ML libraries テキスト⽣成、テキスト埋め込みツールキット、transformers 、diffusersライブラリを含む。Nvidia、Neuronパッケージ、 CUDA、CuDNN、NCCL、vLLMライブラリを搭載。 OSS integrations vLLMを使⽤してLLMサービングを最適化。Rayなどのフレー ムワーク⾮依存ライブラリを使⽤してモデルサービングをス ケール。 DEEP LEARNING CONTAINER CUDA or Neuron Runtime Model framework CUDA Libraries, NCCL, lib fabric Deep Learning Containers
  55. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Deep Learning Containers
  56. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU にモデルをロードする
  57. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Container storage interface (CSI) BLOCK Amazon EBS Amazon FSx for NetApp ONTAP Amazon EFS Amazon FSx for Lustre Amazon FSx for OpenZFS Amazon S3 (Mountpoint) FILE Object 任意のストレージを使⽤して、 レジストリからクラスターにモデルをダウンロードします。 ストレージの柔軟性
  58. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU にモデルをロードする
  59. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents オートスケーリング
  60. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Serve Storage Container Registry Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs 3 4 6 7 2 1 5 2 Run Container 3 Download Model 4 Load Model in GPU Memory 6 Expose an Endpoint 7 Interact 8 Monitor 1 Provision compute 5 Autoscale GPU 6 Monitor Amazon CloudWatch 8 Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Amazon EKS Amazon EKS を活⽤したアーキテクチャ例
  61. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 61 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. まとめ
  62. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 62 Ø Kubernetes × AI/ML ü⼀般的な Web ワークロードとは異なる考慮事項が複数存在する Ø OSS エコシステムの活⽤ üさまざまな OSS を組み合わせることで、効率的な推論基盤の構 築が可能 Ø Amazon EKS üマネージドな機能と OSS の統合により、運⽤負荷を抑えながら AI/ML 基盤を実現 まとめ
  63. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Thank you! © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved.