Amazon EKS を活⽤した LLM 推論基盤の全体像

© 2025, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon EKS を活⽤した LLM 推論基盤の全体像後藤健汰 Solutions Architect 2026/05

rights reserved. ⾃⼰紹介後藤健汰アマゾンウェブサービスジャパンソリューションアーキテクト役割 ü 様々な業界の顧客への技術⽀援 ü コンテナ関連の技術⽀援好きなこと ü Kubernetes ü Platform Engineering 2 @kennygt51

rights reserved. Kubernetes とは 5 コンテナを複数のホストにわたって管理するオープンソースシステムいわゆる ”コンテナオーケストレーション” 主要な機能 ü 宣⾔的なリソース管理 ü "あるべき状態" を定義してそこに収束させる ü Reconciliation Loop ü スケジューリング ü さまざまな戦略を元にワークロードを適切なサーバーに配置 ü サービスディスカバリー ü ワークロード間の通信 ü オートヒーリング ü コンテナに障害が発⽣した場合の⾃動回復

rights reserved. Kubernetes の進化 6 ü 2015/07 に v1.0 がリリース、2026/05 時点で v1.36 がリリース ü 4 ヶ⽉ごとにマイナーバージョンのアップグレードリリース ü 当初、Kubernetes は容易に⽔平スケールできるステートレスなワークロードに最適化されていた ü DB やメッセージングシステムといったステートフルなワークロードもサポートできるように進化 (StaefulSets API が v1.5 で導⼊) ü また 2019 年 v1.16 で Custom Resource Definition (CRD) が GA となり、Operator Pattern (Custom Controller と CRD による拡張) が Production Ready に達する https://kubernetes.io/ja/blog/2024/06/06/10-years-of-kubernetes/ CNCF (Cloud Native Computing Foundation) によって管理され、進化を続けている

rights reserved. AI/ML における Kubernetes 7 ü AI/ML ワークロードは⼀般的な業務アプリケーションとは⼤きく異なるインフラ要件を持つ ü Kubernetes は本来は従来型のアプリケーション向けに設計されたプラットフォームであるものの、LLM の勃興によって AI/ML ワークロードにおけるユースケースが広まっている LLM 勃興に伴い、Kubernetes においても AI/ML ⽂脈での活⽤の議論が活発

rights reserved. Kubernetes を活⽤した推論基盤の全体像 9 Observability GPU Allocation コンピュートネットワーキングストレージセキュリティオーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジンモデルサービングコントローラーサービングエンジンプラットフォーム推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説インフラ

rights reserved. Kubernetes を活⽤した推論基盤の全体像 10 Observability GPU Allocation コンピュートネットワーキングストレージセキュリティオーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジンモデルサービングコントローラーサービングエンジンプラットフォーム推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説

rights reserved. 11 Kubernetes アーキテクチャ https://kubernetes.io/ja/docs/concepts/overview/components/ ü Kubernetes は分散システム ü ⼤きく 2 つのコンポーネント群に分かれる ü コントロールプレーン ü データプレーン ü 多岐にわたる運⽤やそのためのスキルが必要 ü クラスター管理 ü 障害復旧対応 ü セキュリティ ü 監査 ü バージョンアップグレード ü モニタリング / オブザーバビリティ ü Kuebrnetes のメリットを享受しつつ、複雑な運⽤を避けるため、マネージド Kubernetes (Amazon EKS など) が利⽤される

rights reserved. 12 Kubernetes Resource Model (KRM) Kubernetes API と通信する際に⽤いられるリソースの宣⾔的管理モデル特徴 ü API-centric ü 宣⾔的な制御 ü リソース管理の⼀貫性 ü 拡張性 user-declared desired state observed currens state KRM による AWS リソースの管理 ü Kubernetes API ベースでの AWS リソース管理 ü Kubernetes エコシステムの活⽤変更観測 Reconciliation Loop

rights reserved. 13 Developer Platform Engineer K8s マニフェスト $ kubectl apply… 作成 Kubernetes Resource Model (KRM)

rights reserved. 14 https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/ GPU や NIC などの特定のハードウェアリソースを Kubernetes クラスター内で管理/利⽤可能にするための拡張機能 “Kubernetes は device plugin framework を提供しており、これを使⽤してシステムのハードウェアリソースを kubelet にアドバタイズすることができます” “Kubernetes ⾃体のコードをカスタマイズする代わりに、ベンダーは⼿動または DaemonSet としてデプロイ可能な device plugin を実装できます” Device Plugin

rights reserved. 15 ü Device Plugin は Woker Node 上で DaemonSet 起動し、gRPC インターフェースを通じて kubeletに⾃⾝を登録 (kubelet はどの種類のデバイスが利⽤可能かを認識) ü Device Plugin は kubelet に対して⾃⾝が管理するデバイスの⼀覧と状態を ListAndWatch() で逐次共有 ü Pod 作成時に kubelet は Device Plugin の Allocate() を呼び出し、コンテナに割り当てるデバイスファイルのマウント情報や環境変数などを受け取る Device Plugin Device (e.g. GPU) kubelet Device Plugin Manager API Server etcd Control Plane Data Plane (Woker Node) Device (e.g. GPU) Device (e.g. GPU) RegisterRequest ListAndWatch() to get device Start gRPC server https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/ Device Plugin

rights reserved. 16 ü NVIDIA の GPU をコンテナで利⽤可能にするための Device Plugin ü Woker Node に DaemonSet としてインストールされ、ノード上の GPU の状態を監視して kubelet に通知 ü Pod の作成時に GPU 使⽤のために必要なドライバライブラリをコンテナにマウントし、GPU 利⽤の準備を⾃動化 ü これにより、ユーザーは Pod のリソース指定で nvidia.com/gpu を指定するだけでGPUを利⽤ https://github.com/NVIDIA/k8s-device-plugin NVIDIA Device Plugin

rights reserved. 17 apiVersion: v1 kind: Pod metadata: name: gpu-pod-example spec: containers: - name: gpu-container image: nvidia/cuda:11.0-base resources: limits: nvidia.com/gpu: 1 T4 GPU EC2 instance contents EC2 instance contents T4 GPU g4dn.xlarge g4dn.xlarge Scheduling Scheduling Device Plugin による⼀般的な GPU Allocation

rights reserved. 18 ü GPU は整数単位でしか割り当てられず、部分的なリソース割り当て（0.5 GPUなど）ができない ü 複数の Pod 間で GPU を共有する仕組みが標準では提供されていないため、リソースの効率的活⽤に限界がある ü Kubernetes のスケジューラは GPU の数を基準にノード選択を⾏い、特定の GPU ID やハードウェアトポロジー（PCIe、NVLINK など）を考慮した細かい割り当てが困難 ü GPU の物理的な配置や NIC との親和性を反映した配置が難しく、性能最適化の制約となるリソース⾮効率トポロジー考慮 “Traditional” な GPU Allocation の課題

rights reserved. 19 ü Kubernetes v1.34 で GA となった Kubernetes API ü Kubernetes クラスタ内の特殊ハードウェア資源（例︓GPU、FPGA）を柔軟に割り当てる ü 以下を実現 • 異なる Pod およびコンテナ内から同じリソースへのアクセス • リソース要求に応じた最適なリソースを割り当て • ユーザーが指定したパラメーターに従ってリソースの初期化を実⾏ Dynamic Resource Allocation https://kubernetes.io/blog/2025/09/01/kubernetes-v1-34-dra-updates/

rights reserved. 20 resourceClaims: - name: gpu-claim source: resourceClaimTemplateName: single-gpu apiVersion: resource.k8s.io/v1beta1 kind: ResourceClaimTemplate metadata: namespace: gpu-test1 name: single-gpu spec: spec: devices: requests: - name: gpu deviceClassName: gpu.nvidia.com Pod YAML Devic Plugin (従来の⽅法) Dynamic Resource Allocation resources: limits: nvidia.com/gpu: 1 Pod YAML ResourceClaimTemplate YAML DRA を活⽤した場合の GPU Allocation

rights reserved. 21 ü 特定の GPU メモリをリクエスト ü 80GiB のうち 16GiB を要求 ü メモリ要件とは独⽴してコンピューティング要件を指定 ü Multi GPU ワークロード⽤のトポロジー制約を定義 ü Time-slicing ü MPS (Multi Process Service) ü MIG (Multi Instance GPU) ü GPU 間の NVLink 接続を理解 ü Amazon EC2 P6e-GB200 UltraServer クラスター向けに IMEX を活⽤ ü 分散学習ワークロードのための配置を最適化 ü Amazon EC2 P6e-GB200 UltraServer のような次世代システムに必要 ü マルチノード NVLink などの⾼度な機能を有効化 ü 新しい GPU アーキテクチャーと共有技術をサポート Per-Workload Sharing Stragegies (ワークロードごとの GPU 共有戦略) Fine-grained Resource Control (きめ細やかなリソースコントロール) Topology-Aware Scheduling (トポロジーを意識したスケジューリング) Future-Proof Architecture (将来性のあるアーキテクチャ) DRA による GPU 割り当てのメリット

rights reserved. 22 Kubernetes を活⽤した推論基盤の全体像 22 Observability GPU Allocation コンピュートネットワーキングストレージセキュリティオーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジンモデルサービングコントローラーサービングエンジンプラットフォームインフラ推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説

rights reserved. 23 ü 実際のモデル ü モデルをロードして実⾏できるランタイム ü モデルをエンドポイントとして公開し、ユーザーからの⼊⼒としてプロンプトを受け取れるようにするためのサーバー API レイヤーモデルランタイム (PyTorch など) モデルサーバー (vLLM など) GPU モデルレジストリ Batching Sharding Optimization GPU GPU モデルをデプロイするために必要な構成要素モデルサーバー ü ランタイムを含む、モデルをサービングするライブラリ ü モデルは API 経由 (REST / gRPC)で公開される基盤モデルのデプロイ

rights reserved. vLLM 24 ü 効率的なメモリ管理や推論最適化をサポート ü Paged Attention ü Continuous Batching ü OpenAI API 互換サービング ü 主要なモデル、ハートウェアをサポート⼤規模⾔語モデル (LLM) を⾼速かつ簡単に利⽤できる LLM 推論&サービングライブラリ https://docs.vllm.ai/en/latest/ vllm serve \ --port=8080 \ --model=/mnt/models \ --served-model-name=meta- llama/Meta-Llama-3-8B Python ライブラリ CLI

rights reserved. Kubernetes におけるモデルサーバーのデプロイ 25 GPU リソース管理、tolerations と taints、ストレージ構成、シークレット管理、モデル固有のパラメータなどすべてが明⽰的な設定が必要 Kubernetes API リソースを組み合わせた形でデプロイ可能 Kubernetes Operator Pattern を活⽤したモデルサーバーコントローラー Amazon EKS へのデプロイ K8s リソースの定義

rights reserved. Kubernetes を活⽤した推論基盤の全体像 26 Observability GPU Allocation コンピュートネットワーキングストレージセキュリティオーケストレーター (Kubernetes) Scalability Cost visibility Inference モデルサービングエンジンモデルサービングコントローラーサービングエンジンプラットフォーム推論基盤における各レイヤーについて、どのような技術的な要素があるのかを解説

rights reserved. モデルサーバーコントローラー 27 Custom Controller + CRD (Operator patterns) によるハイレベルな抽象化によりモデルサーバーを管理 API レイヤーモデルランタイム (PyTorch など) モデルサーバー (vLLM など) GPU モデルレジストリ Batching Sharding Optimization GPU GPU モデルサーバーコントローラー (KServe など) Kubernetes API (Deployment etc) ü 複雑性の排除 • Deployment、PersistentVolumeClaim、 GPU 設定、tolerations、モデル固有のパラメータなど、多数の Kubernetes リソースをおーけストレート ü ハイレベルな抽象化 • Custom Resource Definitions (CRDs) を通じて、抽象化された API による管理 ü 宣⾔的なアプローチ • ⼤量の K8s マニフェストを⼿動で作成したり、複数のKubernetes リソースを管理する必要がない ü 集中的なステータス管理 • モデルデプロイメントの健全性と状態を監視しやすくする、集中化されたステータス情報を提供

rights reserved. Ray とは 28 分散処理を簡単に記述するための Python ライブラリ・処理基盤あたかもローカルで動くような⾒慣れたプログラムを、そのまま分散実⾏ (複数のスレッド、複数のコア、複数のサーバで実⾏) できる ü 統合ツールセット ü AI/MLライフサイクル全体をカバーするライブラリ (Ray AI Libraries) を提供 ü Ray Data (データ処理)、Ray Train (分散トレーニング)、Ray Tune (ハイパーパラメータチューニング)、Ray Serve (モデルサービング)、Ray RLlib (強化学習) ü Python ネイティブ ü 最⼩限のコードで Python による並列処理を実装 (既存の関数にデコレータを追加) ü スケーラビリティとパフォーマンス ü Rayは、異なるハードウェア (CPUとGPU) にまたがる分散学習と推論を実現 ü 耐障害性 ü ノード障害を⾃動的に処理し、クラスター内の他のマシンにタスクをルーティングすることで、中断のない実⾏を保証特徴

rights reserved. Ray アーキテクチャ 29 ü Ray AI Libraries: 分散データ処理、分散学習、ハイパーパラメータ探索、推論サービング、強化学習などの⽤途向けライブラリ ü Ray Core: Python の関数やオブジェクトを分散実⾏するための中核で、タスクとアクターという基本モデルを提供 ü Ray クラスター: Head Node と Worker Node からなる実⾏基盤で、必要に応じてスケール https://github.com/ray-project/ray Ray Cluster, Ray Core, Ray AI Libraries から構成される。タスクやアクターを扱う Ray Core があり、その上に Data / Train / Tune / Serve / RLlib などのライブラリが載り、基盤には Head Node と Worker Node で構成されるクラスターが存在

rights reserved. Ray Cluster 30 https://docs.ray.io/en/latest/cluster/key-concepts.html Ø Head Node : クラスター全体の管理を担当する単⼀ノード ü GCS（Global Control Store） : クラスター全体のメタデータ（Actor、配置グループ、ノード情報など）を管理 ü Autoscaler: ワークロードのリソース要求に応じてWorkerノードをスケールイン/アウト ü Driver Process: ray.init() を呼び出したエントリーポイントプロセスが動作 ü Dashboard: クラスターの状態監視⽤Web UI Ø Worker Node: 実際のタスクやActorを実⾏するノード群、各ノードには Raylet が1つ動作 ü ローカルスケジューラ: タスクのスケジューリングとディスパッチ ü オブジェクトストア（Plasma）: ノード間で共有されるインメモリオブジェクトストア（Apache Arrow形式）

rights reserved. Ray Core 31 Python Funciton Ray Actors Ray Task Single node function 数⾏のコードで分散タスク数⾏のコートでステートフルなアプリケーション

rights reserved. Ray AI Libraries 32 https://docs.ray.io/en/latest/ray-overview/getting-started.html#ray-core-quickstart ü Ray Data: ⼤規模データの読み込み・前処理・変換を⾏う分散データ処理ライブラリ。学習や推論パイプラインへのデータ供給に最適化 ü Ray Train: PyTorch、TensorFlow、HuggingFaceなどのフレームワークと統合し、分散学習（データ並列・モデル並列）を簡単にスケールアウト ü Ray Tune: ハイパーパラメータチューニングを分散環境で効率的に実⾏するライブラリ。ASHA、PBTなど多数のスケジューリングアルゴリズムに対応 ü Ray Serve: モデルサービング（推論）のためのライブラリ。複数モデルの構成（パイプライン・アンサンブル）、動的バッチング、オートスケーリングに対応し、vLLMなどの推論エンジンと組み合わせてLLMの分散推論にも利⽤される ü Ray Rllib: 強化学習（Reinforcement Learning）のためのスケーラブルなライブラリ。多数のアルゴリズム（PPO、DQN、SACなど）を分散環境で実⾏可能

rights reserved. KubeRay 33 Kubernetes 上で Ray を管理するためのオープンソース https://docs.ray.io/en/latest/cluster/kubernetes/index.html 提供される CRD ü RayCluster: Ray クラスターの作成や削除、オートスケーリングなど、Ray クラスターのライフサイクル管理するためのカスタムリソース ü RayJob: 単発の Ray ジョブを実⾏するカスタムリソース ü RayService: Ray Serveを使ったモデルサービングや推論アプリケーションを管理

rights reserved. Kubernetes におけるオートスケーリング 36 Metrics Store HPA Pending pods X VPA Scale up ASG Cluster Autoscaler API call to ASG Pod Scaling Node Scaling Kubernetes におけるスケーリングは 2 つのレイヤーに分かれる

rights reserved. Kubernetes におけるオートスケーリング 37 HPA (Horizontal Pod Autoscaler) ü 主にCPUとメモリの使⽤状況を監視 ü そのため、主にGPUに負荷が集中するLLMワークロードには適しておらず、より柔軟なオートスケーリングの仕組みが必要になる KPA (Knative Pod Autoscaler) ü KPA はリクエストベースのアプローチ ü LLM では KPA のようなリクエストベースのアプローチでは、「リクエスト数」が実際の実⾏負荷と必ずしも相関しない ü あるリクエストが多数のトークンを⽣成する⼀⽅で、別のリクエストはごく少数しか⽣成しないなど LLM 推論基盤における、Pod Scaling の選択肢

rights reserved. KEDA: Kubernetes-based Event-Driven Autoscaling 38 ü HPA より柔軟に Pod や Job のスケールが可能な軽量 OSS コンポーネント ü 内部的には HPA と連携することで上書きや重複なくシンプルに機能提供 ü 多数の外部メトリクスをサポート ü ゼロスケール対応 ü カスタムリソースのマニフェストを記載することで設定が可能 https://keda.sh

rights reserved. Kubernetes におけるルーティング 40 Kubernetes におけるロードバランシング ü クラスター内におけるロードバランシングアルゴリズムは基本的にラウンドロビン ü 厳密に⾔えば kube-proxy の動作モードを変更することで least connection などもできるが省略 ü クラスター外リクエストからのロードバランシングは Ingress 実装に依存する ü Amazon EKS の場合は ALB の機能に依存 (Round Robin, Least Outstanding Requests) ü Topology Aware Routin ü トラフィックを発信元のトポロジーにできるだけ⽌める (ネットワークコストの削減など) ユーザーからのリクエストを Pod レプリカに効率的にルーティングする https://kubernetes.io/ja/docs/concepts/services-networking/service/ Service リソースこれらは通常のアプリケーショントラフィックが前提

rights reserved. LLM Gateway に求められる要件 41 LLM トラフィックを認識し、それを最適化できるゲートウェイコンポーネントを実現すること ü リクエスト数ベースのレート制限 ü パスベースのルーティング ü AutN/Z 従来の API Gateway LLM Gateway ü トークン消費量の追跡 ü モデルやユーザーに基づくトークン消費量の追跡 ü トークンベースでのレート制限 ü リクエスト数ではなく、⽣成されたトークン数などに基づいてクォータを定義 ü モデル名やセマンティクスによるルーティング

rights reserved. 43 https://llm-d.ai/docs/architecture Kubernetesネイティブな⼤規模⾔語モデル（LLM）の分散推論フレームワーク ü vLLM ベースの推論ワークロードをKubernetes上で管理 ü Inference Scheduler と呼ばれる機能により、複数の推論インスタンスに対してリクエストを適切に振り分けられる ü Well-Lit Paths (アーキテクチャパターン) が提供 ü Precise Prefix Cache Aware Routing ü P/D Disaggregation ü Wide Expert Parallelism llm-d

rights reserved. Serve Storage Container Registry Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs 3 4 6 7 2 1 5 2 Run Container 3 Download Model 4 Load Model in GPU Memory 6 Expose an Endpoint 7 Interact 8 Monitor 1 Provision compute 5 Autoscale GPU 6 Monitor Amazon CloudWatch 8 Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Amazon EKS を活⽤したアーキテクチャ例

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU ready な EKS クラスターの作成

rights reserved. GPU ready な EKS クラスターの作成 Option 1 EKS Customer Responsibility EKS with self-managed add-ons AWS responsibility Managed Control Plane Networking Storage Monitoring Security

rights reserved. GPU ready な EKS クラスターの作成 Option 2 EKS Customer Responsibility EKS Auto Mode AWS responsibility Managed Control Plane Networking Storage Monitoring Security

rights reserved. GPU and AWS ML Accelerators Trainium accelerator Inferentia accelerator H200, H100, A100, L4, L40S A10G, T4 Announced at GTC and re:inventʼ24 Training Inference Announced at GTC and re:inventʼ24 Trn3 Trn2 Trn1 Inf2 Inf1 P4d P4de P5 P5e P5en P6 G4 G5 G6 G6e アクセラレーテッドコンピューティングポートフォリオ

rights reserved. Capacity blocks 短期間の中断のないキャパシティへのアクセス。最低24時間から利⽤可能予測可能で柔軟なワークロード P4d, P5, P5e, P5en, P6-B200, Trn1, Trn2 On-demand 期的なコミットメントなしで、使⽤した分だけ⽀払い Spot オンデマンド料⾦の最⼤ 90%オフで、余剰キャパシティを利⽤可能キャパシティの確保が必要なミッションクリティカルなワークロード On-demand capacity reservations (ODCR) ⻑期にわたる中断のないキャパシティへのアクセス Savings plans 1年または3年の時間単位の使⽤量コミットメントにより、⼤幅なコスト削減が可能耐障害性があり、柔軟でステートレスなワークロードコミット済みで定常的な使⽤量ステートフルでスパイク的なワークロードコストを最適化するための複数の購⼊オプション

rights reserved. EFA Adapter Bottlerocket Optimized for EKS OS NVIDIA Neuron NVIDIA kernel driver with MIG Support Device Plugin NVIDIA Runtime à Device Plugin can be easily installed as an EKS add-on EFA Adapter Bottlerocket Optimized for EKS OS Neuron kernel driver dkms Device Plugin Neuron Runtime EFA Adapter Optimized for EKS OS NVIDIA Neuron NVIDIA kernel driver with MIG Support NVIDIA Runtime EFA Adapter AL2023 Optimized for EKS OS Neuron kernel driver dkms Neuron Runtime AL2023 EKS 最適化 AMI

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU ready な EKS クラスターの作成

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Deep Learning Containers

rights reserved. 複数のMLフレームワークサポート TensorFlow、PyTorch、XGBoost、JAXなど、複数のMLフレームワークが設定済み。numpy、sklearn、scipy、pandasなど、多数のPythonパッケージを含む。 Pre-bundled ML libraries テキスト⽣成、テキスト埋め込みツールキット、transformers 、diffusersライブラリを含む。Nvidia、Neuronパッケージ、 CUDA、CuDNN、NCCL、vLLMライブラリを搭載。 OSS integrations vLLMを使⽤してLLMサービングを最適化。Rayなどのフレームワーク⾮依存ライブラリを使⽤してモデルサービングをスケール。 DEEP LEARNING CONTAINER CUDA or Neuron Runtime Model framework CUDA Libraries, NCCL, lib fabric Deep Learning Containers

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Deep Learning Containers

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU にモデルをロードする

rights reserved. Container storage interface (CSI) BLOCK Amazon EBS Amazon FSx for NetApp ONTAP Amazon EFS Amazon FSx for Lustre Amazon FSx for OpenZFS Amazon S3 (Mountpoint) FILE Object 任意のストレージを使⽤して、レジストリからクラスターにモデルをダウンロードします。ストレージの柔軟性

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents GPU にモデルをロードする

rights reserved. Serve Storage Container Registry Amazon EKS Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs Monitor Amazon CloudWatch Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents オートスケーリング

rights reserved. Serve Storage Container Registry Model registry Elastic Load Balancing Amazon ECR … Amazon FSx Amazon S3 Amazon API Gateway Inference Engines GPUs 3 4 6 7 2 1 5 2 Run Container 3 Download Model 4 Load Model in GPU Memory 6 Expose an Endpoint 7 Interact 8 Monitor 1 Provision compute 5 Autoscale GPU 6 Monitor Amazon CloudWatch 8 Amazon Managed Service for Prometheus Amazon EFS Users Programs Agents Amazon EKS Amazon EKS を活⽤したアーキテクチャ例

rights reserved. 62 Ø Kubernetes × AI/ML ü⼀般的な Web ワークロードとは異なる考慮事項が複数存在する Ø OSS エコシステムの活⽤ üさまざまな OSS を組み合わせることで、効率的な推論基盤の構築が可能 Ø Amazon EKS üマネージドな機能と OSS の統合により、運⽤負荷を抑えながら AI/ML 基盤を実現まとめ

Amazon EKS を活⽤した LLM 推論基盤の全体像

Amazon EKS を活⽤した LLM 推論基盤の全体像

More Decks by Kenta Goto

Other Decks in Technology

Featured

Transcript