Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Physical AI on AWS リファレンスアーキテクチャ / Physical AI ...

Avatar for shota shota
March 26, 2026

Physical AI on AWS リファレンスアーキテクチャ / Physical AI on AWS Reference Architecture

2026.3.24開催のPhysical AI on AWS 勉強会 #1のスライド資料です。

Avatar for shota

shota

March 26, 2026
Tweet

Other Decks in Technology

Transcript

  1. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. Physical AI on AWS リファレンスアーキテクチャ 飯塚 将太 AI Solutions Architect アマゾン ウェブ サービス ジャパン合同会社
  2. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Physical AI on AWS アーキテクチャ勉強会 1. Physical AI on AWS リファレンスアーキテクチャ (30 min) 2. サンプルコード︓Physical AI Scaffolding Kit (20 min) 3. Q&A
  3. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. シミュレータと学習環境の関係 1. Pre-training: ⼤規模・多様データで汎⽤能⼒を獲得 2. Supervised fine-tuning: タスク・ロボット特化のデモデータで適応 3. RL fine-tuning: 実環境・シミュレータでの試⾏錯誤・報酬による改善 3 Simulator (NVIDIA Isaac Sim, Newton) on RTX w/ rendering engine Training Simulator (NVIDIA Isaac Sim, Newton) on RTX w/ rendering engine Training Offline Offline Online ( )
  4. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 モデルの学習 モデルの配信や推論 Amazon EC2 g6e.2xlarge ファイルシステム クラスタ環境 AWS ParallelCluster 4 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or AWS IoT Greengrass リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large モデル配信 Physical AI on AWS の リファレンスアーキテクチャ Amazon DCV NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ オフライン学習 オンライン学習 推論
  5. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 5 モデル配信 Physical AI の開発 ステップ と サイクル データの ⽣成や収集 モデルの学習 モデルの 配信や推論 開発ステップ
  6. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 6 モデル配信 Physical AI の開発 ステップ と サイクル データの ⽣成や収集 モデルの学習 モデルの 配信や推論 開発ステップ
  7. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 物理ロボット データの⽣成や収集 モデルの学習 モデルの配信や推論 ファイルシステム クラスタ環境 7 データ ストア リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 モデル配信 Physical AI の 構成要素 モデル配信 推論 構成要素 開発ステップ オフライン学習 オンライン学習 推論
  8. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 モデルの学習 モデルの配信や推論 Amazon EC2 g6e.2xlarge ファイルシステム クラスタ環境 AWS ParallelCluster 8 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or AWS IoT Greengrass リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large モデル配信 Physical AI on AWS の リファレンスアーキテクチャ Amazon DCV NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ オフライン学習 オンライン学習 推論
  9. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 9 Physical AI の開発 ステップ と サイクル データの ⽣成や収集 モデルの学習 モデルの 配信や推論
  10. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 物理ロボット データの⽣成や収集 10 データ ストア リモートデスクトップ環境 データ⽣成 / シミュレーター環境 データの ⽣成 や 収集 構成要素 開発ステップ
  11. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 Amazon EC2 g6e.2xlarge 11 データ ストア Amazon S3 リモートデスクトップ環境 データ⽣成 / シミュレーター環境 データの ⽣成 や 収集 Amazon DCV NVIDIA Isaac Sim / Lab 構成要素 開発ステップ
  12. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 12 Physical AI の開発 ステップ と サイクル データの ⽣成や収集 モデルの学習 モデルの 配信や推論
  13. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 物理ロボット データの⽣成や収集 モデルの学習 ファイルシステム クラスタ環境 13 データ ストア リモートデスクトップ環境 データ⽣成 / シミュレーター環境 オフライン 学習 オフライン学習 SSH 構成要素 開発ステップ
  14. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 物理ロボット データの⽣成や収集 モデルの学習 ファイルシステム クラスタ環境 14 データ ストア リモートデスクトップ環境 データ⽣成 / シミュレーター環境 オンライン 学習 オンライン学習 SSH 構成要素 開発ステップ
  15. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 モデルの学習 Amazon EC2 g6e.2xlarge ファイルシステム クラスタ環境 AWS ParallelCluster 15 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or リモートデスクトップ環境 データ⽣成 / シミュレーター環境 モデルの 学習 Amazon DCV NVIDIA Isaac Sim / Lab オフライン学習 オンライン学習 SSH 構成要素 開発ステップ
  16. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. フェーズ別 推奨 AWS インスタンス フェーズ GPU 推奨インスタンス データ前処理 - / L4 c8i / m8i / g6.xl 学習(LoRA FT) L40S (48GB) g6e.2xl 〜 8xl 学習(フル FT) H100 (80GB) p5.4xlarge シミュレーション L40S / RTX PRO g6e.xl / g7e.xl 推論(テスト⽤) L4 (24GB) g6.xlarge
  17. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon FSx for Lustre • ⾼速な分散ファイルシステムの Lustre をフルマネージドで提供 • LustreはPOSIX準拠のファイルシステムとして利⽤可能 • 階層型ストレージの機能もあり、S3 と透過的にデータの import/export が可能 Amazon S3 に格納されたデータが Amazon FSx for Lustre ファイルシステムに ロードされて処理される 処理結果は Amazon S3 に永続化される Amazon FSx for Lustre Amazon S3
  18. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Amazon EC2 g系 インスタンス ファイルシステム クラスタ環境 AWS ParallelCluster 18 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or データ⽣成 / シミュレーター環境 フル FT の推奨構成 NVIDIA Isaac Sim / Lab オフライン学習 オンライン学習
  19. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 数コマンド操作でジョブ投⼊に応じて⾃動でスケールするクラスタを AWS 上に構築可能な AWS 公式のオープンソースソフトウェア AWS ParallelCluster の特徴 • 既存の HPC 向けスケジューラ(Slurm)と連動し スケーラブルな計算環境を作成 • MPI/NCCL 環境がセットアップ済み • x86/Arm 両⽅の環境に対応 • 使⽤するOSやネットワーク環境、ストレージ構成な どを柔軟にカスタマイズ可能 • オープンソースソースのプロジェクトであり、誰で もソースコードを⼊⼿可能 https://github.com/aws/aws-parallelcluster AWS ParallelCluster とは Cluster Head Auto-Scale Compute Scale-Out / Scale-in ジョブスケジューラ (Slurm) /shared NFS mount /home /shared
  20. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS ParallelCluster の利⽤⽅法 コマンドラインツールに加え、ユーザーの AWS アカウント内で 展開可能なウェブツールも提供 HeadNode: InstanceType: c6g.large Scheduling: Scheduler: slurm SlurmQueues: - Name: queue0 ComputeResources: - Name: queue0-c6g16xlarge MinCount: 0 MaxCount: 40 InstanceType: c6g.16xlarge コマンドラインツールでクラスタを作成・管理 $ pcluster create-cluster <NAME> ウェブツールでクラスタを作成・管理 or
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Why Amazon SageMaker HyperPod 基盤モデルの継続的な開発やモデルトレーニングを⽀援 セルフヒーリングクラスタは トレーニング時間を 最⼤ 20% 短縮 復元⼒の⾼い 環境 SageMaker の 分散トレーニングライブラリ はパフォーマンスを 最⼤ 20%向上 分散トレーニング の効率化 コンピューティング環境と ワークロード スケジューリングの制御 リソースの利⽤ 効率の最適化 21
  22. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. GPU故障時の⾃動復帰機能 22 SageMaker HyperPod が クラスターインスタンス内の CPU, GPU, ネットワークを ヘルスチェック H/W 障害を検出すると SageMaker Hyperpod が ⾃動的に故障インスタンスを 正常インスタンスに置き換え 故障インスタンスの交換完了後 SageMaker HyperPod は Slurm でワークロードを 再びキューに⼊れ、 チェックポイントから再実⾏ Checkpoints Restore Checkpoints Alarm & interruption Instance Restore Self-healing process
  23. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Amazon EC2 g系 インスタンス 23 データ ストア Amazon S3 モデルの学習 LoRA FT の推奨構成 NVIDIA Isaac Sim / Lab
  24. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 24 Physical AI の開発 ステップ と サイクル データの ⽣成や収集 モデルの学習 モデルの 配信や推論
  25. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. クラウド 実世界 物理ロボット モデルの配信や推論 25 データ ストア データ⽣成 / シミュレーター環境 クラウド推論環境 モデル配信 モデルの 配信 や 推論 モデル配信 推論 構成要素 開発ステップ 推論 アクション⽣成⽤ VLA のクラウド推論は基本無い ⻑期実⾏計画⽤ LLM のクラウド推論はあり得る
  26. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット モデルの配信や推論 26 データ ストア Amazon S3 AWS IoT Greengrass データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g系 インスタンス モデル配信 モデルの 配信 や 推論 NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ 推論
  27. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS IoT Greengrass 27 AWS Cloud IoT Device Operating system (Linux, Windows, Yocto) Greengrass Components AWS IoT Greengrass client software Pre-built Docker OS process Bring your own runtime AWS IoT Greengrass cloud service Key features • オープンソースで公開 • MQTT 接続を簡単に複数のアプリ ケーションやコンポーネントで共 有可能 • ハードウェア(ARM/x86)とプログ ラミング⾔語(C/C++、C#、Java、 Python、JS、Node)で利⽤可能 • アプリケーション(コンポーネン ト)を簡単にデプロイ • コンポーネントの開発ツールを利 ⽤して素早く開発 • 汎⽤的な機能を持つコンポーネン トを多く提供
  28. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット モデルの配信や推論 28 データ ストア Amazon S3 AWS IoT Greengrass データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large モデル配信 モデルの 配信 や 推論 NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ 推論
  29. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Amazon EC2 g6e.2xlarge クラスタ環境 AWS ParallelCluster 29 Amazon SageMaker HyperPod or リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large GPU をどう 予約 すれば良いか︖ Amazon DCV NVIDIA Isaac Sim / Lab
  30. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. AWS で NVIDIA H100, H200 GPU を 利⽤する際の選択肢 30 Amazon Elastic Compute Cloud (Amazon EC2) オンプレミスの 「仮想サーバ」に相当 Amazon SageMaker HyperPod 機械学習のワークロードに特化した マネージド型サービス
  31. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. EC2 と SageMaker HyperPod で同じ点 31 参考︓ インスタンスのスペックの考え⽅は同じ 1つのインスタンスに H100 or H200 が8基搭載
  32. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Today (8/27) 1 instances 3 months 「10⽉1⽇ から 3ヶ⽉間、p5.48xlarge のインスタンス(H100x8枚)を 1 台使⽤するため、GPUキャパシティを確保したい」 利⽤開始⽇ 10/1 利⽤終了⽇ 12/31 32 予約⽇ 9/15 GPU を 確保 *インスタンスの起動の有無に 関わらず課⾦対象期間 GPU確保 期間外 課⾦対象外 予約時に利⽤開始⽇(10/1) と 終了⽇(12/31)を指定 この時点で GPUの確保が完了し、確保期間分の全ての課⾦が発⽣ GPU キャパシティ予約のイメージ t
  33. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. GPU 予約のための 2つの仕組み AWS サービス インスタンス タイプ GPU 予約のための仕組み プログラム クレジット 併⽤ EC2 + ParallelCluster 全て On-Demand Capacity Reservations ◦ p系、Trn系 のみ g系は不可 Capacity Blocks for ML × SageMaker HyperPod Flexible Training Plans ◦
  34. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. EC2 Capacity Blocks for ML の 仕組み 34 ⽬的 短期間の学習ワークロードのため、 GPU を将来の⽇付で予約 (P 系などのみ対応) 価格 オンデマンド⽐で 約半額 (ダイナミックプライシング) 優位性 各インスタンスが同⼀ AZ、同⼀ spine に配置され、 インスタンス間は EFA による⾼速通信 利⽤期間 1-182 ⽇ 予約最⼩単位 1 ⽇ (14⽇まで)、7⽇ (182⽇まで) 予約可能な開始時期 最⼤ 8 週間先 最⼤インスタンス数 64
  35. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. GPU キャパシティ予約の⼿順 35 AWS マネジメントコンソールから GPU キャパシティの予約が可能 Amazon EC2 Capacity Block for ML Amazon SageMaker HyperPod Flexible Training Plans 現在のキャパシティの空き状況が確認可能
  36. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. GPU キャパシティ予約の⼿順 36 AWS マネジメントコンソールから GPU キャパシティの予約が可能 利⽤可能なキャパシティ予約のプランが表⽰されます こちらから GPU のキャパシティ予約が可能です。
  37. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 モデルの学習 モデルの配信や推論 Amazon EC2 g6e.2xlarge ファイルシステム クラスタ環境 AWS ParallelCluster 37 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or AWS IoT Greengrass リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large モデル配信 Physical AI on AWS の リファレンスアーキテクチャ Amazon DCV NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ オフライン学習 オンライン学習 推論
  38. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 実世界 物理ロボット データの⽣成や収集 モデルの学習 モデルの配信や推論 Amazon EC2 g6e.2xlarge ファイルシステム クラスタ環境 AWS ParallelCluster 38 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod or AWS IoT Greengrass リモートデスクトップ環境 データ⽣成 / シミュレーター環境 クラウド推論環境 Amazon EC2 g6.large モデル配信 Physical AI は 多様 な技術が必須 Amazon DCV NVIDIA Isaac Sim / Lab モデル配信 推論 構成要素 開発ステップ オフライン学習 オンライン学習 ストレージ HPC IoT ML 推論 製造
  39. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. Sample Codes 39
  40. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. OSMO on AWS by Frameworks team NVIDIA OSMO という k8s ベースの オープンソース Physical AI 開発エ ージェントワークフロー Pull Request on AWSome Distbiruted Training repo: https://github.com/awslabs/awso me-distributed-training/pull/1018 40
  41. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. モデルの学習 ファイルシステム クラスタ環境 41 データ ストア Amazon S3 Amazon FSx for Lustre Amazon SageMaker HyperPod Physical AI Scaffolding Kit by PACE
  42. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. Physical AI Scaffolding Kit (PASK) by PACE SageMaker HyperPod (slrum) + Enroot を利⽤して Docker コンテナで VLA (NVIDIA GR00T, Physical Intelligence openpi π0 ) のファインチューニングを⾏う サンプル GitHub: https://github.com/aws- samples/sample-physical-ai-scaffolding- kit 42 AWS Cloud SMHP (Slurm) Amazon FSx for Lustre Amazon S3 Developer