$30 off During Our Annual Pro Sale. View Details »

Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata oggata
October 01, 2025

 Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata

oggata

October 01, 2025
Tweet

More Decks by oggata

Other Decks in Programming

Transcript

  1. B e y o n d L L M 世

    界 モ デ ル が 切 り 拓 く フ ィ ジ カ ル A I の 時 代
  2. フ ィ ジ カ ル A I と は 一般的にフィジカルAIとは、現実の物理環境と直接関わりながら、

    人間のように柔軟に対応し、状況に応じて行動を変えられるAI技術 のこと。具体的には、ロボットや車などに搭載し、現実の世界で活動 しながら学習を重ね、自律的に動作できるようにする。
  3. フィジカルAIで最も大事なのは「目」 イーロン・マスクは、完全自動運転の実現には現実世界のAIと視覚の解決が不可欠であると主張しています。彼は、道路ネットワークは生物学的な神経網、人間の脳、そして視覚(目)と連動するように設計されている ため、コンピュータで動作させるためには、実世界のAIと視覚を解決する必要がある、と述べています[1]。 イーロン・マスクによるこの発言は、以下の点を強調しています。 人間の認知を模倣する必要性: 道路システムは人間のドライバー(人間の脳と視覚)を前提に設計されているため、自動運転車も人間の認知能力と同等の理解力を持つ必要がある[1]。 AIと視覚の重要性: 単なるプログラミングされたルールではなく、現実世界の複雑で予測不可能な状況を理解し、解釈できる高度なAIとコンピュータビジョン技術が不可欠である[1]。 課題の大きさ: 彼の見解では、自動運転の実現は、汎用人工知能(AGI)のような、現実世界のAIにおける最も困難な課題の一つを解決することと同義である[1]。

    マスクはこの考えに基づき、テスラ車の自動運転システム「FSD(Full Self-Driving) 」において、人間の視覚を模倣するためにカメラのみを使用する「テスラビジョン」のアプローチを採用しています[1]。
  4. 現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行 動の結果を予測する能力が欠けている チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したり といった、人間の幼児でも自然にできることが逆に苦手 。 ヤ ン ・ ル カ

    ン 氏 に よ る 現 在 の 課 題 「人間や動物の学習の大部分は教師なし学習によって行われています。 知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗る クリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。 私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく 分かっていません。本当のAIを目指すには、まずケーキ=教師なし学習の問題を解く必要が あります。 」 —ヤン・ルカン
  5. AI画像・動画・ロボティクスモデル │ ├── 【ビジョンモデル】 (画像・動画の理解・分析) │ │ │ ├── Vision

    Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル(参考:ViT以前の主流) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル(CNN + Transformer) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ │ │ ├── ワールドモデル(理解+予測+プランニング) │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ │ │ ├── 画像エンコーダー(VLMの構成要素) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP │ │ │ └── 物体検出特化モデル │ ├── YOLO (v5, v7, v8, v11) │ ├── DETR (Detection Transformer) │ ├── Segment Anything (SAM, Meta) │ └── Mask R-CNN │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ(企業提供) │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ ├── OCR/文書特化VLM │ │ ├── DeepSeek-OCR (DeepSeek, 2025) │ │ ├── Qwen3-VL (32言語OCR対応) │ │ ├── Florence (Microsoft) │ │ └── Donut (Document Understanding Transformer) │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ ├── 【Vision-Language-Action Models (VLA)】 │ │(ロボット制御:Vision + Language + Action) │ │ │ ├── シングルシステム(エンドツーエンド) │ │ ├── RT-2 (Robotic Transformer 2, Google DeepMind, 2023) │ │ ├── OpenVLA (Physical Intelligence) │ │ ├── π0 (Pi-Zero, Physical Intelligence) │ │ ├── π0-fast (高速版) │ │ ├── Octo (UC Berkeley) │ │ └── QuartVLA │ │ │ │ │ ├── デュアルシステム(System 1 + System 2) │ │ ├── GR00T N1 (NVIDIA, 2025) - 2.2Bパラメータ │ │ │ ├── System 2: Eagle-2 VLM (理解・推論、10Hz) │ │ │ └── System 1: Diffusion Transformer (行動生成、120Hz) │ │ ├── GR00T N1.5 (NVIDIA, 2025) │ │ └── Helix (Physical Intelligence, 2024) │ │ └── 初のヒューマノイド全身制御VLA │ │ │ ├── クロスエンボディメント対応 │ │ ├── GR00T N1 (卓上ロボット→ヒューマノイド) │ │ └── RT-X (複数ロボット対応) │ │ │ └── 特殊用途VLA │ ├── Mobile ALOHA (モバイル双腕ロボット) │ └── LeRobot (Hugging Face, ロボット学習) │ ├── 【生成モデル】 (コンテンツを作る) │ │ │ ├── 動画生成(Text/Image to Video) │ │ ├── Sora (OpenAI, 2024) │ │ ├── Wan 2.2 (Alibaba, 2025) │ │ │ ├── T2V (Text to Video) │ │ │ ├── I2V (Image to Video) │ │ │ ├── S2V (Speech to Video) │ │ │ └── Animate (キャラクターアニメーション) │ │ ├── Wan 2.1 (Alibaba, 2024) │ │ ├── Pika 2.0 (Pika Labs) │ │ ├── Runway Gen-3 (Runway) │ │ ├── Luma Ray 2 (Luma AI) │ │ ├── Kling 2.0 (快手/Kuaishou) │ │ ├── Veo 2 (Google) │ │ ├── Movie Gen (Meta) │ │ ├── CogVideoX (清華大学) │ │ ├── Hunyuan Video (Tencent) │ │ └── Seedance (Bytedance) │ │ │ ├── 画像生成(Text to Image) │ │ ├── DALL-E 3 (OpenAI) │ │ ├── Midjourney v6 │ │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ │ ├── Imagen 3 (Google) │ │ └── Flux (Black Forest Labs) │ │ │ └── Diffusion Transformer (DiT) │ ├── Stable Diffusion 3 (DiTベース) │ └── Sora (DiTベース) │ └── 【合成データ生成】 (VLA訓練用) ├── NVIDIA Omniverse (物理シミュレーション) ├── NVIDIA Cosmos (合成データ生成) └── DreamGen (GR00T N1.5用、合成行動生成) オ ブ ジ ェ ク ト 検 知 、 セ グ メ ン テ ー シ ョ ン 言 語 を 伴 う 動 画 や 画 像 処 理 ロ ボ ッ ト な ど の 動 作 を 主 体 シ ミ ュ レ ー タ ー な ど に 活 用 、 ワ ー ル ド モ デ ル 物 理 認 識 や 予 測 な ど
  6. V i s i o n M o d e

    l s ├── 【ビジョンモデル】 │ │ │ ├── Vision Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル(参考:ViT以前の主流) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル(CNN + Transformer) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer オ ブ ジ ェ ク ト 検 知 、 セ グ メ ン テ ー シ ョ ン
  7. 図0, Alexey et al. AN IMAGE IS WORTH 16X16 WORDS:

    TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) より引用 「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との考えのもと、画像処理にもTransformerを応用。っ - **ImageNet、CIFAR-10/100などのベンチマークで最高水準** - **事前学習のコストがCNNより低い** - **データが大規模になるほど性能が向上**(スケーラビリティの高さ) T r a n s f o r m e r 革 命
  8. │ ├── ワールドモデル(理解+予測+プランニング) │ │ ├── V-JEPA 2 (Meta, 2025)

    │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ │ │ ├── 画像エンコーダー(VLMの構成要素) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP V i s i o n M o d e l s 物 理 認 識 や 予 測 な ど
  9. ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難 教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス 制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい 実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがある シミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.

    リアルタイム性と連続的な意思決定 バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある 単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる 教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性 「転倒しなかった」という結果は一連の動作の最後にしか判明しない どの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られな い ロボットの転倒防止やバランス制御には教師あり学習は向いていない 教師あり学習から、自己教師あり学習へ!
  10. # OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →

    新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能: 「コップを持ち上げる」vs「コップを倒す」の区別 「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ! # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2 https://ai.meta.com/vjepa/ から引用
  11. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA 2 に よ る 物 理 法 則 の 補 完
  12. V i s i o n L a n g

    u a g e M o d e l s 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ(企業提供) │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) ←今話してる私! │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ 言 語 を 伴 う 動 画 や 画 像 処 理
  13. V i s i o n - L a n

    g u a g e - A c t i o n M o d e l s ( V L A ) ├── 【Vision-Language-Action Models (VLA)】 │ │(ロボット制御:Vision + Language + Action) │ │ │ ├── シングルシステム(エンドツーエンド) │ │ ├── RT-2 (Robotic Transformer 2, Google DeepMind, 2023) │ │ ├── OpenVLA (Physical Intelligence) │ │ ├── π0 (Pi-Zero, Physical Intelligence) │ │ ├── π0-fast (高速版) │ │ ├── Octo (UC Berkeley) │ │ └── QuartVLA │ │ │ ├── デュアルシステム(System 1 + System 2) │ │ ├── GR00T N1 (NVIDIA, 2025) - 2.2Bパラメータ │ │ │ ├── System 2: Eagle-2 VLM (理解・推論、10Hz) │ │ │ └── System 1: Diffusion Transformer (行動生成、120Hz) │ │ ├── GR00T N1.5 (NVIDIA, 2025) │ │ └── Helix (Physical Intelligence, 2024) │ │ └── 初のヒューマノイド全身制御VLA │ │ │ ├── クロスエンボディメント対応 │ │ ├── GR00T N1 (卓上ロボット→ヒューマノイド) │ │ └── RT-X (複数ロボット対応) │ │ │ └── 特殊用途VLA │ ├── Mobile ALOHA (モバイル双腕ロボット) │ └── LeRobot (Hugging Face, ロボット学習) ロ ボ ッ ト な ど の 動 作 を 主 体
  14. G e n e r a t i v e

    M o d e l s 【生成モデル】 (コンテンツを作る) │ ├── 動画生成(Text/Image to Video) │ ├── Sora (OpenAI, 2024) │ ├── Wan 2.2 (Alibaba, 2025) │ │ ├── T2V (Text to Video) │ │ ├── I2V (Image to Video) │ │ ├── S2V (Speech to Video) │ │ └── Animate (キャラクターアニメーション) │ ├── Wan 2.1 (Alibaba, 2024) │ ├── Pika 2.0 (Pika Labs) │ ├── Runway Gen-3 (Runway) │ ├── Luma Ray 2 (Luma AI) │ ├── Kling 2.0 (快手/Kuaishou) │ ├── Veo 2 (Google) │ ├── Movie Gen (Meta) │ ├── CogVideoX (清華大学) │ ├── Hunyuan Video (Tencent) │ └── Seedance (Bytedance) │ ├── 画像生成(Text to Image) │ ├── DALL-E 3 (OpenAI) │ ├── Midjourney v6 │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ ├── Imagen 3 (Google) │ └── Flux (Black Forest Labs) │ └── Diffusion Transformer (DiT) ├── Stable Diffusion 3 (DiTベース) └── Sora (DiTベース) シ ミ ュ レ ー タ ー な ど に 活 用 、 ワ ー ル ド モ デ ル
  15. Use a video model Traditional programming LoRA Modeling Programming Rendering

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  16. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  17. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  18. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  19. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  20. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  21. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  22. h t t p s : / / w w

    w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる
  23. Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラ クティブ環境を生成できる汎用世界モデ

    ル リアルタイムで24FPS、720p解像度で 数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持 つ初の汎用世界モデル フォトリアリスティックから想像上の世 界まで幅広く生成可能 プロンプト可能なワールドイベント機能 により、生成中の世界をテキストで変更 可能 AGI(汎用人工知能)への重要なステップ として位置づけられている リリース時期: 2025年8月5日発表(限定研究 プレビュー)
  24. Video generation models as world simulators ~SORA 開発企業: OpenAI 概要:

    テキストから高品質なビデオを生成するテキストコ ンディショナル拡散モデル 物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能 同期した対話と効果音を生成 複数ショットにわたって世界の状態を正確に維 持 オリンピック体操ルーチンなど、極めて難しい 動作をモデル化可能 実世界の要素(人物、動物、オブジェクト)を任 意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの 永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能
  25. 開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは 現在開発中 創業者David Holtzは3D、ビデオ、リアル タイム生成機能を統合した「世界シミュレ ーション」の構築を目指していると表明

    「オープンワールドサンドボックス」のビ ジョン - 人々がビデオゲームを作ったり、 映画を撮影したりできる環境 バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する 可能性があると言及 NeRF(Neural Radiance Fields)技術をベー スにした3Dモデルを開発中 ビデオモデル: 2025年6月18日にV1ビデオ モデルを発表 Image-to-Videoワークフロー 自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney
  26. 開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスか ら、世界一貫性のある3D点群シーケン スを生成 RGB-D(カラー+深度)ビデオ生成フレー ムワーク

    3D一貫性のあるシーン動画を生成し、 カスタムカメラ軌道に従って世界探索が 可能 ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出 力が可能 超長距離世界探索をサポート(任意の長 さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練 リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager
  27. 開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端 の生成的世界基盤モデル(WFM)を特徴とする 自律走行車(AV)とロボット向けに設計 テキスト、画像、ビデオ、ロボットセンサーデ ータから物理ベースのビデオを生成 モデルファミリー: Nano:

    リアルタイム、低遅延推論とエッジデ プロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの 蒸留に最適 拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、 産業、ロボティクス、運転データから9000兆 トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせる ことで、制御可能で高品質な合成ビデオデー タを生成 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメー タの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models
  28. 開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、 スタンフォード大学教授)が2024年に設立

    大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相 互作用を可能にする 「空間知能(Spatial Intelligence)」をAIに 与えることに焦点 単一画像からインタラクティブな3D環境を 生成可能 ゲームのようなシーンをブラウザ内で探 索・修正可能 生成されたシーンは物理法則に従い、堅実 性と深度の感覚を持つ ゲーム会社、映画スタジオ、建築家、デザ イナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i
  29. 概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練さ れ、リアルタイムでMinecraft風のゲームを 生成 キーボードとマウスの入力を受け取り、物 理、ルール、グラフィックスをリアルタイ ムでシミュレート 20FPS、360p解像度で動作(Nvidia

    H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド 版 プレイ中に世界をリアルタイムで変換(ベネ チア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使 用 D e c a r t - O a s i s
  30. M o d u l e r v s E

    n d To E n d
  31. テスラ FSD version 12 30万行のC++コード > AIに置き換え モジュラーアプローチ エンジニア ↓

    デバッグ / コード変更 (ソースコード主体) ↓ 改善 Isaac ROS、cuMotion、nvblox等のラ イブラリ産業用ロボット、AMR(自律移 動ロボット)、アーム制御 Isaac GR00T、Isaac Lab(強化学習・模 倣学習) エンドツーエンドアプローチ AI ↓ データをキュレーション / トレーニング (人間の行動観察) ↓ 改善 30万行以上のC++コード、ほぼすべてが削除
  32. テスラ FSD version 12 30万行のC++コード > AIに置き換え モジュラーアプローチ(従来型) 人間が運転するときの思考プロセスを細かく分解して、それぞ れを別々のモジュール(部品)として作る方法です。

    具体的な流れ: 認識 → カメラで周囲を見て、車・人・信号を検出 地図作成 → 自分の位置と周囲の地図を作る 経路計画 → スタートからゴールまでの大まかなルートを決め る 行動決定 → 「右折する」 「追い越す」などを判断 制御 → ハンドルやアクセルの操作量を計算 特徴: ✅ 各ステップが明確で、どこで間違えたか分かりやすい ✅ 人間の知識やルールを組み込みやすい ❌ 各モジュールのエラーが積み重なる ❌ モジュール間の連携が複雑 エンドツーエンドアプローチ(AI学習型) センサーの入力から運転操作まで、一つのニューラルネットワ ークが直接学習する方法です。 具体的な流れ: カメラ画像 → ブラックボックス(深層学習) → ハンドル 角度・速度 自己教師あり学習との組み合わせ: 大量の走行データから、AIが自動的にパターンを学習 「この状況ではこう運転すべき」を明示的に教えなくて も、データから自動で学ぶ 特徴: ✅ シンプルな構造 ✅ データがあれば複雑な状況にも対応できる可能性 ❌ なぜその判断をしたのか説明しにくい(ブラックボック ス) ❌ 訓練データにない状況に弱い
  33. NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T NVIDIAのヒューマノイドロボット向けプラットフォーム発表 主な発表内容 1. 新しいAIモデル「Isaac GR00T N1.5」 ヒューマノイドロボット向けの基盤モデ

    ルで、新しい環境に柔軟に適応でき、ユーザーの指示でオブジェクトを認識できる ようになりました 2. データ生成システム「GR00T-Dreams」 たった1枚の画像から、ロボットが新し い環境で新しいタスクを実行する動画を生成し、それをもとにロボットに新しい動 作を教えることができるブループリント 3. 開発時間の大幅短縮 GR00T N1.5は、合成トレーニングデータを使用してわずか 36時間で開発されました。これは人間が手作業でデータを収集した場合にほぼ3か 月かかる作業に相当します 🤖 なぜこれが重要なのか? 世界では5,000万人以上の労働力不足が推定されており NVIDIA、またヒューマノイ ドロボット市場は今後20年間で380億ドル規模に達すると予想されています。しか し、従来のロボット開発には大きな課題がありました。 従来の課題: 現実世界で広範で高品質なデータセットを収集するのは手間と時間がかかり、 多くの場合、法外な費用がかかる ロボットを物理世界でテストするのはコストとリスクが伴う 環境が変わるたびに一から学習が必要 https://youtu.be/WU3xEyIwMMU?si=gnDHUWtRehMvuqoP
  34. Use a video model Traditional programming Modeling Programming Rendering プ

    ロ グ ラ ミ ン グ v s 拡 散 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  35. Isaac GR00T N1.5 - ロボットの「脳」 人間の認知プロセスを模倣した「デュアルシステムアーキテクチャ」を採用しています。 System 1(高速思考) : 人間の反射や直感を模倣した反応的な処理  物をつかむ、動かすなどの基本動作を瞬時に実行

    System 2(低速思考) : 環境や指示を分析して行動を計画する論理的思考   複雑なタスクを段階的に計画 何ができるのか: 新しい環境や作業スペースの構成により柔軟に適応でき、ユーザーの指示によってオブジェクトを認識することも可能 オブジェクトの仕分けや収納といった一般的なマテリアルハンドリングや製造業務における成功率が大幅に向上 GR00T-Dreams - 「想像力」でデータを生成 仕組み: 1枚の画像を入力として使用し、GR00T-Dreamsは新しい環境で新しいタスクを実行するロボットの動画を生成 アクショントークン(圧縮された消化可能なデータ片)を抽出し、ロボットにこれらの新しいタスクの実行方法を教える 驚異的な効率: GR00T N1.5はわずか36時間で開発され、これは人間が手作業でデータを収集した場合にほぼ3か月かかる作業に相当 11時間で78万件の合成軌跡(人間のデモ約6,500時間分、約9ヶ月に相当)を生成 実データのみの場合と比較して40%のパフォーマンス向上を達成 . データ生成の3つのワークフロー GR00T-Teleop: Apple Vision Proを利用してデジタルツインで人間の動作をキャプチャし、これらの人間の動作はシミュレーションでロボットによって模倣され、グラウンドトゥルースとし て使用するために記録される GR00T-Mimic: キャプチャされた人間のデモンストレーションをより大きな合成モーションデータセットに増幅 わずか数回の人間のデモンストレーションをもとに、ロボット操作向けの飛躍的に大量の合成モーション軌道を生成 GR00T-Gen: NVIDIAOmniverseとNVIDIA Cosmosプラットフォーム上に構築され、ドメインランダム化と3Dアップスケーリングを通じてこのデータセットを指数関数的に拡張 .補完技術とツール Cosmos Reason: 思考連鎖リーズニングを活用してフィジカルAIモデルトレーニング用の正確で高品質な合成データをキュレーションする新しい世界基盤モデル Isaac Sim 5.0 & Isaac Lab 2.2: シミュレーションおよび合成データ生成フレームワークで、開発者がGR00T Nモデルをテストするのを支援する新しい評価環境が含まれる Newton物理エンジン: Google DeepMindとDisney Researchと共同で開発中の、ロボット開発のために構築されたオープンソースの物理エンジン NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T
  36. # 地図ベースの経路計画 class MapBasedController: def __init__(self, map_data): self.map = map_data

    # 事前に与えられた地図 self.path_planner = AStarPlanner(self.map) self.localizer = GPSLocalizer() self.controller = PIDController() def drive(self, frame): # 1. 自己位置推定 position = self.localizer.get_position() # 2. 地図から経路計画 path = self.path_planner.plan(position, goal) # 3. 経路追従 control = self.controller.follow_path(path, position) return control # 視覚のみのエンドツーエンド学習 class EndToEndController(nn.Module): def __init__(self): # DINOv2で特徴抽出(自己教師あり学習済み) self.vision_encoder = Dinov2Model.from_pretrained('facebook/dinov2- base') # 時系列パターン学習 self.temporal_model = nn.LSTM(768, 256, 2) # 行動出力 self.action_head = nn.Linear(256, 3) # [ハンドル, アクセル, ブレーキ] def forward(self, frames): # 画像 → 特徴(自動で道路の概念を獲得) features = self.vision_encoder(frames).last_hidden_state[:, 0] # 時系列パターン → 行動(自動で運転戦略を学習) temporal_features, _ = self.temporal_model(features) # 直接制御信号を出力 actions = self.action_head(temporal_features) return actions # 学習(自己教師あり) model = EndToEndController() # データ収集: 人間が運転するだけ(アノテーション不要) for video_frame, steering_angle in driving_dataset: predicted_angle = model(video_frame) loss = (predicted_angle - steering_angle) ** 2 loss.backward()
  37. # 明示的なラベルなし # 自分で「次のフレームを予測する」というタスクを作る def self_supervised_task(video_frames): # 過去のフレームから... past_frames =

    video_frames[0:8] # 未来のフレームを予測(自己生成タスク) predicted_next_frame = model.predict_future(past_frames) # 実際の次フレームと比較(ラベル不要!) actual_next_frame = video_frames[8] loss = mse(predicted_next_frame, actual_next_frame) # この過程で「道路とは何か」を自動で学習 # 「似ている画像は似た特徴を持つべき」 # というタスクを自分で作る def contrastive_learning(frame): # 同じ画像を2回変形(データ拡張) view1 = augment(frame) # 明るさ変更 view2 = augment(frame) # クロップ # 両方から特徴抽出 feature1 = encoder(view1) feature2 = encoder(view2) # 同じ画像由来なので似ているべき(自己教師) loss = -cosine_similarity(feature1, feature2) # この過程で「道路の本質的な特徴」を学習
  38. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  39. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  40. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  41. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  42. 製 造 ・ 生 産 物 流 ・ サ プ

    ラ イ チ ェ ー ン 建 設 ・ イ ン フ ラ 農 業 ・ 食 品 人手による組立作業・目視品質検査・設備保守点 検・工程管理業務・在庫管理 ロボットフリート管理サービス・AIファクトリー コンサルティング・デジタルツイン工場設計・予 知保全プラットフォーム・カスタムオーダー製造 サービス 倉庫内ピッキング作業・配送ドライバー業務<・ 荷物仕分け作業・在庫棚卸し・ラストワンマイル 配送 フリート管理AI・配送ロボット保守サービス・サ プライチェーン最適化コンサル・ドローン配送イ ンフラ・自律配送ネットワーク運営 基礎工事作業・鉄筋組立・コンクリート打設・内 装施工・インフラ点検業務 建設ロボットオペレーター・3Dプリント建築サー ビス・スマートインフラ管理・ドローン点検サー ビス・BIMデジタルツイン構築 ・播種・収穫作業<br>・除草・農薬散布<br>・ 選果・選別作業<br>・畜産の給餌・搾乳<br>・ 圃場管理 農業ロボットメンテナンス・AIアグリコンサルテ ィング・垂直農場運営・精密農業データ分析・植 物工場最適化サービス フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 )
  43. 医 療 ・ ヘ ル ス ケ ア 小 売

    ・ 接 客 金 融 ・ 保 険 エ ネ ル ギ ー ・ 環 境 画像診断読影>・定型的な看護業務・薬剤調 剤・リハビリ補助・検体検査 手術ロボット専門医・遠隔医療プラットフォ ーム・AIヘルスコーチング・個別化医療コー ディネーター・予防医療データ分析 ・レジ業務・商品陳列・在庫管理・簡単な接 客対応・清掃業務 無人店舗システム構築・パーソナルショッピ ングAI・店舗ロボット保守・リテールデータ アナリスト・体験型店舗プロデューサー 定型的な窓口業務・融資審査事務・保険査定 業務・データ入力作業・コールセンター対応 AIファイナンシャルアドバイザー・パーソナ ライズ保険設計・リスク予測アナリスト・ロ ボアド最適化エンジニア・フィンテックAI開 発 ・設備点検業務・メーター検針・配電設備保 守・環境モニタリング・廃棄物処理 スマートグリッド管理・エネルギー最適化コ ンサル・マイクログリッド設計・V2G統合サ ービス・カーボンクレジット管理 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野
  44. 防 災 ・ 安 全 保 障 エ ン タ

    メ ・ メ デ ィ ア インフラ定期点検・監視業務・災害時の捜索活 動・交通整理・警備業務 災害予測AIシステム・救助ロボット運用・レジリ エンス設計コンサル・ドローン監視サービス・サ イバーセキュリティAI 単純なCG作業・編集アシスタント業務・データ 管理・字幕・翻訳作業・アーカイブ整理 メタバースアーキテクト・AI制作アシスタント・ バーチャルイベントプロデューサー・デジタルツ イン開発・没入体験デザイナー 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野