Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata oggata
October 01, 2025

 Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata

oggata

October 01, 2025
Tweet

More Decks by oggata

Other Decks in Programming

Transcript

  1. B e y o n d L L M 世

    界 モ デ ル が 切 り 拓 く フ ィ ジ カ ル A I の 時 代
  2. フ ィ ジ カ ル A I と は 一般的にフィジカルAIとは、現実の物理環境と直接関わりながら、

    人間のように柔軟に対応し、状況に応じて行動を変えられるAI技術 のこと。具体的には、ロボットや車などに搭載し、現実の世界で活動 しながら学習を重ね、自律的に動作できるようにする。
  3. O p e n C V す で に O

    p e n C V の 事 例 は 多 く あ る が 、 改 め て フ ィ ジ カ ル A I が 注 目 さ れ て い る の は な ぜ か ?
  4. 図0, Alexey et al. AN IMAGE IS WORTH 16X16 WORDS:

    TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) より引用 「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との考えのもと、画像処理にもTransformerを応用。っ - **ImageNet、CIFAR-10/100などのベンチマークで最高水準** - **事前学習のコストがCNNより低い** - **データが大規模になるほど性能が向上**(スケーラビリティの高さ) T r a n s f o r m e r 革 命
  5. # OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →

    新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能: 「コップを持ち上げる」vs「コップを倒す」の区別 「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ! # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2 https://ai.meta.com/vjepa/ から引用
  6. 項目 OpenCV DINOv2 V-JEPA2 名前 OpenCV(従来型画像処理) DINO v2(Self-DIstillation with NO

    labels) V-JEPA2(Video Joint-Embedding Predictive Architecture) 手法 ルールベース・明示的特徴抽出 自己教師あり学習(識別的アプローチ) 自己教師あり学習(予測的アプローチ) 学習 なし(手動パラメータ設定) コントラスト学習ベース・同じ画像の異なるビ ューを近づける・異なる画像を遠ざける マスク予測学習・文脈から隠れた部分の抽象表 現を予測・潜在空間での予測損失 処理単位 ピクセル単位/局所領域 パッチ単位(14×14など)<br>グローバル表現 パッチ単位<br>抽象的な潜在表現予測 特徴 潜在空間: なし(RGB、HSV等の明示的空間) 処理: 閾値、エッジ検出、モルフォロジー強み: 高速、軽量、解釈容易 弱み: 意味理解なし、照明変化に敏感 潜在空間: 識別的潜在空間・物体カテゴリで分 離・クラス境界が明確処理: 全パッチ間の関係学 習強み: 高精度な意味的セグメンテーション 弱み: 時系列情報考慮が限定的 潜在空間: 予測的潜在空間・因果関係・物理法則 を反映・ダイナミクスを捉える処理: 文脈から未 来/隠れた部分を予測 強み: オクルージョンに強い、ビデオ処理 弱み: 静止画の純粋識別ではDINOv2に劣る場合 も アテンション なし・固定的なフィルタ処理・局所的な畳み込 みのみ Self-Attention(双方向) ・全パッチ間の関係を 計算・マルチヘッドで複数の視点用途:- 空間的 関係の発見- 物体の部品統合- セマンティックグ ルーピング Cross-Attention(予測的) ・文脈から目標位置 へ・非対称な構造用途:- 予測的関係の構築- 時空 間的因果関係- オクルージョン補完 O p e n C V v s D i n o V 2 v s V - J E PA 2
  7. 現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行 動の結果を予測する能力が欠けている チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したり といった、人間の幼児でも自然にできることが逆に苦手 。 ヤ ン ・ ル カ

    ン 氏 に よ る 現 在 の 課 題 「人間や動物の学習の大部分は教師なし学習によって行われています。 知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗る クリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。 私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく 分かっていません。本当のAIを目指すには、まずケーキ=教師なし学習の問題を解く必要が あります。 」 —ヤン・ルカン
  8. ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難 教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス 制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい 実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがある シミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.

    リアルタイム性と連続的な意思決定 バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある 単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる 教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性 「転倒しなかった」という結果は一連の動作の最後にしか判明しない どの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られな い ロボットの転倒防止やバランス制御には教師あり学習は向いていない 教師あり学習から、自己教師あり学習へ!
  9. h t t p s : / / w w

    w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる
  10. NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T NVIDIAのヒューマノイドロボット向けプラットフォーム発表 主な発表内容 1. 新しいAIモデル「Isaac GR00T N1.5」 ヒューマノイドロボット向けの基盤モデ

    ルで、新しい環境に柔軟に適応でき、ユーザーの指示でオブジェクトを認識できる ようになりました 2. データ生成システム「GR00T-Dreams」 たった1枚の画像から、ロボットが新し い環境で新しいタスクを実行する動画を生成し、それをもとにロボットに新しい動 作を教えることができるブループリント 3. 開発時間の大幅短縮 GR00T N1.5は、合成トレーニングデータを使用してわずか 36時間で開発されました。これは人間が手作業でデータを収集した場合にほぼ3か 月かかる作業に相当します 🤖 なぜこれが重要なのか? 世界では5,000万人以上の労働力不足が推定されており NVIDIA、またヒューマノイ ドロボット市場は今後20年間で380億ドル規模に達すると予想されています。しか し、従来のロボット開発には大きな課題がありました。 従来の課題: 現実世界で広範で高品質なデータセットを収集するのは手間と時間がかかり、 多くの場合、法外な費用がかかる ロボットを物理世界でテストするのはコストとリスクが伴う 環境が変わるたびに一から学習が必要 https://youtu.be/WU3xEyIwMMU?si=gnDHUWtRehMvuqoP
  11. Isaac GR00T N1.5 - ロボットの「脳」 人間の認知プロセスを模倣した「デュアルシステムアーキテクチャ」を採用しています。 System 1(高速思考) : 人間の反射や直感を模倣した反応的な処理  物をつかむ、動かすなどの基本動作を瞬時に実行

    System 2(低速思考) : 環境や指示を分析して行動を計画する論理的思考   複雑なタスクを段階的に計画 何ができるのか: 新しい環境や作業スペースの構成により柔軟に適応でき、ユーザーの指示によってオブジェクトを認識することも可能 オブジェクトの仕分けや収納といった一般的なマテリアルハンドリングや製造業務における成功率が大幅に向上 GR00T-Dreams - 「想像力」でデータを生成 仕組み: 1枚の画像を入力として使用し、GR00T-Dreamsは新しい環境で新しいタスクを実行するロボットの動画を生成 アクショントークン(圧縮された消化可能なデータ片)を抽出し、ロボットにこれらの新しいタスクの実行方法を教える 驚異的な効率: GR00T N1.5はわずか36時間で開発され、これは人間が手作業でデータを収集した場合にほぼ3か月かかる作業に相当 11時間で78万件の合成軌跡(人間のデモ約6,500時間分、約9ヶ月に相当)を生成 実データのみの場合と比較して40%のパフォーマンス向上を達成 . データ生成の3つのワークフロー GR00T-Teleop: Apple Vision Proを利用してデジタルツインで人間の動作をキャプチャし、これらの人間の動作はシミュレーションでロボットによって模倣され、グラウンドトゥルースとし て使用するために記録される GR00T-Mimic: キャプチャされた人間のデモンストレーションをより大きな合成モーションデータセットに増幅 わずか数回の人間のデモンストレーションをもとに、ロボット操作向けの飛躍的に大量の合成モーション軌道を生成 GR00T-Gen: NVIDIAOmniverseとNVIDIA Cosmosプラットフォーム上に構築され、ドメインランダム化と3Dアップスケーリングを通じてこのデータセットを指数関数的に拡張 .補完技術とツール Cosmos Reason: 思考連鎖リーズニングを活用してフィジカルAIモデルトレーニング用の正確で高品質な合成データをキュレーションする新しい世界基盤モデル Isaac Sim 5.0 & Isaac Lab 2.2: シミュレーションおよび合成データ生成フレームワークで、開発者がGR00T Nモデルをテストするのを支援する新しい評価環境が含まれる Newton物理エンジン: Google DeepMindとDisney Researchと共同で開発中の、ロボット開発のために構築されたオープンソースの物理エンジン NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T
  12. Video generation models as world simulators ~SORA 開発企業: OpenAI 概要:

    テキストから高品質なビデオを生成するテキストコ ンディショナル拡散モデル 物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能 同期した対話と効果音を生成 複数ショットにわたって世界の状態を正確に維 持 オリンピック体操ルーチンなど、極めて難しい 動作をモデル化可能 実世界の要素(人物、動物、オブジェクト)を任 意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの 永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能
  13. Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラ クティブ環境を生成できる汎用世界モデ

    ル リアルタイムで24FPS、720p解像度で 数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持 つ初の汎用世界モデル フォトリアリスティックから想像上の世 界まで幅広く生成可能 プロンプト可能なワールドイベント機能 により、生成中の世界をテキストで変更 可能 AGI(汎用人工知能)への重要なステップ として位置づけられている リリース時期: 2025年8月5日発表(限定研究 プレビュー)
  14. 開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは 現在開発中 創業者David Holtzは3D、ビデオ、リアル タイム生成機能を統合した「世界シミュレ ーション」の構築を目指していると表明

    「オープンワールドサンドボックス」のビ ジョン - 人々がビデオゲームを作ったり、 映画を撮影したりできる環境 バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する 可能性があると言及 NeRF(Neural Radiance Fields)技術をベー スにした3Dモデルを開発中 ビデオモデル: 2025年6月18日にV1ビデオ モデルを発表 Image-to-Videoワークフロー 自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney
  15. 開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスか ら、世界一貫性のある3D点群シーケン スを生成 RGB-D(カラー+深度)ビデオ生成フレー ムワーク

    3D一貫性のあるシーン動画を生成し、 カスタムカメラ軌道に従って世界探索が 可能 ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出 力が可能 超長距離世界探索をサポート(任意の長 さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練 リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager
  16. 開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端 の生成的世界基盤モデル(WFM)を特徴とする 自律走行車(AV)とロボット向けに設計 テキスト、画像、ビデオ、ロボットセンサーデ ータから物理ベースのビデオを生成 モデルファミリー: Nano:

    リアルタイム、低遅延推論とエッジデ プロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの 蒸留に最適 拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、 産業、ロボティクス、運転データから9000兆 トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせる ことで、制御可能で高品質な合成ビデオデー タを生成 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメー タの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models
  17. 開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、 スタンフォード大学教授)が2024年に設立

    大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相 互作用を可能にする 「空間知能(Spatial Intelligence)」をAIに 与えることに焦点 単一画像からインタラクティブな3D環境を 生成可能 ゲームのようなシーンをブラウザ内で探 索・修正可能 生成されたシーンは物理法則に従い、堅実 性と深度の感覚を持つ ゲーム会社、映画スタジオ、建築家、デザ イナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i
  18. 概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練さ れ、リアルタイムでMinecraft風のゲームを 生成 キーボードとマウスの入力を受け取り、物 理、ルール、グラフィックスをリアルタイ ムでシミュレート 20FPS、360p解像度で動作(Nvidia

    H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド 版 プレイ中に世界をリアルタイムで変換(ベネ チア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使 用 D e c a r t - O a s i s
  19. 従 来 の プ ロ グ ラ ミ ン グ

    と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程
  20. Use a video model Traditional programming LoRA Modeling Programming Rendering

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  21. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル LoRA 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  22. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  23. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  24. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  25. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  26. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  27. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  28. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  29. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  30. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  31. Use a video model Traditional programming Modeling Programming Rendering LCM

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  32. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  33. V - J E PA 2 に よ る 物

    理 法 則 の 補 完
  34. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA 2 に よ る 物 理 法 則 の 補 完
  35. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e ) 都市モデルのシミュレーションキットをオープンソースで開発中です。 https://github.com/oggata/MultiEntitySimulationArchitecture
  36. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  37. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  38. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  39. 製 造 ・ 生 産 物 流 ・ サ プ

    ラ イ チ ェ ー ン 建 設 ・ イ ン フ ラ 農 業 ・ 食 品 人手による組立作業・目視品質検査・設備保守点 検・工程管理業務・在庫管理 ロボットフリート管理サービス・AIファクトリー コンサルティング・デジタルツイン工場設計・予 知保全プラットフォーム・カスタムオーダー製造 サービス 倉庫内ピッキング作業・配送ドライバー業務<・ 荷物仕分け作業・在庫棚卸し・ラストワンマイル 配送 フリート管理AI・配送ロボット保守サービス・サ プライチェーン最適化コンサル・ドローン配送イ ンフラ・自律配送ネットワーク運営 基礎工事作業・鉄筋組立・コンクリート打設・内 装施工・インフラ点検業務 建設ロボットオペレーター・3Dプリント建築サー ビス・スマートインフラ管理・ドローン点検サー ビス・BIMデジタルツイン構築 ・播種・収穫作業<br>・除草・農薬散布<br>・ 選果・選別作業<br>・畜産の給餌・搾乳<br>・ 圃場管理 農業ロボットメンテナンス・AIアグリコンサルテ ィング・垂直農場運営・精密農業データ分析・植 物工場最適化サービス フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 )
  40. 医 療 ・ ヘ ル ス ケ ア 小 売

    ・ 接 客 金 融 ・ 保 険 エ ネ ル ギ ー ・ 環 境 画像診断読影>・定型的な看護業務・薬剤調 剤・リハビリ補助・検体検査 手術ロボット専門医・遠隔医療プラットフォ ーム・AIヘルスコーチング・個別化医療コー ディネーター・予防医療データ分析 ・レジ業務・商品陳列・在庫管理・簡単な接 客対応・清掃業務 無人店舗システム構築・パーソナルショッピ ングAI・店舗ロボット保守・リテールデータ アナリスト・体験型店舗プロデューサー 定型的な窓口業務・融資審査事務・保険査定 業務・データ入力作業・コールセンター対応 AIファイナンシャルアドバイザー・パーソナ ライズ保険設計・リスク予測アナリスト・ロ ボアド最適化エンジニア・フィンテックAI開 発 ・設備点検業務・メーター検針・配電設備保 守・環境モニタリング・廃棄物処理 スマートグリッド管理・エネルギー最適化コ ンサル・マイクログリッド設計・V2G統合サ ービス・カーボンクレジット管理 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野
  41. 防 災 ・ 安 全 保 障 エ ン タ

    メ ・ メ デ ィ ア インフラ定期点検・監視業務・災害時の捜索活 動・交通整理・警備業務 災害予測AIシステム・救助ロボット運用・レジリ エンス設計コンサル・ドローン監視サービス・サ イバーセキュリティAI 単純なCG作業・編集アシスタント業務・データ 管理・字幕・翻訳作業・アーカイブ整理 メタバースアーキテクト・AI制作アシスタント・ バーチャルイベントプロデューサー・デジタルツ イン開発・没入体験デザイナー 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野