Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Beyond LLM:世界モデルが切り拓くフィジカルAIの時代

Avatar for oggata oggata
October 23, 2025
3

Beyond LLM:世界モデルが切り拓くフィジカルAIの時代

Avatar for oggata

oggata

October 23, 2025
Tweet

Transcript

  1. B e y o n d L L M :

    世 界 モ デ ル が 切 り 拓 く フ ィ ジ カ ル A I の 時 代
  2. フ ィ ジ カ ル A I と は 一般的にフィジカルAIとは、現実の物理環境と直接関わりながら、

    人間のように柔軟に対応し、状況に応じて行動を変えられるAI技術 のこと。具体的には、ロボットや車などに搭載し、現実の世界で活動 しながら学習を重ね、自律的に動作できるようにする。
  3. O p e n C V す で に O

    p e n C V の 事 例 は 多 く あ る が 、 改 め て フ ィ ジ カ ル A I が 注 目 さ れ て い る の は な ぜ か ?
  4. 図0, Alexey et al. AN IMAGE IS WORTH 16X16 WORDS:

    TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) より引用 「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との考えのもと、画像処理にもTransformerを応用。っ - **ImageNet、CIFAR-10/100などのベンチマークで最高水準** - **事前学習のコストがCNNより低い** - **データが大規模になるほど性能が向上**(スケーラビリティの高さ) T r a n s f o r m e r 革 命
  5. # OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →

    新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能: 「コップを持ち上げる」vs「コップを倒す」の区別 「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ! # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2
  6. 現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行 動の結果を予測する能力が欠けている チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したり といった、人間の幼児でも自然にできることが逆に苦手 。 ヤ ン ・ ル カ

    ン 氏 に よ る 現 在 の 課 題 「人間や動物の学習の大部分は教師なし学習によって行われています。 知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗る クリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。 私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく 分かっていません。本当のAIを目指すには、まずケーキ=教師なし学習の問題を解く必要が あります。 」 —ヤン・ルカン
  7. ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難 教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス 制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい 実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがある シミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.

    リアルタイム性と連続的な意思決定 バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある 単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる 教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性 「転倒しなかった」という結果は一連の動作の最後にしか判明しない どの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られな い h t t p s : / / r o b o t s t a r t . i n f o / a r t i c l e / 2 0 2 0 / 0 4 / 0 6 / 1 9 5 0 6 6 . h t m l ロボットの転倒防止やバランス制御には教師あり学習は向いていない
  8. h t t p s : / / w w

    w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる
  9. Video generation models as world simulators ~SORA 開発企業: OpenAI 概要:

    テキストから高品質なビデオを生成するテキストコ ンディショナル拡散モデル 物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能 同期した対話と効果音を生成 複数ショットにわたって世界の状態を正確に維 持 オリンピック体操ルーチンなど、極めて難しい 動作をモデル化可能 実世界の要素(人物、動物、オブジェクト)を任 意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの 永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能
  10. Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラ クティブ環境を生成できる汎用世界モデ

    ル リアルタイムで24FPS、720p解像度で 数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持 つ初の汎用世界モデル フォトリアリスティックから想像上の世 界まで幅広く生成可能 プロンプト可能なワールドイベント機能 により、生成中の世界をテキストで変更 可能 AGI(汎用人工知能)への重要なステップ として位置づけられている リリース時期: 2025年8月5日発表(限定研究 プレビュー)
  11. 開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは 現在開発中 創業者David Holtzは3D、ビデオ、リアル タイム生成機能を統合した「世界シミュレ ーション」の構築を目指していると表明

    「オープンワールドサンドボックス」のビ ジョン - 人々がビデオゲームを作ったり、 映画を撮影したりできる環境 バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する 可能性があると言及 NeRF(Neural Radiance Fields)技術をベー スにした3Dモデルを開発中 ビデオモデル: 2025年6月18日にV1ビデオ モデルを発表 Image-to-Videoワークフロー 自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney
  12. 開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスか ら、世界一貫性のある3D点群シーケン スを生成 RGB-D(カラー+深度)ビデオ生成フレー ムワーク

    3D一貫性のあるシーン動画を生成し、 カスタムカメラ軌道に従って世界探索が 可能 ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出 力が可能 超長距離世界探索をサポート(任意の長 さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練 リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager
  13. 開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端 の生成的世界基盤モデル(WFM)を特徴とする 自律走行車(AV)とロボット向けに設計 テキスト、画像、ビデオ、ロボットセンサーデ ータから物理ベースのビデオを生成 モデルファミリー: Nano:

    リアルタイム、低遅延推論とエッジデ プロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの 蒸留に最適 拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、 産業、ロボティクス、運転データから9000兆 トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせる ことで、制御可能で高品質な合成ビデオデー タを生成 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメー タの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models
  14. 開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、 スタンフォード大学教授)が2024年に設立

    大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相 互作用を可能にする 「空間知能(Spatial Intelligence)」をAIに 与えることに焦点 単一画像からインタラクティブな3D環境を 生成可能 ゲームのようなシーンをブラウザ内で探 索・修正可能 生成されたシーンは物理法則に従い、堅実 性と深度の感覚を持つ ゲーム会社、映画スタジオ、建築家、デザ イナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i
  15. 概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練さ れ、リアルタイムでMinecraft風のゲームを 生成 キーボードとマウスの入力を受け取り、物 理、ルール、グラフィックスをリアルタイ ムでシミュレート 20FPS、360p解像度で動作(Nvidia

    H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド 版 プレイ中に世界をリアルタイムで変換(ベネ チア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使 用 D e c a r t - O a s i s
  16. 従 来 の プ ロ グ ラ ミ ン グ

    と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程
  17. 世 界 モ デ ル を 作 成 す る

    た め の 技 術 環 境 は 存 在 し て い る か ? - > ベ ース と な る の は 動 画 生 成 環 境 。 例 え ば C o m f y U I な ど。
  18. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム) Modeling Programming Rendering
  19. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  20. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  21. Use a video model Traditional programming Modeling Programming Rendering LoRA

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  22. Use a video model Traditional programming Modeling Programming Rendering ControlNet

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  23. Use a video model Traditional programming Modeling Programming Rendering LCM

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  24. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  25. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA 2
  26. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  27. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  28. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  29. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e )
  30. 製 造 ・ 生 産 物 流 ・ サ プ

    ラ イ チ ェ ー ン 建 設 ・ イ ン フ ラ 農 業 ・ 食 品 人手による組立作業・目視品質検査・設備保守点 検・工程管理業務・在庫管理 ロボットフリート管理サービス・AIファクトリー コンサルティング・デジタルツイン工場設計・予 知保全プラットフォーム・カスタムオーダー製造 サービス 倉庫内ピッキング作業・配送ドライバー業務<・ 荷物仕分け作業・在庫棚卸し・ラストワンマイル 配送 フリート管理AI・配送ロボット保守サービス・サ プライチェーン最適化コンサル・ドローン配送イ ンフラ・自律配送ネットワーク運営 基礎工事作業・鉄筋組立・コンクリート打設・内 装施工・インフラ点検業務 建設ロボットオペレーター・3Dプリント建築サー ビス・スマートインフラ管理・ドローン点検サー ビス・BIMデジタルツイン構築 ・播種・収穫作業<br>・除草・農薬散布<br>・ 選果・選別作業<br>・畜産の給餌・搾乳<br>・ 圃場管理 農業ロボットメンテナンス・AIアグリコンサルテ ィング・垂直農場運営・精密農業データ分析・植 物工場最適化サービス フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 )
  31. 医 療 ・ ヘ ル ス ケ ア 小 売

    ・ 接 客 金 融 ・ 保 険 エ ネ ル ギ ー ・ 環 境 画像診断読影>・定型的な看護業務・薬剤調 剤・リハビリ補助・検体検査 手術ロボット専門医・遠隔医療プラットフォ ーム・AIヘルスコーチング・個別化医療コー ディネーター・予防医療データ分析 ・レジ業務・商品陳列・在庫管理・簡単な接 客対応・清掃業務 無人店舗システム構築・パーソナルショッピ ングAI・店舗ロボット保守・リテールデータ アナリスト・体験型店舗プロデューサー 定型的な窓口業務・融資審査事務・保険査定 業務・データ入力作業・コールセンター対応 AIファイナンシャルアドバイザー・パーソナ ライズ保険設計・リスク予測アナリスト・ロ ボアド最適化エンジニア・フィンテックAI開 発 ・設備点検業務・メーター検針・配電設備保 守・環境モニタリング・廃棄物処理 スマートグリッド管理・エネルギー最適化コ ンサル・マイクログリッド設計・V2G統合サ ービス・カーボンクレジット管理 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野
  32. 防 災 ・ 安 全 保 障 エ ン タ

    メ ・ メ デ ィ ア インフラ定期点検・監視業務・災害時の捜索活 動・交通整理・警備業務 災害予測AIシステム・救助ロボット運用・レジリ エンス設計コンサル・ドローン監視サービス・サ イバーセキュリティAI 単純なCG作業・編集アシスタント業務・データ 管理・字幕・翻訳作業・アーカイブ整理 メタバースアーキテクト・AI制作アシスタント・ バーチャルイベントプロデューサー・デジタルツ イン開発・没入体験デザイナー 市 場 規 模 の 全 体 像 ( 2 0 3 5 年 予 測 ) フィジカルAIで置き換わる分野 フィジカルAIで生まれる新分野