Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

B e y o n d L L M ：
世界モデルが切り拓くフィジカル A I の時代

フィジカル A I とは

フィジカル A I とは一般的にフィジカルＡＩとは、現実の物理環境と直接関わりながら、
人間のように柔軟に対応し、状況に応じて行動を変えられるＡＩ技術のこと。具体的には、ロボットや車などに搭載し、現実の世界で活動しながら学習を重ね、自律的に動作できるようにする。

O p e n C V すでに O
p e n C V の事例は多くあるが、改めてフィジカル A I が注目されているのはなぜか？

図0, Alexey et al. AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) より引用「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との考えのもと、画像処理にもTransformerを応用。っ - **ImageNet、CIFAR-10/100などのベンチマークで最高水準** - **事前学習のコストがCNNより低い** - **データが大規模になるほど性能が向上**（スケーラビリティの高さ） T r a n s f o r m e r 革命

# OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →
新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能：「コップを持ち上げる」vs「コップを倒す」の区別「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ！ # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2

自然言語モデルで対応できる？ →不可能

現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行動の結果を予測する能力が欠けているチェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したりといった、人間の幼児でも自然にできることが逆に苦手。ヤン・ルカ
ン氏による現在の課題「人間や動物の学習の大部分は教師なし学習によって行われています。知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗るクリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく分かっていません。本当のAIを目指すには、まずケーキ＝教師なし学習の問題を解く必要があります。」 —ヤン・ルカン

インターネット上の情報を全て読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト満4歳になるまでに起きている時間（1.6万時間）と、視覚から得るデータ量を基にしています。視神経の数（200万本、1本＝1バイト）と、その伝送頻度（毎秒10回）から算出された数字５０倍
インターネット上の全てのデータは４歳児以下？ 4歳児

身体を通じた世界の理解（Embodied Understanding）視覚、聴覚、触覚などの感覚を通じて世界を学び、経験から直感的な知識を獲得できる身体を通じた世界の理解（Embodied Understanding）が必要

ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがあるシミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.
リアルタイム性と連続的な意思決定バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性「転倒しなかった」という結果は一連の動作の最後にしか判明しないどの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られない h t t p s : / / r o b o t s t a r t . i n f o / a r t i c l e / 2 0 2 0 / 0 4 / 0 6 / 1 9 5 0 6 6 . h t m l ロボットの転倒防止やバランス制御には教師あり学習は向いていない

h t t p s : / / w w
w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる

視覚、聴覚、触覚などの感覚を通じて世界を学び、経験から直感的な知識を獲得できる身体を通じた世界の理解（Embodied Understanding）が必要身体を通じた世界の理解（Embodied Understanding）のための世界モデルが必要大量のデータを得るために、シミュレーション環境が必要。あらゆるタスクや主題の理解を学習して、さまざまな状況に適用できるということは、AGIの作成の第一歩

世界モデルの事例

Video generation models as world simulators ～SORA 開発企業: OpenAI 概要:
テキストから高品質なビデオを生成するテキストコンディショナル拡散モデル物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能同期した対話と効果音を生成複数ショットにわたって世界の状態を正確に維持オリンピック体操ルーチンなど、極めて難しい動作をモデル化可能実世界の要素(人物、動物、オブジェクト)を任意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能

リアルタイムに動画生成ができれば、シミュレーターとしての価値が提供できる。 Google Genie 3の自己教師あり学習能力は、AIエージェントやAIロボットなどのAIシステムがさまざまなタスクを処理できるようにトレーニングする上で非常に重要です。実際、Google DeepMindの研究者たちは、Genie 3を汎用人工知能（AGI）の創造に向けた重要な一歩と捉えています。

Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデ
ルリアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作リアルタイムインタラクティブ機能を持つ初の汎用世界モデルフォトリアリスティックから想像上の世界まで幅広く生成可能プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられているリリース時期: 2025年8月5日発表(限定研究プレビュー)

開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは現在開発中創業者David Holtzは3D、ビデオ、リアルタイム生成機能を統合した「世界シミュレーション」の構築を目指していると表明
「オープンワールドサンドボックス」のビジョン - 人々がビデオゲームを作ったり、映画を撮影したりできる環境バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する可能性があると言及 NeRF(Neural Radiance Fields)技術をベースにした3Dモデルを開発中ビデオモデル: 2025年6月18日にV1ビデオモデルを発表 Image-to-Videoワークフロー自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney

開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成 RGB-D(カラー+深度)ビデオ生成フレームワーク
3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出力が可能超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager

開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする自律走行車(AV)とロボット向けに設計テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成モデルファミリー: Nano:
リアルタイム、低遅延推論とエッジデプロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models

開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、スタンフォード大学教授)が2024年に設立
大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相互作用を可能にする「空間知能(Spatial Intelligence)」をAIに与えることに焦点単一画像からインタラクティブな3D環境を生成可能ゲームのようなシーンをブラウザ内で探索・修正可能生成されたシーンは物理法則に従い、堅実性と深度の感覚を持つゲーム会社、映画スタジオ、建築家、デザイナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i

概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練され、リアルタイムでMinecraft風のゲームを生成キーボードとマウスの入力を受け取り、物理、ルール、グラフィックスをリアルタイムでシミュレート 20FPS、360p解像度で動作(Nvidia
H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド版プレイ中に世界をリアルタイムで変換(ベネチア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使用 D e c a r t - O a s i s

従来のプログラミング
と動画プログラミングの制作工程

世界モデルを作成する
ための技術環境は存在しているか？ - > ベースとなるのは動画生成環境。例えば C o m f y U I など。

Use a video model Traditional programming 従来のプ
ログラミング v s 動画生成モデル入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム) Modeling Programming Rendering

Use a video model Traditional programming Modeling Programming Rendering 従
来のプログラミング v s 動画生成モデル

Use a video model Traditional programming Modeling Programming Rendering LoRA
従来のプログラミング v s 動画生成モデル

Use a video model Traditional programming Modeling Programming Rendering ControlNet

Use a video model Traditional programming Modeling Programming Rendering LCM

Use a video model Traditional programming Modeling Programming Rendering 従
来のプログラミング v s 動画生成モデル

V - J E PA ２

====================================================================== ステップ5：V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀！ V-JEPA
2は以下を理解しています： ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動するつまり：物理法則をプログラムしていないのに、動画を見るだけで「物が坂を転がる」という物理現象を理解しました！ ---------------------------------------------------------------------- 💡 重要なポイント：従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う！ → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA ２

M E S A ( M u l t i
- E n t i t y S i m u l a t i o n A r c h i t e c t u r e )

未来の展望

製造・生産物流・サプ
ライチェーン建設・インフラ農業・食品人手による組立作業・目視品質検査・設備保守点検・工程管理業務・在庫管理ロボットフリート管理サービス・AIファクトリーコンサルティング・デジタルツイン工場設計・予知保全プラットフォーム・カスタムオーダー製造サービス倉庫内ピッキング作業・配送ドライバー業務<・荷物仕分け作業・在庫棚卸し・ラストワンマイル配送フリート管理AI・配送ロボット保守サービス・サプライチェーン最適化コンサル・ドローン配送インフラ・自律配送ネットワーク運営基礎工事作業・鉄筋組立・コンクリート打設・内装施工・インフラ点検業務建設ロボットオペレーター・3Dプリント建築サービス・スマートインフラ管理・ドローン点検サービス・BIMデジタルツイン構築・播種・収穫作業<br>・除草・農薬散布<br>・選果・選別作業<br>・畜産の給餌・搾乳<br>・圃場管理農業ロボットメンテナンス・AIアグリコンサルティング・垂直農場運営・精密農業データ分析・植物工場最適化サービスフィジカルAIで置き換わる分野フィジカルAIで生まれる新分野市場規模の全体像（ 2 0 3 5 年予測）

医療・ヘルスケア小売
・接客金融・保険エネルギー・環境画像診断読影>・定型的な看護業務・薬剤調剤・リハビリ補助・検体検査手術ロボット専門医・遠隔医療プラットフォーム・AIヘルスコーチング・個別化医療コーディネーター・予防医療データ分析・レジ業務・商品陳列・在庫管理・簡単な接客対応・清掃業務無人店舗システム構築・パーソナルショッピングAI・店舗ロボット保守・リテールデータアナリスト・体験型店舗プロデューサー定型的な窓口業務・融資審査事務・保険査定業務・データ入力作業・コールセンター対応 AIファイナンシャルアドバイザー・パーソナライズ保険設計・リスク予測アナリスト・ロボアド最適化エンジニア・フィンテックAI開発・設備点検業務・メーター検針・配電設備保守・環境モニタリング・廃棄物処理スマートグリッド管理・エネルギー最適化コンサル・マイクログリッド設計・V2G統合サービス・カーボンクレジット管理市場規模の全体像（ 2 0 3 5 年予測）フィジカルAIで置き換わる分野フィジカルAIで生まれる新分野

防災・安全保障エンタ
メ・メディアインフラ定期点検・監視業務・災害時の捜索活動・交通整理・警備業務災害予測AIシステム・救助ロボット運用・レジリエンス設計コンサル・ドローン監視サービス・サイバーセキュリティAI 単純なCG作業・編集アシスタント業務・データ管理・字幕・翻訳作業・アーカイブ整理メタバースアーキテクト・AI制作アシスタント・バーチャルイベントプロデューサー・デジタルツイン開発・没入体験デザイナー市場規模の全体像（ 2 0 3 5 年予測）フィジカルAIで置き換わる分野フィジカルAIで生まれる新分野

Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

More Decks by oggata

Featured

Transcript