Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

B e y o n d L L M 世
界モデルが切り拓くフィジカル A I の時代

フィジカル A I とは

フィジカル A I とは一般的にフィジカルＡＩとは、現実の物理環境と直接関わりながら、
人間のように柔軟に対応し、状況に応じて行動を変えられるＡＩ技術のこと。具体的には、ロボットや車などに搭載し、現実の世界で活動しながら学習を重ね、自律的に動作できるようにする。

O p e n C V すでに O
p e n C V の事例は多くあるが、改めてフィジカル A I が注目されているのはなぜか？

図0, Alexey et al. AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) より引用「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との考えのもと、画像処理にもTransformerを応用。っ - **ImageNet、CIFAR-10/100などのベンチマークで最高水準** - **事前学習のコストがCNNより低い** - **データが大規模になるほど性能が向上**（スケーラビリティの高さ） T r a n s f o r m e r 革命

# OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →
新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能：「コップを持ち上げる」vs「コップを倒す」の区別「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ！ # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2 https://ai.meta.com/vjepa/ から引用

項目 OpenCV DINOv2 V-JEPA2 名前 OpenCV（従来型画像処理） DINO v2（Self-DIstillation with NO
labels） V-JEPA2（Video Joint-Embedding Predictive Architecture）手法ルールベース・明示的特徴抽出自己教師あり学習（識別的アプローチ）自己教師あり学習（予測的アプローチ）学習なし（手動パラメータ設定）コントラスト学習ベース・同じ画像の異なるビューを近づける・異なる画像を遠ざけるマスク予測学習・文脈から隠れた部分の抽象表現を予測・潜在空間での予測損失処理単位ピクセル単位/局所領域パッチ単位（14×14など） グローバル表現パッチ単位 抽象的な潜在表現予測特徴潜在空間: なし（RGB、HSV等の明示的空間）処理: 閾値、エッジ検出、モルフォロジー強み: 高速、軽量、解釈容易弱み: 意味理解なし、照明変化に敏感潜在空間: 識別的潜在空間・物体カテゴリで分離・クラス境界が明確処理: 全パッチ間の関係学習強み: 高精度な意味的セグメンテーション弱み: 時系列情報考慮が限定的潜在空間: 予測的潜在空間・因果関係・物理法則を反映・ダイナミクスを捉える処理: 文脈から未来/隠れた部分を予測強み: オクルージョンに強い、ビデオ処理弱み: 静止画の純粋識別ではDINOv2に劣る場合もアテンションなし・固定的なフィルタ処理・局所的な畳み込みのみ Self-Attention（双方向）・全パッチ間の関係を計算・マルチヘッドで複数の視点用途:- 空間的関係の発見- 物体の部品統合- セマンティックグルーピング Cross-Attention（予測的）・文脈から目標位置へ・非対称な構造用途:- 予測的関係の構築- 時空間的因果関係- オクルージョン補完 O p e n C V v s D i n o V 2 v s V - J E PA 2

自然言語モデルで対応できる？ →不可能

現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行動の結果を予測する能力が欠けているチェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したりといった、人間の幼児でも自然にできることが逆に苦手。ヤン・ルカ
ン氏による現在の課題「人間や動物の学習の大部分は教師なし学習によって行われています。知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗るクリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく分かっていません。本当のAIを目指すには、まずケーキ＝教師なし学習の問題を解く必要があります。」 —ヤン・ルカン

インターネット上の情報を全て読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト満4歳になるまでに起きている時間（1.6万時間）と、視覚から得るデータ量を基にしています。視神経の数（200万本、1本＝1バイト）と、その伝送頻度（毎秒10回）から算出された数字５０倍
インターネット上の全てのデータは４歳児以下？ 4歳児

身体を通じた世界の理解（Embodied Understanding）視覚、聴覚、触覚などの感覚を通じて世界を学び、経験から直感的な知識を獲得できる身体を通じた世界の理解（Embodied Understanding）が必要

ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがあるシミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.
リアルタイム性と連続的な意思決定バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性「転倒しなかった」という結果は一連の動作の最後にしか判明しないどの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られないロボットの転倒防止やバランス制御には教師あり学習は向いていない教師あり学習から、自己教師あり学習へ！

h t t p s : / / w w
w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる

NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T NVIDIAのヒューマノイドロボット向けプラットフォーム発表主な発表内容 1. 新しいAIモデル「Isaac GR00T N1.5」ヒューマノイドロボット向けの基盤モデ
ルで、新しい環境に柔軟に適応でき、ユーザーの指示でオブジェクトを認識できるようになりました 2. データ生成システム「GR00T-Dreams」たった1枚の画像から、ロボットが新しい環境で新しいタスクを実行する動画を生成し、それをもとにロボットに新しい動作を教えることができるブループリント 3. 開発時間の大幅短縮 GR00T N1.5は、合成トレーニングデータを使用してわずか 36時間で開発されました。これは人間が手作業でデータを収集した場合にほぼ3か月かかる作業に相当します 🤖 なぜこれが重要なのか？世界では5,000万人以上の労働力不足が推定されており NVIDIA、またヒューマノイドロボット市場は今後20年間で380億ドル規模に達すると予想されています。しかし、従来のロボット開発には大きな課題がありました。従来の課題：現実世界で広範で高品質なデータセットを収集するのは手間と時間がかかり、多くの場合、法外な費用がかかるロボットを物理世界でテストするのはコストとリスクが伴う環境が変わるたびに一から学習が必要 https://youtu.be/WU3xEyIwMMU?si=gnDHUWtRehMvuqoP

Isaac GR00T N1.5 - ロボットの「脳」人間の認知プロセスを模倣した「デュアルシステムアーキテクチャ」を採用しています。 System 1（高速思考）：　人間の反射や直感を模倣した反応的な処理　物をつかむ、動かすなどの基本動作を瞬時に実行
System 2（低速思考）：環境や指示を分析して行動を計画する論理的思考　　複雑なタスクを段階的に計画何ができるのか：新しい環境や作業スペースの構成により柔軟に適応でき、ユーザーの指示によってオブジェクトを認識することも可能オブジェクトの仕分けや収納といった一般的なマテリアルハンドリングや製造業務における成功率が大幅に向上 GR00T-Dreams - 「想像力」でデータを生成仕組み： 1枚の画像を入力として使用し、GR00T-Dreamsは新しい環境で新しいタスクを実行するロボットの動画を生成アクショントークン（圧縮された消化可能なデータ片）を抽出し、ロボットにこれらの新しいタスクの実行方法を教える驚異的な効率： GR00T N1.5はわずか36時間で開発され、これは人間が手作業でデータを収集した場合にほぼ3か月かかる作業に相当 11時間で78万件の合成軌跡（人間のデモ約6,500時間分、約9ヶ月に相当）を生成実データのみの場合と比較して40%のパフォーマンス向上を達成 . データ生成の3つのワークフロー GR00T-Teleop： Apple Vision Proを利用してデジタルツインで人間の動作をキャプチャし、これらの人間の動作はシミュレーションでロボットによって模倣され、グラウンドトゥルースとして使用するために記録される GR00T-Mimic：キャプチャされた人間のデモンストレーションをより大きな合成モーションデータセットに増幅わずか数回の人間のデモンストレーションをもとに、ロボット操作向けの飛躍的に大量の合成モーション軌道を生成 GR00T-Gen： NVIDIAOmniverseとNVIDIA Cosmosプラットフォーム上に構築され、ドメインランダム化と3Dアップスケーリングを通じてこのデータセットを指数関数的に拡張 .補完技術とツール Cosmos Reason：思考連鎖リーズニングを活用してフィジカルAIモデルトレーニング用の正確で高品質な合成データをキュレーションする新しい世界基盤モデル Isaac Sim 5.0 & Isaac Lab 2.2：シミュレーションおよび合成データ生成フレームワークで、開発者がGR00T Nモデルをテストするのを支援する新しい評価環境が含まれる Newton物理エンジン： Google DeepMindとDisney Researchと共同で開発中の、ロボット開発のために構築されたオープンソースの物理エンジン NVIDIAのヒューマノイドロボット向けプラットフォーム Isaac GR00T

Isaac GR00Tプラットフォーム機能一覧表

大量のデータを得るために、シミュレーション環境が必要。視覚、聴覚、触覚などの感覚を通じて世界を学び、経験から直感的な知識を獲得できる身体を通じた世界の理解（Embodied Understanding）が必要身体を通じた世界の理解（Embodied Understanding）のための世界モデルが必要あらゆるタスクや主題の理解を学習して、さまざまな状況に適用できるということは、AGIの作成の第一歩

世界モデルの事例

Video generation models as world simulators ～SORA 開発企業: OpenAI 概要:
テキストから高品質なビデオを生成するテキストコンディショナル拡散モデル物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能同期した対話と効果音を生成複数ショットにわたって世界の状態を正確に維持オリンピック体操ルーチンなど、極めて難しい動作をモデル化可能実世界の要素(人物、動物、オブジェクト)を任意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能

Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデ
ルリアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作リアルタイムインタラクティブ機能を持つ初の汎用世界モデルフォトリアリスティックから想像上の世界まで幅広く生成可能プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられているリリース時期: 2025年8月5日発表(限定研究プレビュー)

リアルタイムに動画生成ができれば、シミュレーターとしての価値が提供できる。 Google Genie 3の自己教師あり学習能力は、AIエージェントやAIロボットなどのAIシステムがさまざまなタスクを処理できるようにトレーニングする上で非常に重要。Google DeepMindの研究者たちは、Genie 3を汎用人工知能（AGI）の創造に向けた重要な一歩と捉えている。

開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは現在開発中創業者David Holtzは3D、ビデオ、リアルタイム生成機能を統合した「世界シミュレーション」の構築を目指していると表明
「オープンワールドサンドボックス」のビジョン - 人々がビデオゲームを作ったり、映画を撮影したりできる環境バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する可能性があると言及 NeRF(Neural Radiance Fields)技術をベースにした3Dモデルを開発中ビデオモデル: 2025年6月18日にV1ビデオモデルを発表 Image-to-Videoワークフロー自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney

開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成 RGB-D(カラー+深度)ビデオ生成フレームワーク
3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出力が可能超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager

開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする自律走行車(AV)とロボット向けに設計テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成モデルファミリー: Nano:
リアルタイム、低遅延推論とエッジデプロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models

開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、スタンフォード大学教授)が2024年に設立
大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相互作用を可能にする「空間知能(Spatial Intelligence)」をAIに与えることに焦点単一画像からインタラクティブな3D環境を生成可能ゲームのようなシーンをブラウザ内で探索・修正可能生成されたシーンは物理法則に従い、堅実性と深度の感覚を持つゲーム会社、映画スタジオ、建築家、デザイナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i

概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練され、リアルタイムでMinecraft風のゲームを生成キーボードとマウスの入力を受け取り、物理、ルール、グラフィックスをリアルタイムでシミュレート 20FPS、360p解像度で動作(Nvidia
H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド版プレイ中に世界をリアルタイムで変換(ベネチア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使用 D e c a r t - O a s i s

従来のプログラミング
と動画プログラミングの制作工程

Use a video model Traditional programming LoRA Modeling Programming Rendering
従来のプログラミング v s 動画生成モデル入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)

Use a video model Traditional programming Modeling Programming Rendering 従
来のプログラミング v s 動画生成モデル LoRA 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)

来のプログラミング v s 動画生成モデル入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)

来のプログラミング v s 動画生成モデル

Use a video model Traditional programming Programming Rendering Modeling 従

Use a video model Traditional programming Modeling Programming Rendering LCM
従来のプログラミング v s 動画生成モデル

V - J E PA ２による物
理法則の補完

====================================================================== ステップ5：V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀！ V-JEPA
2は以下を理解しています： ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動するつまり：物理法則をプログラムしていないのに、動画を見るだけで「物が坂を転がる」という物理現象を理解しました！ ---------------------------------------------------------------------- 💡 重要なポイント：従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う！ → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA ２による物理法則の補完

M E S A ( M u l t i
- E n t i t y S i m u l a t i o n A r c h i t e c t u r e ) 都市モデルのシミュレーションキットをオープンソースで開発中です。 https://github.com/oggata/MultiEntitySimulationArchitecture

M E S A ( M u l t i
- E n t i t y S i m u l a t i o n A r c h i t e c t u r e )

未来の展望

製造・生産物流・サプ
ライチェーン建設・インフラ農業・食品人手による組立作業・目視品質検査・設備保守点検・工程管理業務・在庫管理ロボットフリート管理サービス・AIファクトリーコンサルティング・デジタルツイン工場設計・予知保全プラットフォーム・カスタムオーダー製造サービス倉庫内ピッキング作業・配送ドライバー業務<・荷物仕分け作業・在庫棚卸し・ラストワンマイル配送フリート管理AI・配送ロボット保守サービス・サプライチェーン最適化コンサル・ドローン配送インフラ・自律配送ネットワーク運営基礎工事作業・鉄筋組立・コンクリート打設・内装施工・インフラ点検業務建設ロボットオペレーター・3Dプリント建築サービス・スマートインフラ管理・ドローン点検サービス・BIMデジタルツイン構築・播種・収穫作業 ・除草・農薬散布 ・選果・選別作業 ・畜産の給餌・搾乳 ・圃場管理農業ロボットメンテナンス・AIアグリコンサルティング・垂直農場運営・精密農業データ分析・植物工場最適化サービスフィジカルAIで置き換わる分野フィジカルAIで生まれる新分野市場規模の全体像（ 2 0 3 5 年予測）

医療・ヘルスケア小売
・接客金融・保険エネルギー・環境画像診断読影>・定型的な看護業務・薬剤調剤・リハビリ補助・検体検査手術ロボット専門医・遠隔医療プラットフォーム・AIヘルスコーチング・個別化医療コーディネーター・予防医療データ分析・レジ業務・商品陳列・在庫管理・簡単な接客対応・清掃業務無人店舗システム構築・パーソナルショッピングAI・店舗ロボット保守・リテールデータアナリスト・体験型店舗プロデューサー定型的な窓口業務・融資審査事務・保険査定業務・データ入力作業・コールセンター対応 AIファイナンシャルアドバイザー・パーソナライズ保険設計・リスク予測アナリスト・ロボアド最適化エンジニア・フィンテックAI開発・設備点検業務・メーター検針・配電設備保守・環境モニタリング・廃棄物処理スマートグリッド管理・エネルギー最適化コンサル・マイクログリッド設計・V2G統合サービス・カーボンクレジット管理市場規模の全体像（ 2 0 3 5 年予測）フィジカルAIで置き換わる分野フィジカルAIで生まれる新分野

防災・安全保障エンタ
メ・メディアインフラ定期点検・監視業務・災害時の捜索活動・交通整理・警備業務災害予測AIシステム・救助ロボット運用・レジリエンス設計コンサル・ドローン監視サービス・サイバーセキュリティAI 単純なCG作業・編集アシスタント業務・データ管理・字幕・翻訳作業・アーカイブ整理メタバースアーキテクト・AI制作アシスタント・バーチャルイベントプロデューサー・デジタルツイン開発・没入体験デザイナー市場規模の全体像（ 2 0 3 5 年予測）フィジカルAIで置き換わる分野フィジカルAIで生まれる新分野

https://zenn.dev/oggata/books/69bd97b5d0ede1 このプレゼンの内容はZennの書籍で読むことができます！

Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

More Decks by oggata

Other Decks in Programming

Featured

Transcript