Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション :仮想から現実世界へ...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for oggata oggata
October 01, 2025

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション :仮想から現実世界への架け橋

Canva Version(資料の埋め込み動画はこちらをご参照ください)
https://www.canva.com/design/DAG6bKZjCtM/hw6dRlhfjukenMjR5LHRHw/edit?utm_content=DAG6bKZjCtM&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton

フィジカルAIの実践 - ワールドモデルとマルチエージェントで実現する人間行動シミュレーション
https://zenn.dev/oggata/books/69bd97b5d0ede1

MESA(動画)
https://www.youtube.com/watch?v=9_888bqgnx0

MESA MultiEntitySimulationArchitecture
https://github.com/oggata/MultiEntitySimulationArchitecture https://oggata.github.io/MultiEntitySimulationArchitecture/

資料概要 本資料では、ゲームNPCから始まったAIシミュレーション技術が、社会行動シミュレーション、そしてフィジカルAIへと進化する過程を辿ります。LLMだけでは不十分な現実世界の複雑な物理環境に対応するため、MESAプロジェクトが採用する拡散モデル、階層的ナビゲーション、DINOv2やV-JEPA2などの視覚モデル、自己教師あり学習、模倣学習といった技術スタックを実践的に解説します。さらに、ワールドモデルの歴史的変遷から最新のNVIDIA Cosmosまで、AIが世界を理解し予測する仕組みの全体像を紹介し、仮想空間でのシミュレーションから実世界ロボット制御への展開を包括的に学びます。

Avatar for oggata

oggata

October 01, 2025
Tweet

More Decks by oggata

Other Decks in Technology

Transcript

  1. 1 章 : 仮 想 世 界 か ら 現

    実 世 界 へ 、 シ ミ ュ レ ー タ ー の 現 在 地
  2. 2023年、スタンフォード大学とGoogleの研究チームが発表した「Generative Agents: Interactive Simulacra of Human Behavior」は、AI分野における社会シミュレーションの概念を根本的に変革しました。このプロジェ クトでは、The Simsにインスパイアされた仮想世界「Smallville」に25のAIエージェントを配置し、人間らし い行動をシミュレートする画期的な実験が行われました。

    従来のコンピュータシミュレーションと決定的に異なるのは、エージェントの行動が事前にプログラムされた ルールに従うのではなく、大規模言語モデル(LLM)による自然言語処理によって動的に生成されることで す。これにより、研究者が予想もしなかった複雑で自然な社会的相互作用が創発的に現れるようになりまし た。 NPCの仕組みは、エンターテインメントを超えて社会行動のシミュレーションへと発展しています。MLAS(Multi-Agent Language Simulation)を用いたSmallville型シミ ュレーションでは、複数のエージェントが相互作用しながら社会的行動を再現し、都市計画、災害対応、マーケティング戦略など、実社会の意思決定支援ツールとして活 用されています。 1-2. 社会シミュレーションへの応用:Smallville型の展開 1-2. 社会シミュレーションへの応用:Smallville型の展開 2025年6月7日、中国・中関村アカデミーを中心とする研究グループは、大規模言語モデル (LLM)を活用した大規模エージェントベース社会シミュレーションシステム「Light Society」 を発表した。この研究は、arXivに公開された論文「Modeling Earth-Scale Human-Like Societies with One Billion Agents」にて報告されており、最大10億人規模の人口行動をリアル タイムで再現可能な初のシステムとされる。 Light Society Smallville
  3. NVIDIA Cosmos は、ロボットや自動運転車といった「現実世界で動くAI(フィジカルAI) 」の開発を加速させるための、世界基盤モデル(World Foundation Models)プラットフォームです。 従来のAIがテキストや画像を扱うのに対し、Cosmosは「物理法則」を理解したシミュレーションや未来予測を得意としています。 主な特徴と機能 物理AIの開発支援: 物理法則に基づいた高品質な映像を生成し、ロボットの学習に必要な膨大な「合成データ」を仮想空間で作成でき

    ます。 3つの主要モデル: 用途に合わせて以下の事前学習済みモデルが提供されています。 a.Cosmos Predict: 入力された画像や動画から、物理的に正しい「未来の動き」を動画として予測・生成します。 b.Cosmos Transfer: シミュレーション動画に実写のような質感や異なる環境(天候など)を合成します。 c.Cosmos Reason: 動画の内容を理解し、物理法則に基づいた推論やプランニング(次に何をすべきか)をテキストで行います。 圧倒的な効率化: 2,000万時間以上の動画データで学習されており、NVIDIA Blackwellプラットフォームと組み合わせることで、データ 処理を従来より劇的に高速化します。 シミュレーション技術は仮想空間を飛び出し、現実世界のロボット制御へと応用されています。フィジカルAIと呼ばれるこの分野では、仮想環境で学習したモデルを実世 界のロボットに展開する「Sim-to-Real転移」が進行中です。デジタルツインから実機への展開により、安全で効率的な学習プロセスが実現されています。 1-3. フィジカルAIへの進化:Sim-to-Real転移の時代 1-3. フィジカルAIへの進化:Sim-to-Real転移の時代 Genie 3は、 Google DeepMindが開発した、テキストから操作可能な仮想世界を生成する汎用ワールドモデル(AI)です。 主な特徴と機能 リアルタイム世界生成: テキストプロンプトを入力するだけで、解像度720p・秒間24フレームのインタラクティブな世界を生成します。 自由な探索: 生成された世界の中を、ユーザーがキャラクターや視点を操作して自由に動き回ることができます。 物理法則の模倣: 単なる動画ではなく、AIが物理的な一貫性を理解した上で環境をシミュレートするため、数分間にわたり安定した世界を維 持できます。 2025年8月に発表され、2026年1月末からはこのモデルを搭載した実験用プロトタイプ「Project Genie」が米国で試験提供されています。ゲーム 開発や建築のウォークスルー、教育用シミュレーションなど、幅広い分野での活用が期待されています。 Cosmos Genie 3
  4. インターネット上の情報を全て 読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト 満4歳になるまでに起きている時間(1.6万時間)と、視覚から得る データ量を基にしています。視神経の数(200万本、1本=1バイ ト)と、その伝送頻度(毎秒10回)から算出された数字 50倍

    4歳児 「インターネット上のすべてのデータは、4歳児が経験する現実世界の情報量に満たない」という指摘があります。テキストデータは膨大でも、実世界の物理的・空間的経 験としては極めて限定的です。人間が4歳までに獲得する身体感覚、重力理解、物体の永続性といった基礎知識は、現在のAIデータセットではカバーできず、これが現実世 界で動作するAIの本質的な課題となっています。 1-6. データの質と量の課題:4歳児の経験に満たないインターネット 1-6. データの質と量の課題:4歳児の経験に満たないインターネット
  5. 2 章 : M E S A を 活 用

    し て 、 シ ミ ュ レ ー シ ョ ン を 実 践 し て み る
  6. 1 . 名 前 ( 日 本 語 の 一

    般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 ) 各エージェントに固有の性格、価値観、知識、経験を設定することで、意思決定や行動パターンに一貫性を持たせます。例えば「45歳の物流施設マネージャー、効率重 視、20年の現場経験あり」といった具体的なペルソナを定義することで、同じ状況でも異なる反応を示す多様なエージェントが作成でき、よりリアルなシミュレーション 結果が得られます。 2-2. ペルソナの作成:個性と背景で一貫性を生む 2-2. ペルソナの作成:個性と背景で一貫性を生む
  7. 大目標 中目標 小目標 施設全体の効率的な運営 「次の荷物を取りに行く」 「障害物を避ける」 午前中に50個の荷物を指定エリアに配置 1 . 名

    前 ( 日 本 語 の 一 般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 ) 人間の行動は「昼食を食べる」という大目標から「冷蔵庫を開ける」という小目標まで階層的に分解されています。MESAでは、LLMが大目標から中目標への分解と優先 順位付けを担当し、小目標の実行は専門的なモジュール(視覚システム、運動制御)が担います。HTN(Hierarchical Task Network)的なアプローチにより、柔軟で効率 的なタスク実行が可能になります。 2-3. 階層的タスク分解:大目標から小目標へ 2-3. 階層的タスク分解:大目標から小目標へ
  8. LLMは言語に特化したモデル (資料) LLM (資料) LLM 【 Large Language Models (LLM)

    】 │ ├── プ ロ プ ラ イ エ タ リ ( 企 業 提 供 ) │ ├── GPT-4 / GPT-4 Turbo (OpenAI, 2023) │ ├── GPT-4o / GPT-4o mini (OpenAI, 2024) │ ├── o1 / o1-mini / o1-pro (OpenAI, 2024/2025) ← 推 論 特 化 │ ├── Claude 3 Opus / Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 3.5 Sonnet / Haiku (Anthropic, 2024) │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2025) │ ├── Gemini 1.5 Pro / Flash (Google, 2024) │ ├── Gemini 2.0 Flash (Google, 2024) │ ├── Gemini 2.5 Pro (Google, 2025) │ └── Grok 2 / Grok 3 (xAI) │ ├── オ ー プ ン ソ ー ス - 大 規 模 (70B 以 上 ) │ ├── LLaMA 3 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.1 (8B, 70B, 405B) (Meta, 2024) │ ├── LLaMA 3.3 (70B) (Meta, 2024) │ ├── Qwen2.5 (0.5B 〜 72B) (Alibaba, 2024) │ ├── Qwen3 (Alibaba, 2025) │ ├── DeepSeek-V2 / V3 (DeepSeek, 2024/2025) │ ├── Mistral Large (Mistral AI) │ └── Yi-Large (01.AI) │ ├── オ ー プ ン ソ ー ス - 中 規 模 (7B 〜 70B) │ ├── Mistral 7B / 8x7B / 8x22B (Mistral AI) │ ├── Mixtral 8x7B / 8x22B (Mistral AI) ←MoE │ ├── Command R / R+ (Cohere) │ ├── Gemma 2 (9B, 27B) (Google) │ ├── Gemma 3 (4B, 27B) (Google, 2025) │ └── Nemotron (NVIDIA) │ ├── オ ー プ ン ソ ー ス - 小 規 模 (7B 以 下 ) │ ├── Phi-3 / Phi-3.5 / Phi-4 (Microsoft) │ ├── Gemma (2B, 7B) (Google) │ ├── SmolLM (135M, 360M, 1.7B) (Hugging Face) │ ├── Qwen2.5 (0.5B, 1.5B, 3B, 7B) (Alibaba) │ └── OpenELM (Apple) │ ├── 推 論 特 化 LLM │ ├── o1 / o1-mini / o1-pro (OpenAI) │ ├── QwQ-32B-Preview (Qwen) │ ├── DeepSeek-R1 (DeepSeek, 2025) │ └── Gemini 2.0 Flash Thinking (Google, 2025) │ ├── 日 本 語 特 化 LLM │ ├── Sarashina (Stability AI Japan) │ ├── PLaMo (Preferred Networks) │ ├── Japanese StableLM (Stability AI) │ ├── Swallow ( 東 京 工 業 大 学 ) │ ├── KARAKURI LM ( カ ラ ク リ ) │ └── Llama 3 Swallow ( 東 京 工 業 大 学 ) │ └── 長 文 脈 特 化 ├── Claude 3/3.5/4 (200K tokens) (Anthropic) ├── Gemini 1.5 Pro ( 最 大 2M tokens) (Google) ├── GPT-4 Turbo (128K tokens) (OpenAI) └── Command R+ (128K tokens) (Cohere)
  9. L L M は 「 意 図 」 と 「

    サ ブ ゴ ー ル 」 の み 生 成 " キ ッ チ ン に 行 って 食 材 を 取 って く る " → [ " キ ッ チ ン に 移 動 ", " 冷 蔵 庫 に 近 づ く " , " 食 材 を 取 る " ] R o u t e k n o w l e d g e ( 手 続 き 的 知 識 ) M i d - L e v e l で 幾 何 学 的 計 画 従 来 の 経 路 プ ラ ン ニ ン グ ア ル ゴ リ ズ ム ( A* , D i j k s t r a , R R T ) 地 図 デ ー タ を 使 っ た 最 適 経 路 計 算 S u r v e y k n o w l e d g e ( 地 図 的 知 識 ) L o w - L e v e l で 視 覚 ベ ース 制 御 D I N O v 2 や C L I P な ど の 視 覚 特 徴 抽 出 リ ア ル タ イ ム な 障 害 物 認 識 局 所 的 な 軌 道 修 正 L a n d m a r k k n o w l e d g e ( 視 覚 ラ ン ド マ ー ク ) ロボティクス分野では、高レベルの経路計画と低レベルの運動制御を分離する「階層的ナビゲーション」が標準的なアプローチです。戦略的な目的地設定と、その場の状 況に応じた細かい動作を別々のモジュールで処理することで、複雑な環境でも安定した移動が可能になります。 2-5-a. 階層的ナビゲーション:戦略と戦術の分離 2-5-a. 階層的ナビゲーション:戦略と戦術の分離
  10. H i g h - L e v e l

    P l a n n e r ← L l a m a ( 軽 量 ) ( L l a m a - 3 . 2 - 1 B ) M i d - L e v e l N a v i g a t o r ← A* ア ル ゴ リ ズ ム ( A* P a t h f i n d i n g ) V i s i o n S y s t e m ← D I N O v 2 ( D I N O v 2 F e a t u r e E x t r a c t o r ) L o w - L e v e l C o n t r o l l e r ← L l a m a + V i s i o n ( L l a m a - 3 . 2 - 1 B + D I N O v 2 ) 実装例として、High-Level Planner(Llama-3.2-1B:軽量LLM)が全体戦略を決定し、Mid-Level Navigator(A*アルゴリズム)が具体的な経路を計算、Vision System (DINOv2)が環境を認識し、Low-Level Controller(Llama + DINOv2)が瞬間的な動作を制御します。各レイヤーが専門性を発揮することで、効率的で堅牢なナビゲーシ ョンシステムが構築されます。 2-5-b. 階層的ナビゲーションの具体的構成 2-5-b. 階層的ナビゲーションの具体的構成 「俯瞰視点での経路決定」 一人称視点での行動
  11. ├── 【 ビ ジ ョ ン モ デ ル 】

    │ │ │ ├── Vision Transformer (ViT) 系 │ │ ├── オ リ ジ ナ ル ViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer ( 階 層 的 ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT ( エ ッ ジ デ バ イ ス 用 ) │ │ │ ├── CNN ベ ー ス モ デ ル ( 参 考 : ViT 以 前 の 主 流 ) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハ イ ブ リ ッ ド モ デ ル ( CNN + Transformer ) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 画 像 エ ン コ ー ダ ー ( VLM の 構 成 要 素 ) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP Vit (資料)ViT (資料)ViT
  12. 2-6. Vision Model:セグメンテーションで環境を理解する 2-6. Vision Model:セグメンテーションで環境を理解する 自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション(画像から物体をきりわける)を行った例。 画像から「床」 「壁」 「荷物」

    「人」などの領域を識別するセグメンテーションモデルを使用します。DINOv2やSAM(Segment Anything Model)などの自己教師あり学習 ベースのモデルは、少ないラベル付きデータでも高精度な領域分割が可能です。これにより、ロボットは「通行可能な領域」や「注意すべき物体」を正確に識別できま す。
  13. Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision

    2-7. CLIPによる意味理解:セグメンテーション結果の解釈 2-7. CLIPによる意味理解:セグメンテーション結果の解釈 セグメンテーションで得られた領域に対して、CLIP(Contrastive Language-Image Pre-training)を用いて意味を理解します。CLIPは自然言語と画像を同じ空間に埋め込 むことで、 「これは椅子である」 「これは危険な障害物である」といった高レベルの理解を可能にします。視覚情報と言語的概念を橋渡しする重要なモジュールです。
  14. │ ├── 動 画 理 解 モ デ ル │

    │ ├── VideoMAE ( 動 画 版 MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ ├── ワ ー ル ド モ デ ル ( 理 解 + 予 測 + プ ラ ン ニ ン グ ) │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ (資料) WorldModel (資料) WorldModel WorldModels
  15. 2-8. V-JEPA2:未来を予測する物理モデル 2-8. V-JEPA2:未来を予測する物理モデル V-JEPA(Video Joint-Embedding Predictive Architecture)は、現在の状態から数秒後の世界の状態を予測します。 「このまま進むと荷物にぶつかる」 「人が横切りそう」

    といった予測を行い、事前に回避行動を取ることができます。物理シミュレーションを内包したワールドモデルとして機能し、安全性と効率性を大幅に向上させます。
  16. テスラのFSD(Full Self-Driving)は、バージョン11からバージョン12への移行で劇的な変化を遂げました。バージョン11には「ラウンドアバウトが存在する」といった明 示的なルールを示す30万行以上のC++コードがありましたが、バージョン12ではそのようなコードは基本的に存在しません。自己教師あり学習によるend-to-endアプロー チへの移行を象徴する事例です。 2-10-a. テスラの事例:自己教師あり学習への大転換 2-10-a. テスラの事例:自己教師あり学習への大転換 There is

    no line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。 バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。
  17. if new_cell_explored: reward += 0.1 # 新しい場所に行っ たら褒める if moved_efficiently:

    reward += 0.05 # 効率的に動いたら 褒める if hit_wall: reward -= 0.1 # 壁にぶつかったら怒 る if 全部探索した: reward = 10 else: reward = 0 Sparse Reward スパースな報酬(疎 な報酬関数) Shaped Reward シェイプトな報酬 (成形された報酬関数) 強化学習では「どの行動が良かったか」を示す報酬が必要ですが、実世界では明確な報酬が得られる機会は少ない(Sparse Reward問題) 。自己教師あり 学習では、データ自体から学習信号を生成することで、明示的な報酬なしに有用な表現を獲得できます。例えば、同じ物体を異なる角度から見た画像の特 徴量を近づけるといった手法により、報酬設計の課題を回避できます。 2-10-b. Sparse Reward問題の解決:自己教師あり学習の利点 2-10-b. Sparse Reward問題の解決:自己教師あり学習の利点
  18. ロボット: 「何すればいいの?」 環境: 「100%探索して」 ロボット: 「どうやって?」 環境: 「...」 (報酬0) ロボットの行動:

    Forward → Turn Left → Forward → Turn Right → ... (完全にランダム) 結果: Coverage: 10-40%くらいで時間切れ Reward: 0 学習: なし(まだ成功したことがない) Episode 538: ロボット: いつも通りランダムに動く ... Step 450: たまたま100%探索達成! → Reward: +10 !!! ロボット: 「!!!この行動パターンが正解か!」 Neural Network: この450ステップの行動を記憶 Episode 539: ロボット: 「前回の成功パターンを真似しよう」 → でも完全には再現できない → Reward: 0 Episode 545: ロボット: 「また試す」 → 偶然また成功! → Reward: +10 Neural Network: 「あ、完全に同じじゃなくても成功できるんだ」 「共通パターンを見つけよう」 徐々に成功率が上がる: 0% → 5% → 15% → 30% ロボット: 「わかった!系統的に動けばいいんだ」 発見した戦略(例): 1. 部屋を左から右にスキャン 2. 端に着いたら下に移動 3. 右から左にスキャン 4. これを繰り返す ┌─────────┐ │→→→→↓ │ │←←←←↓ │ │→→→→↓ │ │←←←←◦ │ └─────────┘ 成功率: 50-70% 具体例:Episode 539でロボットは「前回の成功パターンを真似しよう」とするが完全には再現できず、報酬は0。Episode 545で偶然また成功し、報酬+10 を獲得。ニューラルネットワークは「完全に同じでなくても成功できる」 「共通パターンを見つけよう」と学習します。徐々に成功率が 0%→5%→15%→30%と上がり、本質的なパターンを抽出していきます。 2-10-c. 自己教師あり学習でのロボットの学習プロセス 2-10-c. 自己教師あり学習でのロボットの学習プロセス
  19. 2-11. 模倣学習による初期コスト削減:多様なモーダリティの活用 2-11. 模倣学習による初期コスト削減:多様なモーダリティの活用 視覚エンコーダー 言語エンコーダー 行動エンコーダー 物理状態エンコーダー マルチモーダルエンコーダー 音声エンコーダー

    初期コストを減らすために、人間や熟練者の行動デモンストレーションから学ぶ模倣学習が有効です。また、仮想空間だけでなく現実空間の行動データを取り 込むためのマルチモーダルエンコーダーが必要です。実世界のセンサーデータ(カメラ画像、LiDAR点群、IMUデータなど)を、シミュレーションで学習した モデルが理解できる形式に変換するSim-to-Real転移技術が鍵となります。
  20. 仮想空間で学習したモデルを現実世界で動作させるには、両者のギャップ(ドメインギャップ)を埋める必要があります。現実世界の行動データを取り 込むエンコーダーは、実世界のセンサーデータを、シミュレーションで学習したモデルが理解できる共通の特徴空間に変換します。ドメイン適応技術によ り、仮想と現実の橋渡しを実現します。 2-12. Sim-to-Real転移:仮想と現実のギャップを埋める 2-12. Sim-to-Real転移:仮想と現実のギャップを埋める ポーズエンコーダ(Pose Encoders)** -

    OpenPose、MediaPipe、AlphaPose - 人体の関節位置を検出し、スケルトン表現に変換 - 2D/3D座標系列として時系列データを生成 - 職人の手の動き、身体の姿勢を数値化 時空間エンコーダ(Spatiotemporal Encoders)** - 3D CNN(C3D、I3D) - Video Transformer(TimeSformer、VideoMAE) - 動画フレーム全体から動作パターンを抽出 - 時間的な変化と空間的な特徴を同時に捉える 軌跡エンコーダ(Trajectory Encoders)** - RNN/LSTM/GRU系 - Temporal Convolutional Networks(TCN) - 工具の移動経路、手の軌跡などの連続的な動きを エンコード - 職人技の「リズム」や「タイミング」を学習 時空間エンコーダ(Spatiotemporal Encoders)** - 3D CNN(C3D、I3D) - Video Transformer(TimeSformer、VideoMAE) - 動画フレーム全体から動作パターンを抽出 - 時間的な変化と空間的な特徴を同時に捉える
  21. 3 章 : ワ ー ル ド モ デ ル

    - A I が 世 界 を 理 解 し 予 測 す る 仕 組 み
  22. 3-1. ワールドモデルの歴史的変遷 3-1. ワールドモデルの歴史的変遷 古典的 アプローチ モデルベース 強化学習 深層学習 時代

    基盤モデル 時代 WorldModels(2018) Dreamer Genie, Sora, NVIDIA Cosmos Unity, Unreal Engine Dyna, PILCO ワールドモデル技術は、古典的な物理演算エンジンから、機械学習ベースのモデル、そして最新の基盤モデル時代へと進化してきました。各時代のアプローチには固有の 強みと限界があり、現在は複数の手法を組み合わせたハイブリッドアプローチが主流となっています。この歴史を理解することで、現代のワールドモデルの位置づけが明 確になります。
  23. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA 2 に よ る 物 理 法 則 の 補 完 3-10. 物理法則の内在化:学習された物理シミュレーション 3-10. 物理法則の内在化:学習された物理シミュレーション 優れたワールドモデルは、明示的にプログラムされていなくても物理法則を「知っている」かのように振る舞います。重力、慣性、衝突、弾性といった物理現象を、大量 の映像データから暗黙的に学習することで、数式なしに物理的にもっともらしい予測を生成できます。データ駆動型の物理シミュレーションとも言えるアプローチです。
  24. 3-14. ワールドモデルの3つの重要な機能 3-14. ワールドモデルの3つの重要な機能 予測 (Prediction) 生成 (Generation) 計画 (Planning)

    現在の状態から未来を予測する 可能性のある未来のシナリオを複数 生成する 予測を使って最適な行動系列を 立案する 優れたワールドモデルは、①予測(未来の状態を予測する) 、②計画(目標達成のための行動系列を生成する) 、③表現学習(世界の本質的な構造を抽出する)という3つ の重要な機能を持ちます。これらが統合されることで、AIは実世界で効果的に行動できるようになります。各機能のバランスと相互作用が、ワールドモデルの性能を決定 します。
  25. - **予測精度**: 未来のフレームをどれだけ正確に予測できるか - **長期予測の安定性**: 何ステップ先まで破綻せずに予測できるか - **因果関係の理解**: 介入(行動)に対する反応を正しく予測できるか -

    **サンプル効率**: どれだけ少ないデータで学習できるか - **計算効率**: リアルタイム性、推論速度 - **汎化性能**: 学習時に見ていない状況にも対応できるか 3-16. ワールドモデルの評価指標:何をもって良いモデルとするか 3-16. ワールドモデルの評価指標:何をもって良いモデルとするか 視覚情報だけでなく、音声、触覚、力覚、温度など、複数のモーダリティを統合したワールドモデルが開発されています。人間が複数の感覚を使って世界を理解するよう に、AIも多様なセンサー情報を統合することで、より豊かで正確な世界理解が可能になります。特にロボティクスでは、マルチモーダルな理解が安全で効果的な動作に不 可欠です。
  26. - **長期予測の難しさ**: 時間が経つほど誤差が累積し、予測が不安定になる - **高次元空間の呪い**: ピクセル空間での予測は計算コストが膨大 - **確率的事象の扱い**: 不確実性をどう表現するか(確定的 vs

    確率的モデル) - **Out-of-Distribution問題**: 学習データにない状況での予測精度低下 - **因果関係の抽出**: 相関関係ではなく、真の因果を学習する難しさ 3-17. ワールドモデルの課題:複雑な現実世界への適応 3-17. ワールドモデルの課題:複雑な現実世界への適応 現実世界は、シミュレーション環境よりもはるかに複雑で予測困難です。天候変化、予期せぬ物体の出現、人間の非定型的な行動など、無限に近いバリエーションが存在 します。ワールドモデルがこうした複雑さに対応するには、より大規模なデータ、より洗練されたアーキテクチャ、そして継続的な学習メカニズムが必要です。
  27. - **統一ワールドモデル**: あらゆる物理現象を一つのモデルで扱う(水、火、布、固体など) - **階層的ワールドモデル**: 抽象度の異なる複数のモデルの統合(分子レベル〜都市レベル) - **対話的学習**: 人間との対話を通じて世界知識を獲得・修正 -

    **生涯学習**: 継続的に新しい概念や法則を学び続けるシステム - **説明可能性**: なぜそう予測したのかを人間に説明できるモデル MESAのような人間行動シミュレーションも、究極的には高度なワールドモデルの上に構築される。物理世界と社会世界を統合 的に理解するAIの実現が目標。 3-19. ワールドモデルの未来:次の10年で目指すもの 3-19. ワールドモデルの未来:次の10年で目指すもの 今後10年で、ワールドモデルはロボティクス、自動運転、VR/AR、都市シミュレーション、科学研究など、あらゆる分野で中核技術となることが期待されます。AIが世界 を真に「理解」し、未来を正確に予測できるようになれば、より安全で効率的な自律システムが実現します。物理世界とデジタル世界の境界が曖昧になる未来において、 ワールドモデルは人間とAIの協働を支える基盤技術となるでしょう。