Upgrade to Pro — share decks privately, control downloads, hide ads and more …

セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまで...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for oggata oggata
February 01, 2026

セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門

「世界をルールで記述できるか?」――この問いは、コンピュータが生まれた瞬間から研究者たちを魅了し続けてきました。本書はその問いを軸に、シミュレーションの歴史と技術的発展を一冊にまとめた入門書です。
1970年代のLife Gameにおける「創発」の発見から、パックマンのルールベースAI、ウルティマオンラインで生まれたリアルな社会、Dwarf Fortressの世界丸ごと生成、そしてAIが世界の動き方そのものを学習するWorld Modelまで。シミュレーションの概念は時代とともに進化し、今やAI研究・ロボティクス・コンテンツ生成の基盤となっています。
本書はゲーム・数学・AI研究という三つの視点を横断しながら、「シミュレーションとは何か」「なぜ人は世界を模倣しようとするのか」を問い直します。プログラマーからゲームデザイナー、AI研究者まで、幅広い読者に向けた一冊です。

(Zenn書籍)セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門
https://zenn.dev/oggata/books/3292719f0bfe50

(オリジナル資料)
https://www.canva.com/design/DAHDcfnIPc4/q0Q66DEwWqDB5DKQVhlUMQ/edit?utm_content=DAHDcfnIPc4&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton

(MESA-MultiEntitySimulationArchitecture)
https://mesa-clouds-renderer.onrender.com

Avatar for oggata

oggata

February 01, 2026
Tweet

More Decks by oggata

Other Decks in Technology

Transcript

  1. Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門 セ ル か ら 世 界 へ

    Fumitoshi Ogata 「世界をルールで記述できるか?」――この問いは、コンピュータが生まれた瞬間から研究者たちを魅了し続けてきました。本書はその問いを軸に、シミュレーションの歴史と 技術的発展を一冊にまとめた入門書です。 1970年代のLife Gameにおける「創発」の発見から、パックマンのルールベースAI、ウルティマオンラインで生まれたリアルな社会、Dwarf Fortressの世界丸ごと生成、そして AIが世界の動き方そのものを学習するWorld Modelまで。シミュレーションの概念は時代とともに進化し、今やAI研究・ロボティクス・コンテンツ生成の基盤となっています。 本書はゲーム・数学・AI研究という三つの視点を横断しながら、 「シミュレーションとは何か」 「なぜ人は世界を模倣しようとするのか」を問い直します。プログラマーからゲー ムデザイナー、AI研究者まで、幅広い読者に向けた一冊です。
  2. ライフゲーム(Conway's Game of Life)は、1970年にイギリスの数学者 ジョン・ホートン・コンウェイ が考案したセルオ ートマトンです。 「ゲーム」とついていますが、プレイヤーは存在せず、初期状態を設定するだけで自動的に進行します。 最初に発見されたグライダー (glider)

    は最小の移動物体です。さらに、グライダー二機の衝突で池ができ、池とグライダーが衝 突するとボートに変化し、ボートにグライダーが衝突するとシャトルに変化していきます。
  3. 世界モデルとは、 「世界がどう動くか」を学習したAI モデルです。 通常の生成AI は入力と出力のパターンを覚えるだけですが、世界モデルはそれを超えて物理法則・因果関係・時間の流れを内部に持ちます。 「ボールを投げたら放物線を描く」 「ドアを開けた ら向こうが見える」といった、人間が当たり前に知っている" 世界の仕組み" を学習しているのが特徴です。最大の強みは未来の予測とシミュレーションです。現在の状態から「次に何が起き

    るか」を生成できるため、ロボットが実機に触れる前にシミュレーター内で何百万回も練習したり、自動運転車がまだ起きていない危険シナリオを想定したりすることが可能になります。つ まり世界モデルは、AI に「想像する力」を与える技術です。 世界モデルとは何か 世界モデルとは何か 世界モデルとは何か 「世界がどのように動くか」を学習した生成AIモデル 「世界がどのように動くか」を学習した生成AIモデル 「世界がどのように動くか」を学習した生成AIモデル Cosmos(Nvidia) Genie3(Google DeepMind) Sora(OpenAI) Midjurney HunyuanWorld-Voyager(Tencent) VJepa2(meta) ロボティクスSim2Real 転移 動画生成系物理的⼀貫性 DreamerV3 Decart - Oasis 自動運転シミュレーター インタラクティブ環境生成 インタラクティブ環境生成 インタラクティブ環境生成 ロボティクスSim2Real 転移 マインクラフトの世界生成
  4. 「敵キャラは追いかける」 「障害物は避ける」など、すべて の行動がプログラマーによって事前定義。個性も成長もな く、毎回まったく同じ動きをします。 人間のプレイデータを活用し、報酬を最⼤化する⾏動を ⾃律的に習得。 「うまい動き方」は学習できるようになり ましたが、 「人間らしい迷いや個性」の表現は依然困難で す。

    LLM ・VLM ・VLA が協調し「なぜ行動するか」 「何を⾒て判断 するか」 「どう動くか」の3 層が統合されます。ペルソナ・経 験・記憶を持つ真に人間らしいエージェントを実現します。 パックマン RULE-BASED 1980s 〜 予測可能・実装が簡単 OpenAI GYM REINFORCEMENT 2016 〜 多様な動き・未知環境への適応 MULTI-AI Next 個性・迷い・成長・記憶を持つ 行動 DQN NPCの進化の歴史 NPCの進化の歴史 NPCの進化の歴史 ロジックからニューラルネットワークへの変革 ロジックからニューラルネットワークへの変革 ロジックからニューラルネットワークへの変革 パックマンのゴーストは「if文の塊」だった。強化学習の登場でエージェントは環境から自律的に学習するようになり、LLM・VLM・VLAの連携によって「個性・記憶・成 長」を持つ存在へと進化した。AIの発展がゲームNPCの在り方を根本から変えてきた歴史を追う。 1 Conway's Life Game(1970) 2 Pac-Man(1980) 誕生・生存・死の3ルール グライダーなど複雑構造が 創発 チューリング完全性を証明 テーマ:均一なルール → 複雑性 同一ルール+パラメータ差=個性 モードシステム(追跡/散漫/怯え) テーマ:差異あるルール → 個性 3 The Sims (2000) 4 Dwarf Fortress(2006〜) 地形生成 地質・水・浸食・気候 歴史生成 数千年の文明・戦争・伝 説 心理モデル 性格・記憶・精神健康 Legends Mode 英雄・遺物・因果データ Hunger(空腹) Comfort(快適) Hygiene(清潔) Bladder(排泄) Energy(体力) Fun(楽しみ) Social(社交) Room(環境) ゲームのルールなどは不要 観測データ 報酬 AlphaGo スコアを上げる行動をとれ! img : The Principles Of A.I Alphago / YinChen Wu, Dr. Hubert Bray / Duke Summer Session / 20 july 2017 openai/gym R o u t e k n o w l e d g e ( 手 続 き 的 知 識 ) S u r v e y k n o w l e d g e ( 地 図 的 知 識 ) L a n d m a r k k n o w l e d g e ( 視 覚 ラ ン ド マ ー ク )
  5. MANUAL 1980- プログラミングの時代 ソースコードを書く 3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル

    & AI 生成時代 ソースコード・モデル・ポリゴンを自動⽣成する End2End Next エンドツーエンド生成の時代 拡散モデルで世界をまるごと生成する プログラマーがC++ でロジックを書き、デザイナーがMaya で ポリゴンを一頂点ずつ配置。1 キャラクターの制作に数百時間 を要する職人的なものづくりの時代。 Houdini やCopilot がコードと地形を自動生成し、NeRF やStable Diffusion が3D モデルと背景画像を生み出す。人間は「指示す る側」へと役割が変化した時代。 Cosmos World Model やGameNGen が、アイデアを入力するだけ でゲームの映像・物理・NPC の行動をまるごと拡散モデルで 生成する。 プログラミン グ デザイン サウンド アニメーショ ン アウトプット AI Tools AI Tools AI Tools AI Tools プログラミン グ デザイン サウンド アニメーショ ン アウトプット アウトプット クリエイティブの変化 クリエイティブの変化 クリエイティブの変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化 かつてゲームの世界はプログラマーとデザイナーが一行ずつ、一頂点ずつ手作りしていた。プロシージャル生成がその工数を削減し、今や拡散モデルがテキスト一行から 映像・3Dモデル・NPCの行動まで丸ごと生成する時代へと移行した。
  6. https://nvidia-cosmos.github.io/cosmos-cookbook/index.html エンドツーエンド 記述から生成へ ― 「世界を書く」から「データから世界を引き出す」へのパラダイム転換 世界を引き出すワールドモデル 世界を引き出すワールドモデル 世界を引き出すワールドモデル ワールドモデルとは「次に何が起きるか」を予測する内部モデルである。Cosmos World

    Modelは過去の映像と行動シーケンスを入力として、物理的に整合した未来映像 を拡散モデルで生成する。シミュレーションと現実の橋渡しを担う技術の核心を解説する。 記 述 す る 動画から物理的法則を暗黙的 に学習する 生 成 す る プログラム / デザイン / サウンド / アニメーション 事前に組み込まれたプログラムコンポーネント がリアルタイムにデータを処理 あらかじめキュレーションされた動画から学んだ モデルがリアルタイムにデータを生成 コントロール操作 コントロール操作 ストリーミ ング ストリーミ ング GeforceNow など クラウドサービス を想定 次の瞬間を予測する拡散モデルの仕組み 次の瞬間を予測する拡散モデルの仕組み 次の瞬間を予測する拡散モデルの仕組み Cosmos 拡散モデルを活 用した シミュレーター Genesis IssacSim など 事前に用意した環境で 強化学習を使い AI に学習をさせる 拡散モデル 正拡散(学習データにノイズを加える) : q(x_t | x_{t-1}) = N(x_t; √(1-β_t)·x_{t-1}, β_t·I) x_0 → x_1 → x_2 → ... → x_T ≈ N(0, I) リファレンス 物理的な理解
  7. インターネット上の情報を全て 読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト 満4歳になるまでに起きている時間(1.6万時間)と、視覚から得る データ量を基にしています。視神経の数(200万本、1本=1バイ ト)と、その伝送頻度(毎秒10回)から算出された数字 50倍

    4歳児 「もし高度な文明が、先祖のシミュレーションを完璧に再現できるなら、私 たち自身がシミュレーションの中にいる可能性がある」 by ニック・ボスト ロム LLMだけを使って、MCPで戦車ゲームを実行した例 比較的、正確に敵を撃破しているが、テキスト理解のため、遅い。 また、建物などの複雑な地形があった場合は、破綻してしまう。 AIシミュレーターとは何か AIシミュレーターとは何か AIシミュレーターとは何か シミュレーターとは現実の物理法則や環境をコンピュータ上に再現し、エージェントが安全に試行錯誤できる仮想空間である。Genesisは1万倍速の並列実行を実現し、人 間換算で数十年分の経験を数時間で蓄積することを可能にした。 仮想環境で世界を再現し、経験を高速蓄積する基盤 仮想環境で世界を再現し、経験を高速蓄積する基盤 仮想環境で世界を再現し、経験を高速蓄積する基盤 Stanford, 2023 25エージェントがThe Sims風の 町で生活。記憶・計画・反省の3層アーキテクチ ャが特徴。このジャンルの原点。 エージェントと環境の状態遷移として社会プ ロセスを形式化。10億エージェント超の地球 規模シミュレーションをサポートする設計。 Light Society Smallville 2024 XやRedditをモデルにしたソーシャルメディア シミュレーター。最大100万エージェントを扱え、 情報拡散・集団分極化・ハーディング効果などの現 象を再現。 OASIS: Open Agents Social Interaction Simulations on One Million Agents
  8. 人間の行動モデル 人間の行動モデル 人間の行動モデル 目的・空間・動作、3種の知識が連携する構造 目的・空間・動作、3種の知識が連携する構造 目的・空間・動作、3種の知識が連携する構造 人間が「スーパーへ買い物に行く」という単純な行動の中にも、なぜ行くかという目的、どこを通るかという空間認識、実際に歩き角を曲がるという動作制御の3層が存 在する。MESAはこの3種の知識をLLM・VLM・VLAにそれぞれ対応させて再現する。 スーパーに買い物に行く Route

    Knowledge 手続き的知識 LLM / LangChain Agents Survey Knowledge 地図的知識 VLM / DINOv2 + Segmentation Landmark Knowledge 視覚ランドマーク VLA / Genesis 並列RL ペルソナの目標・動機・⾏動計画を管理。物語の⼀貫性を保ちなが ら次の⾏動を決定する司令塔。 3D 空間・地図・天候を視覚的に分析。 「見たことある場所」を記憶 し、ルート選択に空間コンテキストを提供。 目の前の視覚情報に基づきリアルタイムで⾏動を決定。ペルソナ別 の⾏動ポリシーを強化学習で習得。 「なぜ行く」 「何を買う」 「誰のため」 「どこを通る」 「天気は?」 「距離は?」 「実際に動く」 「角を曲がる」 「店に入る」 大目標 中目標 小目標 施設全体の効率的な運営 「次の荷物を取りに行く」 「障害物を避ける」 午前中に50個の荷物を指定エリアに配置 1 . 名 前 ( 日 本 語 の 一 般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 )
  9. CharacterManager 性格・記憶の一貫 性保持 DialogGenerator キャラ設定に基づく 会話文の生成 Crew Manager 手がかりやヒント の整合性

    例: 「田中さんが特売日に買い物へ行く」というストーリーを生成する際、Character Manager が「田中さんは節約志向」という記憶を保持し、Dialog Generator が「今日は卵 が安いから早く行かなきゃ」という自然な会話を生成する。Consistency Checker が「昨 日の記録では田中さんは卵アレルギーと設定されていた」という矛盾を検出すれば、 Repairer が整合性を自動修正する。 Route Knowledge(手続き的知識) Route Knowledge(手続き的知識) Route Knowledge(手続き的知識) LLM × LangChain マルチエージェントによる計画と物語の生成 LLM × LangChain マルチエージェントによる計画と物語の生成 LLM × LangChain マルチエージェントによる計画と物語の生成 「なぜ行動するか」 「何を目標とするか」という目的と計画を担う層。SupervisorがStory・Character・Dialog・Consistency Checker/Repairerの6専門エージェントを統 括し、ペルソナの個性と物語の一貫性を同時に保ちながら行動計画を生成する。 Supervisor 全体の調整・優先度判断 Story Generator メインストーリー の生成と管理 ConsistencyChecker 物語全体の矛盾検出 ConsistencyRepairer 矛盾の⾃動修復 // ゲームノードの専門化例 this.nodes = { storyGenerator: this._generateStory.bind(this), // ストーリー生成エージェント actionProcessor: this._processAction.bind(this), // アクション処理エージェント sceneUpdater: this._updateScene.bind(this), // シーン更新エージェント clueManager: this._manageClues.bind(this), // 手がかり管理エージェント consistencyChecker: this._checkConsistency.bind(this), // 整合性チェックエージェント consistencyRepairer: this._repairConsistency.bind(this) // 整合性修復エージェント }; Agent Supervisor パターンの実装例
  10. 自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション(画像から物 体をきりわける)を行った例。 空間記憶DB の構造 ポジティブランドマーク 「いつものスーパー」→ 座標+ 高頻度訪問フラグ ネガティブランドマーク 「工事中の道路」→

    座標+ 通⾏不可フラグ+ 期間 初⾒ランドマーク 「初めて⾒る店」→ 座標+ 「未評価」フラグ+ 視覚特徴 カテゴリ記憶 「コンビニ系建物」 「公園」→ クラス+ 出現頻度 Survey Knowledge(地図的知識) Survey Knowledge(地図的知識) Survey Knowledge(地図的知識) VLM × 視覚認識・空間記憶による環境の読み取り VLM × 視覚認識・空間記憶による環境の読み取り VLM × 視覚認識・空間記憶による環境の読み取り 「どこを通るか」 「何が見えているか」という環境認識と空間記憶を担う層。DINOv2が視覚特徴を抽出し、Segmentationモデルが場所をカテゴリ分類する。訪問履歴・ 距離・天候などを空間記憶DBに蓄積し、Route・Landmark Knowledgeへ文脈を提供する。 視覚情報を「見たことがある/ ない」 「どのカテゴリの建物か」といったセグメント情報に変換し、Route Knowledge の計画立案やLandmark Knowledge の行動判断に空間コンテキストを提供します。DINO と言語モデルの 連携方法については、視覚特徴ベクトルとテキスト埋め込みの共通空間への投影(CLIP 的アプローチ)の採用 を検討中です。 DINOv2 特徴量抽出 物体・場所の埋め込み カメラ入力(街の映像) VLM 視覚認識パイプライン SegmentationModel 建物/ 道路/ 人物の領域分 離
  11. 環境 #N ...... ペルソナ 知らない店...... ▼ 学習済みアクションポリシー 「このペルソナはこの状況でこう動く」 好奇心旺盛 報酬設計:

    +10 探索⾏動 +5 新規発⾒ -2 ⽬標未達 几帳⾯ 報酬設計: +10 計画達成 -5 予定外⾏動 +3 時間厳守 慎重派 報酬設計: +10 安全確認 +5 リスク回避 -3 機会損失 環境 ×N… 報酬設計: 任意のペルソナ 任意の報酬設計 並列で同時学習 Genesis 1 万倍速により、1 日のシミュレーションで人間換算27 年分の試⾏経験を蓄積 🔍 好奇心旺盛ペルソナ 行動:入店する  高報酬 +15pt 「新しいものを発見した」という経験 がRoute Knowledge に蓄積。次回はさら に積極的に探索するペルソナへと進 化。 📋 几帳⾯ペルソナ 行動:素通りする  高報酬 +12pt 「計画通りに行動できた」という達成 感が蓄積。⽬標達成の効率を最優先す るペルソナへと進化していく。 ⚠️ 慎重派ペルソナ 行動:立ち⽌まって観察  高報酬 +10pt 「リスクを評価してから行動した」と いう慎重さが蓄積。安全確認を優先す る性格がより強化される。 Landmark Knowledge(視覚ランドマーク) Landmark Knowledge(視覚ランドマーク) Landmark Knowledge(視覚ランドマーク) VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 Genesis 並列シミュレーション環境 VLA Policy Network ペルソナ別行動モデル 各ペルソナの報酬を並列収集 Route Knowledge から「行動指示」受信 実 行 「実際に体を動かす」というリアルタイム行動制御を担う層。ペルソナごとに異なる報酬関数を設計し、Genesis の並列シミュレーションで複数の性 格を同時学習する。好奇心旺盛・几帳⾯・慎重派では、同じ状況でもまったく異なる⾏動ポリシーが獲得される。
  12. Episode 538: ロボット: いつも通りランダ ムに動く ... Step 450: たまたま100%探 索達成!

    → Reward: +10 !!! ロボット: 「!!!この行動 パターンが正解か!」 Neural Network: この450ス テップの行動を記憶 Episode 539: ロボット: 「前回の成功パター ンを真似しよう」 → でも完全には再現できない → Reward: 0 Episode 545: ロボット: 「また試す」 → 偶然また成功! → Reward: +10 Neural Network: 「あ、完全に同じじゃなくて も成功できるんだ」 「共通パターンを見つけよう」 徐々に成功率が上がる: 0% → 5% → 15% → 30% if new_cell_explored: reward += 0.1 # 新しい場所に行ったら褒め る if moved_efficiently: reward += 0.05 # 効率的に動いたら褒める if hit_wall: reward -= 0.1 # 壁にぶつかったら怒る if 全部探索した: reward = 10 else: reward = 0 報酬シェイピングからスパース報酬へ 報酬シェイピングからスパース報酬へ 報酬シェイピングからスパース報酬へ 「ゴールに到達したら+1」というスパース報酬だけでは学習が収束しない。中間目標への到達・探索行動・安全確認など、過程を細かく評価するリワードシェイピングに よって学習効率は劇的に向上する。ペルソナの「個性」は報酬関数の設計そのものから生まれる。 報酬設計がエージェントの「個性」を生み出す 報酬設計がエージェントの「個性」を生み出す 報酬設計がエージェントの「個性」を生み出す ロボット: 「何すればいい の?」 環境: 「100%探索して」 ロボット: 「どうやって?」 環境: 「...」 (報酬0) ロボットの行動: Forward → Turn Left → Forward → Turn Right → ... (完全にランダム) 結果: Coverage: 10-40%くらいで 時間切れ Reward: 0 学習: なし(まだ成功したこ とがない) ロボット: 「わかった!系統的に動けば いいんだ」 発見した戦略(例): 1. 部屋を左から右にスキャン 2. 端に着いたら下に移動 3. 右から左にスキャン 4. これを繰り返す ┌─────────┐ │→→→→↓ │ │←←←←↓ │ │→→→→↓ │ │←←←←◦ │ └─────────┘ 成功率: 50-70% There is no line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在するこ とを示すコード行は存在しません。 バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的に そのようなものは一切ありません。 Sparse Reward Reward Shaping
  13. CosmosPredict 模倣学習 — 人間らし さを直接学ぶ 強化学習 (Reinforcement Learning × Genesis

    ) Cosmos 拡散モデル — 世界の未来を予測・ 生成 CosmosReason CosmosTransfer 環境準備 データ収集 データ分解(カメラ/軌跡) fine tuning 実行 現実世界の揺らぎ サ ロ ゲ ー ト シ ミ ュ レ ー タ ✓ 人間らしさ・個性・くせ △ 未知状況に弱い(分布シフト)→ ②強化学習で未知環境を補完 ✓ 最適行動戦略・未知環境への適応 △ Sim2Realギャップ・報酬ハッキング → ③Cosmos予測でリアル映像に変換 ✓ 稀なシーン対応・学習データ増強 △ 幻覚リスク・事実との乖離 → ①模倣学習でグラウンディング強化 学習ポリシー 学習データの源泉と補完関係 学習データの源泉と補完関係 学習データの源泉と補完関係 模倣・強化・世界モデルが互いの弱点を補う三位⼀体 模倣・強化・世界モデルが互いの弱点を補う三位⼀体  模倣・強化・世界モデルが互いの弱点を補う三位一体 模倣学習が人間らしさの土台を作り、強化学習が未知環境への適応力を鍛え、Cosmos World Modelが稀なシーンの合成データを無限に供給する。3つの手法は弱点が異な るため互いを補完し、Cosmosの合成データが模倣・強化学習を再び強化する正のループを形成する。 データから学習した暗黙的な世界表現 物理法則を数式で記述 Sim2Real Transfer Sim2Real Transfer 学習ポリシーは利用者間で共有可
  14. A model A VLA / PRO (teacher) B model B

    ACT / BC (Student) C model C RF fine-tune D model D Distilled Tiny 「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ 「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ 「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ 模倣・強化・世界モデルが互いの弱点を補う三位一体 模倣・強化・世界モデルが互いの弱点を補う三位一体 模倣・強化・世界モデルが互いの弱点を補う三位一体 模倣学習が人間らしさの土台を作り、強化学習が未知環境への適応力を鍛え、Cosmos World Modelが稀なシーンの合成データを無限に供給する。3つの手法は弱点が異な るため互いを補完し、Cosmosの合成データが模倣・強化学習を再び強化する正のループを形成する。 実行→軌跡収集 BC模倣学習 RL fine-tune 蒸留/圧縮 VLAやRLのTeacherを実際に動 かし、軌跡(obs, action)を 収集。Behavioral Cloningで模 倣学習。 BCで得た良い初期値でRLを スタート。ゼロからのRL (コールドスタート)より 大幅に収束が速い。 RLが発見した高品質な軌跡 を蒸留。小さなモデルにRL の知恵を凝縮。エッジデプ ロイに適した形にする。 ① SLPolicy (Supervised LearningPolicy) プロ棋士16万局·3000万手のデータで模 倣学習。 「人間ならこう打つ」という基 本知識を獲得。ただし人間の限界も引き 継いでしまう。 ② RLPolicy (Reinforcement LearningPolicy) SL Policyを初期値として、自己対戦を繰り返 す強化学習。SLで得た「まともな手」を起点 にするため、ランダムな探索より圧倒的に速 く収束。人間を超える⼿を発⾒できた。 ③ ValueNetwork(蒸留) RL Policyが打った膨大な棋譜から、局面の 勝率を評価するネットワークを学習。RL Policyの知識を「評価関数」という別の形 に圧縮·蒸留した。 GR00T N1 または π0。汎 用的な動作知識を持つ VLA。 LeRobot ACT。Teacherの 軌跡からコンパクトなポ リシーを学習。 Genesis/IsaacLab + SAC。並列シミュレーシ ョンで高速にRL fine- tune。 小さなMLP or Diffusion Policy。ONNXで export してエッジデプロイ。 言 語 ト ー ク ン → ア ク シ ョ ン ︵ 連 続 値 ︶ ア ク シ ョ ン チ ャ ン ク ( 複 数 ス テ ッ プ の 軌 跡 ︶ 単 一 ス テ ッ プ の ⾏ 動 確 率 分 布 ALpha Goの事例
  15. Sim2Real Transfer — 包括的マップ(世界モデル・シミュレーター視点含む) Sim2Real Transfer — 包括的マップ(世界モデル・シミュレーター視点含む) Sim2Real Transfer

    — 包括的マップ(世界モデル・シミュレーター視点含む) MESAの応用範囲はゲームNPCにとどまらない。都市の人流・避難行動のシミュレーション、ロボット行動計画のSim2Real転用、経済行動・投票行動の社会科学研究、医 療・接客トレーニングの代替まで、 「人間らしい⾏動主体」が必要なあらゆる領域で活⽤が⾒込まれる。 ゲームのNPCから都市シミュレーションまで広がる応用領域 ゲームのNPCから都市シミュレーションまで広がる応用領域 ゲームのNPCから都市シミュレーションまで広がる応用領域 実世界データ 物理シミュレーター(Genesis等) 世界モデル(Cosmos等) 学習済ポリシー Sim2Real Gap 1. Domain Randomization (ドメインランダム化) シミュレーション内でパラメータをランダムに変化させ、実世界のばらつきをカバ ーさせる手法。 ランダム化対象の例: 物理パラメータ(摩擦係数、質量、慣性モーメント) 視覚的要素(照明、テクスチャ、背景、カメラ位置) アクチュエータ特性(遅延、ノイズ、PID ゲイン) Cosmosで生成された映像 シミュレーターでアームを実行 2. Domain Adaptation (ドメイン適応) Sim→Real のギャップを学習で埋める手法。 種類内容Visual DAGAN 等でSim 画像をReal 風に変換(CycleGAN 等)Feature-level DA 特徴 空間でSim/Real を近づけるDANN 等Adversarial 学習でドメイン不変特徴を抽出 物理法則を数式で記述 データから学習した暗黙的な世界表現 模倣学習 リアルな物理作用 学習済ポリシー 3. SystemIdentification(システム同定) 実機データからシミュレータのパラメータを推定・キャリブレーション。 BayesSim: ベイズ推定でSim→Realパラメータをマッチング RealDex, DROPOなど:少量の実機データで物理パラメータを同定 「ハードを精密に作り、ソ フトをそれに合わせる」 「ハードの不確かさをソフトが学 習して吸収する」 Domain Randomizationはシミュレーション段階であえて物理パラメータ(重力、摩擦係数、センサー ノイズ、関節剛性など)をランダムに振ることで、 「どんなハードが来ても動ける」ポリシーを作る
  16. ペルソナ設計 行動ロジック、目標をLLMで定 義 VLAゴール設計 ペルソナ別の行動変容⽬標 地図、俯瞰情報 セグメント、エリア構造の把 握 外的要因 気温、時間、天気など

    物理理解の初期設定 通行可能領域、障害物などの定義 LLM 意図、行動計画 お腹がすいた > 料理をしよう > 買い物をしたい VM 視覚認識 スーパーは 赤い看板 VLA 行動変容 ラーメン屋発見、買い物をや める WM 物理理解 道路はここまで、人が通行で きる エージェント(ペルソナ) フィジカルAIでの活用 フィジカルAIでの活用 フィジカルAIでの活用 かつては、すべての事象についてプログラミングによる制御が必要であったが、世界モデルの登場によって、ロボットは行動の予測をすることによって、様々な事象 に対処することができるようになった。 内部モデルによる次の行動を予想する仕組み 内部モデルによる次の行動を予想する仕組み 内部モデルによる次の行動を予想する仕組み 事前定義 モデル A model A VLA / PRO (teacher) B model B ACT / BC (Student) C model C RF fine-tune D model D Distilled Tiny 実行→軌跡収集 BC模倣学習 RL fine-tune 蒸留/圧縮 GR00T N1 または π0。汎用的な動作知 識を持つVLA。 LeRobot ACT。 Teacherの軌跡からコ ンパクトなポリシーを 学習。 Genesis/IsaacLab + SAC。並列シミュレ ーションで高速にRL fine-tune。 小さなMLP or Diffusion Policy。 ONNXで export して エッジデプロイ。 言 語 ト ー ク ン → ア ク シ ョ ン ︵ 連 続 値 ︶ ア ク シ ョ ン チ ャ ン ク ( 複 数 ス テ ッ プ の 軌 跡 ︶ 単 一 ス テ ッ プ の ⾏ 動 確 率 分 布 学習 行動ログ • いつ・どこで・何をしたか • 選択肢と採用した⾏動 • 周辺の環境コンテキスト 報酬履歴 • 各行動で得た報酬値 • 失敗・成功パターン • ペルソナ別の累積スコア 成長履歴 • ペルソナの変化軌跡 • 新しく学んだ行動 • 強化された価値観・優先度 空間記憶 • 訪問場所・経路・頻度 • ポジ/ ネガランドマーク • 未探索エリアのマップ 模倣学習の源泉 模倣学習の源泉
  17. フィジカルAIでの活用 フィジカルAIでの活用 フィジカルAIでの活用 かつては、すべての事象についてプログラミングによる制御が必要であったが、世界モデルの登場によって、ロボットは行動の予測をすることによって、様々な事象 に対処することができるようになった。 内部モデルによる次の行動を予想する仕組み 内部モデルによる次の行動を予想する仕組み 内部モデルによる次の行動を予想する仕組み ドアノブ を回せば

    扉が開く だろうと いう予測 部屋と物 理法則に ついての 「内部モ デル」 全てをプ ログラミ ングする ことは不 可能 TESLA FSV V12 バージョン11の明示的な制御スタックにあるような、ラウンド アバウトが存在することを示すコード行は存在しません。 バージョン11には30万行以上のC++コードがありますが、バー ジョン12には基本的にそのようなものは一切ありません。 視覚エンコーダー 言語エンコーダー 行動エンコーダー 物理状態エンコーダー マルチモーダルエ ンコーダー 音声エンコーダー 部屋と物理法則についての「内部モデル」
  18. 模倣学習の源泉 空間・視覚記憶 行動・動作学習 成長の実体 予測・合成・出力 計画・物語・個性 デモンストレーション・行動ログ LLM / LangChain

    Agents VLM / DINOv2 + SAM VLA / Genesis 並列RL 統合レイヤー・行動ログ蓄積 拡散モデル → 動画生成 → データ 還流 Survey Knowledge Landmark Knowledge ONNX 共通基盤 / 経験メモリDB Cosmos World Model Route Knowledge 人間によるインプット 経験メモリDB — エージェントが「育つ」仕組みの核心 行動ログ • いつ・どこで・何をしたか • 選択肢と採用した⾏動 • 周辺の環境コンテキスト 報酬履歴 • 各行動で得た報酬値 • 失敗・成功パターン • ペルソナ別の累積スコア 成長履歴 • ペルソナの変化軌跡 • 新しく学んだ行動 • 強化された価値観・優先度 空間記憶 • 訪問場所・経路・頻度 • ポジ/ ネガランドマーク • 未探索エリアのマップ MESAが実現するエージェントの一生 MESAが実現するエージェントの一生 MESAが実現するエージェントの一生 インプットから経験蓄積・成長までの完全なサイクル インプットから経験蓄積・成長までの完全なサイクル インプットから経験蓄積・成長までの完全なサイクル ペルソナ定義を入力とし、Route KnowledgeがLLMで計画を立て、Survey KnowledgeがVLMで環境を認識し、Landmark KnowledgeがVLAで体を動かす。各行動は経験メ モリDBに蓄積され次の判断に反映される。Cosmosが動画として出力し、合成データが学習へ還流する一連のサイクルを示す 学習済ポリシー. SIm2Realギャップを埋める