セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門

Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門セルから世界へ
Fumitoshi Ogata 「世界をルールで記述できるか？」――この問いは、コンピュータが生まれた瞬間から研究者たちを魅了し続けてきました。本書はその問いを軸に、シミュレーションの歴史と技術的発展を一冊にまとめた入門書です。 1970年代のLife Gameにおける「創発」の発見から、パックマンのルールベースAI、ウルティマオンラインで生まれたリアルな社会、Dwarf Fortressの世界丸ごと生成、そして AIが世界の動き方そのものを学習するWorld Modelまで。シミュレーションの概念は時代とともに進化し、今やAI研究・ロボティクス・コンテンツ生成の基盤となっています。本書はゲーム・数学・AI研究という三つの視点を横断しながら、「シミュレーションとは何か」「なぜ人は世界を模倣しようとするのか」を問い直します。プログラマーからゲームデザイナー、AI研究者まで、幅広い読者に向けた一冊です。

ライフゲーム（Conway's Game of Life）は、1970年にイギリスの数学者ジョン・ホートン・コンウェイが考案したセルオートマトンです。「ゲーム」とついていますが、プレイヤーは存在せず、初期状態を設定するだけで自動的に進行します。最初に発見されたグライダー (glider)
は最小の移動物体です。さらに、グライダー二機の衝突で池ができ、池とグライダーが衝突するとボートに変化し、ボートにグライダーが衝突するとシャトルに変化していきます。

世界モデルとは、「世界がどう動くか」を学習したAI モデルです。通常の生成AI は入力と出力のパターンを覚えるだけですが、世界モデルはそれを超えて物理法則・因果関係・時間の流れを内部に持ちます。「ボールを投げたら放物線を描く」「ドアを開けたら向こうが見える」といった、人間が当たり前に知っている" 世界の仕組み" を学習しているのが特徴です。最大の強みは未来の予測とシミュレーションです。現在の状態から「次に何が起き
るか」を生成できるため、ロボットが実機に触れる前にシミュレーター内で何百万回も練習したり、自動運転車がまだ起きていない危険シナリオを想定したりすることが可能になります。つまり世界モデルは、AI に「想像する力」を与える技術です。世界モデルとは何か世界モデルとは何か世界モデルとは何か「世界がどのように動くか」を学習した生成AIモデル「世界がどのように動くか」を学習した生成AIモデル「世界がどのように動くか」を学習した生成AIモデル Cosmos（Nvidia) Genie3（Google DeepMind） Sora(OpenAI) Midjurney HunyuanWorld-Voyager(Tencent) VJepa２(meta) ロボティクスSim2Real 転移動画生成系物理的⼀貫性 DreamerV3 Decart - Oasis 自動運転シミュレーターインタラクティブ環境生成インタラクティブ環境生成インタラクティブ環境生成ロボティクスSim2Real 転移マインクラフトの世界生成

世界モデルとは、「世界がどう動くか」を学習したAI モデルです。通常の生成AI は入力と出力のパターンを覚えるだけですが、世界モデルはそれを超えて物理法則・因果関係・時間の流れを内部に持ちます。「ボールを投げたら放物線を描く」「ドアを開けたら向こうが見える」といった、人間が当たり前に知っている" 世界の仕組み" を学習しているのが特徴です。最大の強みは未来の予測とシミュレーションです。現在の状態から「次に何が起き
るか」を生成できるため、ロボットが実機に触れる前にシミュレーター内で何百万回も練習したり、自動運転車がまだ起きていない危険シナリオを想定したりすることが可能になります。つまり世界モデルは、AI に「想像する力」を与える技術です。世界モデルのベースとなる拡散モデル世界モデルのベースとなる拡散モデル世界モデルのベースとなる拡散モデル「世界がどのように動くか」を学習した生成AIモデル「世界がどのように動くか」を学習した生成AIモデル「世界がどのように動くか」を学習した生成AIモデル正拡散（学習データにノイズを加える）： q(x_t | x_{t-1}) = N(x_t; √(1-β_t)·x_{t-1}, β_t·I) x_0 → x_1 → x_2 → ... → x_T ≈ N(0, I) リファレンスによる制御構造の構築拡散モデルの基礎　（ノイズから画像、映像を生成）物理演算など世界のルールを再現動画をもとに合成データを生成

https://nvidia-cosmos.github.io/cosmos-cookbook/index.html エンドツーエンド記述から生成へ ― 「世界を書く」から「データから世界を引き出す」へのパラダイム転換世界を引き出すワールドモデル世界を引き出すワールドモデル世界を引き出すワールドモデルワールドモデルとは「次に何が起きるか」を予測する内部モデルである。Cosmos World
Modelは過去の映像と行動シーケンスを入力として、物理的に整合した未来映像を拡散モデルで生成する。シミュレーションと現実の橋渡しを担う技術の核心を解説する。記述する動画から物理的法則を暗黙的に学習する生成するプログラム / デザイン / サウンド / アニメーション事前に組み込まれたプログラムコンポーネントがリアルタイムにデータを処理あらかじめキュレーションされた動画から学んだモデルがリアルタイムにデータを生成コントロール操作コントロール操作ストリーミングストリーミング GeforceNow などクラウドサービスを想定次の瞬間を予測する拡散モデルの仕組み次の瞬間を予測する拡散モデルの仕組み次の瞬間を予測する拡散モデルの仕組み

インターネット上の情報を全て読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト満4歳になるまでに起きている時間（1.6万時間）と、視覚から得るデータ量を基にしています。視神経の数（200万本、1本＝1バイト）と、その伝送頻度（毎秒10回）から算出された数字５０倍
4歳児「もし高度な文明が、先祖のシミュレーションを完璧に再現できるなら、私たち自身がシミュレーションの中にいる可能性がある」 by ニック・ボストロム LLMだけを使って、MCPで戦車ゲームを実行した例比較的、正確に敵を撃破しているが、テキスト理解のため、遅い。また、建物などの複雑な地形があった場合は、破綻してしまう。 AIシミュレーターとは何か AIシミュレーターとは何か AIシミュレーターとは何かシミュレーターとは現実の物理法則や環境をコンピュータ上に再現し、エージェントが安全に試行錯誤できる仮想空間である。Genesisは1万倍速の並列実行を実現し、人間換算で数十年分の経験を数時間で蓄積することを可能にした。仮想環境で世界を再現し、経験を高速蓄積する基盤仮想環境で世界を再現し、経験を高速蓄積する基盤仮想環境で世界を再現し、経験を高速蓄積する基盤 Stanford, 2023 25エージェントがThe Sims風の町で生活。記憶・計画・反省の3層アーキテクチャが特徴。このジャンルの原点。エージェントと環境の状態遷移として社会プロセスを形式化。10億エージェント超の地球規模シミュレーションをサポートする設計。 Light Society Smallville 2024 XやRedditをモデルにしたソーシャルメディアシミュレーター。最大100万エージェントを扱え、情報拡散・集団分極化・ハーディング効果などの現象を再現。 OASIS: Open Agents Social Interaction Simulations on One Million Agents

フィジカルAIでの活用フィジカルAIでの活用フィジカルAIでの活用かつては、すべての事象についてプログラミングによる制御が必要であったが、世界モデルの登場によって、ロボットは行動の予測をすることによって、様々な事象に対処することができるようになった。内部モデルによる次の行動を予想する仕組み内部モデルによる次の行動を予想する仕組み内部モデルによる次の行動を予想する仕組みドアノブを回せば
扉が開くだろうという予測部屋と物理法則についての「内部モデル」全てをプログラミングすることは不可能 TESLA FSV V12 バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。視覚エンコーダー言語エンコーダー行動エンコーダー物理状態エンコーダーマルチモーダルエンコーダー音声エンコーダー部屋と物理法則についての「内部モデル」

「敵キャラは追いかける」「障害物は避ける」など、すべての行動がプログラマーによって事前定義。個性も成長もなく、毎回まったく同じ動きをします。人間のプレイデータを活用し、報酬を最⼤化する⾏動を⾃律的に習得。「うまい動き方」は学習できるようになりましたが、「人間らしい迷いや個性」の表現は依然困難です。
LLM ・VLM ・VLA が協調し「なぜ行動するか」「何を⾒て判断するか」「どう動くか」の3 層が統合されます。ペルソナ・経験・記憶を持つ真に人間らしいエージェントを実現します。パックマン RULE-BASED 1980s 〜予測可能・実装が簡単 OpenAI GYM REINFORCEMENT 2016 〜多様な動き・未知環境への適応 MULTI-AI Next 個性・迷い・成長・記憶を持つ行動 DQN NPCの進化の歴史 NPCの進化の歴史 NPCの進化の歴史ロジックからニューラルネットワークへの変革ロジックからニューラルネットワークへの変革ロジックからニューラルネットワークへの変革パックマンのゴーストは「if文の塊」だった。強化学習の登場でエージェントは環境から自律的に学習するようになり、LLM・VLM・VLAの連携によって「個性・記憶・成長」を持つ存在へと進化した。AIの発展がゲームNPCの在り方を根本から変えてきた歴史を追う。 1 Conway's Life Game（1970） 2 Pac-Man（1980）誕生・生存・死の3ルールグライダーなど複雑構造が創発チューリング完全性を証明テーマ：均一なルール → 複雑性同一ルール＋パラメータ差＝個性モードシステム（追跡/散漫/怯え）テーマ：差異あるルール → 個性 3 The Sims (2000) 4 Dwarf Fortress（2006〜）地形生成地質・水・浸食・気候歴史生成数千年の文明・戦争・伝説心理モデル性格・記憶・精神健康 Legends Mode 英雄・遺物・因果データ Hunger（空腹） Comfort（快適） Hygiene（清潔） Bladder（排泄） Energy（体力） Fun（楽しみ） Social（社交） Room（環境）ゲームのルールなどは不要観測データ報酬 AlphaGo スコアを上げる行動をとれ！ img : The Principles Of A.I Alphago / YinChen Wu, Dr. Hubert Bray / Duke Summer Session / 20 july 2017 openai/gym R o u t e k n o w l e d g e ( 手続き的知識 ) S u r v e y k n o w l e d g e ( 地図的知識 ) L a n d m a r k k n o w l e d g e ( 視覚ランドマーク )

MANUAL 1980- プログラミングの時代ソースコードを書く　3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル
& AI 生成時代ソースコード・モデル・ポリゴンを自動⽣成する End2End Next エンドツーエンド生成の時代拡散モデルで世界をまるごと生成するプログラマーがC++ でロジックを書き、デザイナーがMaya でポリゴンを一頂点ずつ配置。1 キャラクターの制作に数百時間を要する職人的なものづくりの時代。 Houdini やCopilot がコードと地形を自動生成し、NeRF やStable Diffusion が3D モデルと背景画像を生み出す。人間は「指示する側」へと役割が変化した時代。 Cosmos World Model やGameNGen が、アイデアを入力するだけでゲームの映像・物理・NPC の行動をまるごと拡散モデルで生成する。プログラミングデザインサウンドアニメーションアウトプット AI Tools AI Tools AI Tools AI Tools プログラミングデザインサウンドアニメーションアウトプットアウトプットクリエイティブの変化クリエイティブの変化クリエイティブの変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化 CGから拡散モデル、そしてエンドツーエンドへ、ものづくりの形の変化かつてゲームの世界はプログラマーとデザイナーが一行ずつ、一頂点ずつ手作りしていた。プロシージャル生成がその工数を削減し、今や拡散モデルがテキスト一行から映像・3Dモデル・NPCの行動まで丸ごと生成する時代へと移行した。

人間の行動モデル人間の行動モデル人間の行動モデル目的・空間・動作、3種の知識が連携する構造目的・空間・動作、3種の知識が連携する構造目的・空間・動作、3種の知識が連携する構造人間が「スーパーへ買い物に行く」という単純な行動の中にも、なぜ行くかという目的、どこを通るかという空間認識、実際に歩き角を曲がるという動作制御の3層が存在する。MESAはこの3種の知識をLLM・VLM・VLAにそれぞれ対応させて再現する。スーパーに買い物に行く Route
Knowledge 手続き的知識 LLM / LangChain Agents Survey Knowledge 地図的知識 VLM / DINOv2 + Segmentation Landmark Knowledge 視覚ランドマーク VLA / Genesis 並列RL ペルソナの目標・動機・⾏動計画を管理。物語の⼀貫性を保ちながら次の⾏動を決定する司令塔。 3D 空間・地図・天候を視覚的に分析。「見たことある場所」を記憶し、ルート選択に空間コンテキストを提供。目の前の視覚情報に基づきリアルタイムで⾏動を決定。ペルソナ別の⾏動ポリシーを強化学習で習得。「なぜ行く」「何を買う」「誰のため」「どこを通る」「天気は？」「距離は？」「実際に動く」「角を曲がる」「店に入る」大目標中目標小目標施設全体の効率的な運営「次の荷物を取りに行く」「障害物を避ける」午前中に50個の荷物を指定エリアに配置 1 . 名前（日本語の一般的な苗字と名前の組み合わせ、例：田中太郎、佐藤花子など） 2 . 年齢（ 2 0 - 7 0 歳の範囲の整数） 3 . 出身地（日本の都道府県、または海外の国名） 4 . 学歴（最終学歴、大学名や専門学校名など具体的に） 5 . 職業経歴（過去の仕事や現在の職業、職種を具体的に） 6 . 趣味・嗜好（ 3 - 5 個の具体的な趣味） 7 . 宗教・信仰（無宗教、仏教、キリスト教、神道など、または具体的な宗派） 8 . 家族構成（配偶者の有無、子供の有無、同居家族など） 9 . 性格の詳細説明（ 3 - 4 文程度で詳しく） 1 0 . 性格特性（ 0 - 1 の範囲の数値、小数点以下 2 桁まで）： - 社交性（ s o c i a b i l i t y ） - 活動的さ（ e n e r g y ） - ルーチン重視度（ r o u t i n e ） - 好奇心（ c u r i o s i t y ） - 共感性（ e m p a t h y ） - 責任感（ r e s p o n s i b i l i t y ） - 創造性（ c r e a t i v i t y ） - 論理的思考（ l o g i c ） 1 1 . 価値観・信念（人生観や大切にしている価値観） 1 2 . 目標・夢（将来の目標や夢） 1 3 . 日課（各時間帯で 2 つまでの場所）

CharacterManager 性格・記憶の一貫性保持 DialogGenerator キャラ設定に基づく会話文の生成 Crew Manager 手がかりやヒントの整合性
例：「田中さんが特売日に買い物へ行く」というストーリーを生成する際、Character Manager が「田中さんは節約志向」という記憶を保持し、Dialog Generator が「今日は卵が安いから早く行かなきゃ」という自然な会話を生成する。Consistency Checker が「昨日の記録では田中さんは卵アレルギーと設定されていた」という矛盾を検出すれば、 Repairer が整合性を自動修正する。 Route Knowledge（手続き的知識） Route Knowledge（手続き的知識） Route Knowledge（手続き的知識） LLM × LangChain マルチエージェントによる計画と物語の生成 LLM × LangChain マルチエージェントによる計画と物語の生成 LLM × LangChain マルチエージェントによる計画と物語の生成「なぜ行動するか」「何を目標とするか」という目的と計画を担う層。SupervisorがStory・Character・Dialog・Consistency Checker/Repairerの6専門エージェントを統括し、ペルソナの個性と物語の一貫性を同時に保ちながら行動計画を生成する。 Supervisor 全体の調整・優先度判断 Story Generator メインストーリーの生成と管理 ConsistencyChecker 物語全体の矛盾検出 ConsistencyRepairer 矛盾の⾃動修復 // ゲームノードの専門化例 this.nodes = { storyGenerator: this._generateStory.bind(this), // ストーリー生成エージェント actionProcessor: this._processAction.bind(this), // アクション処理エージェント sceneUpdater: this._updateScene.bind(this), // シーン更新エージェント clueManager: this._manageClues.bind(this), // 手がかり管理エージェント consistencyChecker: this._checkConsistency.bind(this), // 整合性チェックエージェント consistencyRepairer: this._repairConsistency.bind(this) // 整合性修復エージェント }; Agent Supervisor パターンの実装例

自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション（画像から物体をきりわける）を行った例。空間記憶DB の構造ポジティブランドマーク「いつものスーパー」→ 座標+ 高頻度訪問フラグネガティブランドマーク「工事中の道路」→
座標+ 通⾏不可フラグ+ 期間初見ランドマーク「初めて見る店」→ 座標+ 「未評価」フラグ+ 視覚特徴カテゴリ記憶「コンビニ系建物」「公園」→ クラス+ 出現頻度 Survey Knowledge（地図的知識） Survey Knowledge（地図的知識） Survey Knowledge（地図的知識） VLM × 視覚認識・空間記憶による環境の読み取り VLM × 視覚認識・空間記憶による環境の読み取り VLM × 視覚認識・空間記憶による環境の読み取り「どこを通るか」「何が見えているか」という環境認識と空間記憶を担う層。DINOv2が視覚特徴を抽出し、Segmentationモデルが場所をカテゴリ分類する。訪問履歴・距離・天候などを空間記憶DBに蓄積し、Route・Landmark Knowledgeへ文脈を提供する。視覚情報を「見たことがある/ ない」「どのカテゴリの建物か」といったセグメント情報に変換し、Route Knowledge の計画立案やLandmark Knowledge の行動判断に空間コンテキストを提供します。DINO と言語モデルの連携方法については、視覚特徴ベクトルとテキスト埋め込みの共通空間への投影（CLIP 的アプローチ）の採用を検討中です。 DINOv2 特徴量抽出物体・場所の埋め込みカメラ入力（街の映像） VLM 視覚認識パイプライン SegmentationModel 建物/ 道路/ 人物の領域分離

環境 #N ...... ペルソナ知らない店...... ▼ 学習済みアクションポリシー「このペルソナはこの状況でこう動く」好奇心旺盛報酬設計：
+10 探索⾏動 +5 新規発見 -2 目標未達几帳⾯報酬設計： +10 計画達成 -5 予定外行動 +3 時間厳守慎重派報酬設計： +10 安全確認 +5 リスク回避 -3 機会損失環境 ×N… 報酬設計：任意のペルソナ任意の報酬設計並列で同時学習 Genesis 1 万倍速により、1 日のシミュレーションで人間換算27 年分の試⾏経験を蓄積 🔍 好奇心旺盛ペルソナ行動：入店する高報酬 +15pt 「新しいものを発見した」という経験がRoute Knowledge に蓄積。次回はさらに積極的に探索するペルソナへと進化。 📋 几帳⾯ペルソナ行動：素通りする高報酬 +12pt 「計画通りに行動できた」という達成感が蓄積。⽬標達成の効率を最優先するペルソナへと進化していく。 ⚠️ 慎重派ペルソナ行動：立ち⽌まって観察高報酬 +10pt 「リスクを評価してから行動した」という慎重さが蓄積。安全確認を優先する性格がより強化される。 Landmark Knowledge（視覚ランドマーク） Landmark Knowledge（視覚ランドマーク） Landmark Knowledge（視覚ランドマーク） VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 VLA × Genesis 並列強化学習によるペルソナ別行動ポリシーの獲得 Genesis 並列シミュレーション環境 VLA Policy Network ペルソナ別行動モデル各ペルソナの報酬を並列収集 Route Knowledge から「行動指示」受信実行「実際に体を動かす」というリアルタイム行動制御を担う層。ペルソナごとに異なる報酬関数を設計し、Genesis の並列シミュレーションで複数の性格を同時学習する。好奇心旺盛・几帳⾯・慎重派では、同じ状況でもまったく異なる⾏動ポリシーが獲得される。

if new_cell_explored: reward += 0.1 # 新しい場所に行ったら褒める if moved_efficiently: reward
+= 0.05 # 効率的に動いたら褒める if hit_wall: reward -= 0.1 # 壁にぶつかったら怒る if 全部探索した: reward = 10 else: reward = 0 報酬シェイピングからスパース報酬へ報酬シェイピングからスパース報酬へ報酬シェイピングからスパース報酬へ「ゴールに到達したら+1」というスパース報酬だけでは学習が収束しない。中間目標への到達・探索行動・安全確認など、過程を細かく評価するリワードシェイピングによって学習効率は劇的に向上する。ペルソナの「個性」は報酬関数の設計そのものから生まれる。報酬設計がエージェントの「個性」を生み出す報酬設計がエージェントの「個性」を生み出す報酬設計がエージェントの「個性」を生み出す発見した戦略（例）: 1. 部屋を左から右にスキャン 2. 端に着いたら下に移動 3. 右から左にスキャン 4. これを繰り返す ┌─────────┐ │→→→→↓ │ │←←←←↓ │ │→→→→↓ │ │←←←←◦ │ └─────────┘ 成功率: 50-70% There is no line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。 Sparse Reward Reward Shaping 「何すればいいの？」 100%探索して Forward → Turn Left → Forward → Turn Right → ... (完全にランダム) Coverage: 10-40% くらいで時間切れ Reward: 0 学習: なし（まだ成功したことがない）いつも通りランダムに動く Episode 538: Step 450: たまたま100%探索達成！ → Reward: +10 !!! ！！！この行動パターンが正解か！ Neural Network: この450 ステップの行動を記憶「前回の成功パターンを真似しよう」 → でも完全には再現できない → Reward: 0 「前回の成功パターンを真似しよう」 Episode 539: Episode 545: ロボット: 「また試す」 → 偶然また成功！ → Reward: +10 共通パターンを見つけよう徐々に成功率が上がる: 0% → 5% → 15% → 30% 「わかった！系統的に動けばいいんだ」 Episode 600: Episode 1:

Data Pyramid for Robot Learning YouTubeなどインターネット上のデータクローリング災害災害などのイレギュラーデータは
少ない収集コスト高直接転移可能模倣学習 — 人間らしさを直接学ぶ強化学習（Reinforcement Learning × Genesis ） Cosmos 拡散モデル — 世界の未来を予測・生成 original Physical Intelligence モデル「π 0.7」 [ロボットアーム動画のフレーム]├─ アームの位置 (x=50, y=100)├─ アームの角度 (30度)├─ グリッパーの状態 (開いている)├─ 動きの速度 (速い)├─ 動きの方向 (右上)├─ 背景 (テーブルの上)├─ 物体との距離 (10cm)└─ タスクの文脈 (物を掴もうとしている) cosmos predict cosmos reason cosmos transfer REAL ROBOT DATA Synthetic Data Web Data シミュレーターで生成可能 Reality Gap 都市データ道路のデータはあるが歩道のデータは少ないオフィスなど屋内プライバシー、セキュリティの問題で、屋内のデータは少ない学習データのデータピラミッドと補完する世界モデル学習データのデータピラミッドと補完する世界モデル学習データのデータピラミッドと補完する世界モデル模倣・強化・世界モデルが互いの弱点を補う三位一体模倣・強化・世界モデルが互いの弱点を補う三位一体模倣・強化・世界モデルが互いの弱点を補う三位一体模倣学習が人間らしさの土台を作り、強化学習が未知環境への適応力を鍛え、Cosmos World Modelが稀なシーンの合成データを無限に供給する。3つの手法は弱点が異なるため互いを補完し、Cosmosの合成データが模倣・強化学習を再び強化する正のループを形成する。活躍の場を広げるために、ロボットは工場の外に出ていくデータの時間を増やすデータのパターンを増やすテキストで意味を取り出す座標を取得する収集コストの高いオリジナルデータロボットは単に「見た動作を再生している」のではなく、compositional generalization ースキルの組み合わせによる新規課題への対応が可能「エアフライヤーを閉じる」家庭内データ＋ DROIDデータセット上のFrankaアームのデータ　＝＞　今まで見たことのないエアフライヤーでサツマイモを調理するタスクを生成

2. データ収集・時刻同期センサー・カメラ・音声のタイムスタンプを揃える 1. 環境構築（コンテナ化） CUDA
/ Cosmos / 依存関係を箱に封じる 3. ノイズ除去・前処理異常値除去・欠損補完・スケール正規化 4. モダリティ正規化音・座標・温度を学習しやすい形に変換 5. トークナイザー設計・学習 VQ-VAE等で意味単位にトークン化 6. 収束確認・品質評価小規模学習で表現崩壊がないか検証 7. モデル本学習トークン列をモデルに流して学習データ不足品質不足精度不足環境構築の難しさ Cosmos Isaac Sim Docker NVIDIA Toolkit scipy.signal PyOD pandas Great Expectations 音：librosa noisereduce 座標：Open3D transforms3d 温度・センサー：tsfresh stumpy 画像・動画：OpenCV Albumentations VQ-VAE（PyTorch実装） scikit-learn FAST（Physical Intelligence） BPE（HuggingFace tokenizers） Weights & Biases MLflow TensorBoard CUDA cuDNN PyTorch Transformer FlashAttention baitsandbytes モダリティ特化トークナイザーのフルパイプラインモダリティ特化トークナイザーのフルパイプラインモダリティ特化トークナイザーのフルパイプライン生データ収集からモデル学習までの7ステップと、データ不足・品質・モダリティ追加・学習結果の4種類のフィードバックループを統合した図。ループを安定して回すためのデータ管理・実験管理・自動化・ドメイン知識の支援基盤も含む。データ不足を検知したら追加取得（→ ステップ1へ戻る）収束しない・精度が低い → センサー追加・収録時間を延長品質不足なら前処理に戻る（→ ステップ3〜4へ戻る）ノイズ閾値・正規化手法を再調整 → ステップ3〜4に差し戻し新モダリティの追加（→ ステップ1へ戻る）既存データでは表現できない現象を発見例：音だけでは足りず振動センサーが必要 → 専用トークナイザーを新たに設計別角度のモダリティ追加（→ ステップ4 へ戻る）同じ現象を異なる視点で捉え直す例：正面カメラ → 側面・俯瞰も追加 → トークナイザーを拡張・再設計学習結果から再評価（→ ステップ5へ戻る）モデル精度が低ければトークン粒度を見直す → ステップ5に差し戻し視覚tokenizer 言語tokenizer 行動tokenizer 物理状態 tokenizer マルチモーダル tokenizer 音声tokenizer モダリティに合わせた専用トークナイザーテキストは「単語や文字の境界」で自然に切れますが、物理世界のデータにはそういう自然な境界がありません。音声なら波形をどの粒度で切るか、動画なら時間軸と空間軸をどう圧縮するか、ロボットアームの関節角度なら連続値をどう量子化するか、それぞれ「何が意味のある単位か」が全く異なります。

工場アーム — 関節角・⼒覚製造ラインで組み⽴て・溶接・ピッキングを担う。配送ロボット — LiDAR・GPS ⾃律⾛⾏で荷物を届ける。障害物
回避と最適経路を継続的に改善ヒューマノイド — 映像・音声⼈型⼆⾜歩⾏ロボット。物体認識・⾔語理解・を⼈間と同じ空間で学習農業ドローン — 土壌・気象圃場を飛行しながら生育状況を監視。収量予測と農薬散布タイミングを最適化医療介護 — 体温・動作バイタルと⾝体動作を計測。転倒予測・服薬⽀援・リハビリ補助の精度を⾼める。自動運転車 — カメラ・Radar 歩行者・⾞両・信号を検出。突発的な状況への対応能⼒を学習する。建設重機 — 振動・GPS 掘削・施⼯現場で稼働。地盤状況の把握と施⼯精度の⾃動化を学習する。養殖管理ロボット — 水温・溶存酸素・映像。⿂の⽣育状況と⽔質を監視し、給餌タイミングと量を最適化する。インフラ検査 — 熱画像・超音波橋梁・配管・送電線を点検。温度異常と内部⻲裂・腐⾷の検出能⼒を学習する。物流倉庫 — 重量・映像棚⼊れ・ピッキング・仕分けを担う。荷姿認識とバーコード読み取り災害現場探索ロボット — 熱画像・音波・CO₂センサー。地震・火災後の瓦礫内を進入し、要救助者の位置を特定する。調理ロボット — 温度・触覚⾷材の調理・盛り付けを担う。⾷感や熟度を判断しながら繊細な動作を学習する。義肢・装着型 — 筋電・慣性使⽤者の動作意図を筋電で読み取り、慣性センサーで姿勢を補正清掃ロボット — 汚れ・距離汚れセンサーで清掃箇所を判断し、障害物を回避しながら効率的な経路を学習する。工場アーム配送ロボットヒューマノイド農業ドローン医療介護自動運転車建設重機養殖管理ロボットインフラ検査物流倉庫災害現場探索ロボット調理ロボット義肢・装着型清掃ロボットノイズ除去・前処理 scipy / PyOD / pandas モダリティ正規化 librosa / Open3D /tsfresh トークナイザー学習 VQ-VAE / FAST モデル更新・収束確認・配布準備 W&B/MLflow/Cosmos/IsaacSim 「共に学ぶ」インフラ — プリインストール型フィードバックループ「共に学ぶ」インフラ — プリインストール型フィードバックループ「共に学ぶ」インフラ — プリインストール型フィードバックループ機種が増えるほどデータの多様性が上がり、モデルが強くなり、さらに参加機種が増えるというフライホイールが回る構造になっている。この仕組みを標準インフラとして提供することで、個々のメーカーが独自にAIを開発するコストを⼤幅に下げながら、ロボット産業全体の知能を底上げできる可能性を持つ。改善されたモデルを全機種に配布様々な機種・環境からのデータ収集ロボットは単に「見た動作を再生している」のではなく、compositional generalization ースキルの組み合わせによる新規課題への対応が可能「エアフライヤーを閉じる」家庭内データ＋ DROIDデータセット上のFrankaアームのデータ　＝＞　今まで見たことのないエアフライヤーでサツマイモを調理するタスクを生成

CosmosPredict 模倣学習 — 人間らしさを直接学ぶ強化学習（Reinforcement Learning × Genesis
） Cosmos 拡散モデル — 世界の未来を予測・生成 CosmosReason CosmosTransfer 環境準備データ収集データ分解(カメラ/軌跡） fine tuning 実行現実世界の揺らぎサロゲートシミュレータ人間らしさ・個性・くせ △ 未知状況に弱い（分布シフト）→ ②強化学習で未知環境を補完最適行動戦略・未知環境への適応 △ Sim2Realギャップ・報酬ハッキング → ③Cosmos予測でリアル映像に変換稀なシーン対応・学習データ増強 △ 幻覚リスク・事実との乖離 → ①模倣学習でグラウンディング強化学習ポリシー学習データの源泉と補完関係学習データの源泉と補完関係学習データの源泉と補完関係模倣・強化・世界モデルが互いの弱点を補う三位⼀体模倣・強化・世界モデルが互いの弱点を補う三位⼀体模倣・強化・世界モデルが互いの弱点を補う三位一体模倣学習が人間らしさの土台を作り、強化学習が未知環境への適応力を鍛え、Cosmos World Modelが稀なシーンの合成データを無限に供給する。3つの手法は弱点が異なるため互いを補完し、Cosmosの合成データが模倣・強化学習を再び強化する正のループを形成する。データから学習した暗黙的な世界表現物理法則を数式で記述 Sim2Real Transfer Sim2Real Transfer 学習ポリシーは利用者間で共有可

A model A VLA / PRO (teacher) B model B
ACT / BC (Student) C model C RF fine-tune D model D Distilled Tiny 「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ「蒸留チェーン」と「クロスアルゴリズム知識転送」の組み合わせ模倣・強化・世界モデルが互いの弱点を補う三位一体模倣・強化・世界モデルが互いの弱点を補う三位一体模倣・強化・世界モデルが互いの弱点を補う三位一体模倣学習が人間らしさの土台を作り、強化学習が未知環境への適応力を鍛え、Cosmos World Modelが稀なシーンの合成データを無限に供給する。3つの手法は弱点が異なるため互いを補完し、Cosmosの合成データが模倣・強化学習を再び強化する正のループを形成する。実行 → 軌跡収集 B C 模倣学習 R L f i n e - t u n e 蒸留 / 圧縮 VLAやRLのTeacherを実際に動かし、軌跡（obs, action）を収集。 Behavioral Cloningで模倣学習。 BCで得た良い初期値でRLをスタート。ゼロからのRL（コールドスタート）より大幅に収束が速い。 RLが発見した高品質な軌跡を蒸留。小さなモデルにRLの知恵を凝縮。エッジデプロイに適した形にする。 ① SLPolicy （Supervised LearningPolicy）プロ棋士16万局·3000万手のデータで模倣学習。「人間ならこう打つ」という基本知識を獲得。ただし人間の限界も引き継いでしまう。 ② RLPolicy （Reinforcement LearningPolicy） SL Policyを初期値として、自己対戦を繰り返す強化学習。SLで得た「まともな手」を起点にするため、ランダムな探索より圧倒的に速く収束。人間を超える⼿を発⾒できた。 ③ ValueNetwork（蒸留） RL Policyが打った膨大な棋譜から、局面の勝率を評価するネットワークを学習。RL Policyの知識を「評価関数」という別の形に圧縮·蒸留した。 GR00T N1 または π0。汎用的な動作知識を持つ VLA。 LeRobot ACT。Teacherの軌跡からコンパクトなポリシーを学習。 Genesis/IsaacLab + SAC。並列シミュレーションで高速にRL fine- tune。小さなMLP or Diffusion Policy。ONNXで export してエッジデプロイ。言語トークン → アクション︵連続値︶アクションチャンク（複数ステップの軌跡︶単一ステップの⾏動確率分布 ALpha Goの事例

Sim2Real Transfer — 包括的マップ（世界モデル・シミュレーター視点含む） Sim2Real Transfer — 包括的マップ（世界モデル・シミュレーター視点含む） Sim2Real Transfer
— 包括的マップ（世界モデル・シミュレーター視点含む） MESAの応用範囲はゲームNPCにとどまらない。都市の人流・避難行動のシミュレーション、ロボット行動計画のSim2Real転用、経済行動・投票行動の社会科学研究、医療・接客トレーニングの代替まで、「人間らしい⾏動主体」が必要なあらゆる領域で活⽤が⾒込まれる。ゲームのNPCから都市シミュレーションまで広がる応用領域ゲームのNPCから都市シミュレーションまで広がる応用領域ゲームのNPCから都市シミュレーションまで広がる応用領域実世界データ物理シミュレーター（Genesis等）世界モデル（Cosmos等）学習済ポリシー Sim2Real Gap 1. Domain Randomization （ドメインランダム化）シミュレーション内でパラメータをランダムに変化させ、実世界のばらつきをカバーさせる手法。ランダム化対象の例：物理パラメータ（摩擦係数、質量、慣性モーメント）視覚的要素（照明、テクスチャ、背景、カメラ位置）アクチュエータ特性（遅延、ノイズ、PID ゲイン） Cosmosで生成された映像シミュレーターでアームを実行 2. Domain Adaptation （ドメイン適応） Sim→Real のギャップを学習で埋める手法。種類内容Visual DAGAN 等でSim 画像をReal 風に変換（CycleGAN 等）Feature-level DA 特徴空間でSim/Real を近づけるDANN 等Adversarial 学習でドメイン不変特徴を抽出物理法則を数式で記述データから学習した暗黙的な世界表現模倣学習リアルな物理作用学習済ポリシー 3. SystemIdentification（システム同定）実機データからシミュレータのパラメータを推定・キャリブレーション。 BayesSim: ベイズ推定でSim→Realパラメータをマッチング RealDex, DROPOなど:少量の実機データで物理パラメータを同定「ハードを精密に作り、ソフトをそれに合わせる」「ハードの不確かさをソフトが学習して吸収する」 Domain Randomizationはシミュレーション段階であえて物理パラメータ（重力、摩擦係数、センサーノイズ、関節剛性など）をランダムに振ることで、「どんなハードが来ても動ける」ポリシーを作る

Pac km acn 一人称視点世界
モデル俯瞰視点ロジック一人称（FPS ）想像空間（Latent ）俯瞰（トップダウン）ルールベースの状態定義迷路マップ・ゴーストの位置・ドットの有無などをif- else で処理画像・映像（一人称カメラ） RGB 画像フレームをそのまま入力。言語指示・深度・光学フローと組み合わせることも多い動画・行動履歴過去フレーム列＋実行した行動を入力し、次状態の潜在表現を予測。トークン化された動画シーケンス（例：Cosmos Tokenizer ）座標・状態ベクトルエージェントXY 座標・速度・相対距離・ゴール方向などを数値配列で入力（低次元・構造化）ロジック ML なし VLM Vision-Language Model （例：LLaVA, PaLI-X, π0 ）。視覚＋言語を統合した Transformer ベース世界モデル（WM ） RSSM （DreamerV3 ）・ Transformer WM （Genie 2, DIAMOND ）・Video Diffusion （Cosmos Predict ） LLM MLP / CNN 方策ネットワーク（Actor- Critic ）決定論的アルゴリズム BFS / DFS ・有限オートマトン・A* 経路探索 RL ＋模倣学習 ACT ・Diffusion Policy ・VLA （Vision-Language- Action ）。人間デモから行動分布を学習後RL で微調整 Model-Based RL ＋潜在空間計画 MBPO ・MuZero ・ DreamerV3 。世界モデル内で想像rollout し方策を更新。実環境インタラクション最小化強化学習（RL ） PPO ・SAC ・DQN 。報酬設計で行動最適化。シミュレータ上で大量エピソード収集確定的・高速・説明可能学習コスト不要。ルール変更で即対応可。汎化はしないロボット・自律エージェント向き汎用性が高くゼロショット転移も可能。計算コスト大。 SO-101やπ0と同系統の構成シミュレーション向きサンプル効率が高い。MESA のPPO訓練と同構成。 Sim2Realは座標→実機マッピングが課題サンプル効率最大・仮想レンダリング実データ少量でOK。物理シミュレータ不要。NVIDIA Cosmos Predict/Renderと同系統。データコスト高・モデル崩壊リスクありゲームAIから世界モデルへ — 制御パラダイムの進化ゲームAIから世界モデルへ — 制御パラダイムの進化ゲームAIから世界モデルへ — 制御パラダイムの進化 AIがゲームや現実世界を「どう見て、どう動くか」は、視点と入力データの設計によって根本的に変わる。本表は、ルールベースのパックマンを起点に、俯瞰座標・一人称映像・潜在空間という４つの制御パラダイムを比較したものだ。入力の抽象度が上がるにつれ、モデルは複雑になるが汎化性と実環境への適用可能性も高まる。 Physical AIやロボット学習の文脈で、どのアプローチがどの課題に対応するかを俯瞰する。

Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation
Architecture 全体構成ゲームログ・ペルソナ・都市イベントを統一トークン列に変換し、QLoRA Fine-tuningとDINOv2 RAGで個性を持つエージェントを生成。PPO方策ネットワークとLLM報酬関数が閉ループで更新され、Node.jsバックエンドがリアルタイムに都市シミュレーションをレンダリング、UnityおよびThree.jsへストリーミング配信する。

VLAゴール設計ペルソナ別の行動変容目標地図、俯瞰情報セグメント、エリア構造の把握外的要因気温、時間、天気など物理理解の初期設定通行可能領域、障害物などの定義
LLM 意図、行動計画お腹がすいた > 料理をしよう >買い物をしたい VM 視覚認識スーパーは赤い看板 VLA 行動変容ラーメン屋発見、買い物をやめる WM 物理理解道路はここまで、人が通行できるエージェント（ペルソナ） A model A VLA / PRO (teacher) B model B ACT / BC (Student) C model C RF fine-tune D model D Distilled Tiny 実行→軌跡収集 BC模倣学習 RL fine-tune 蒸留/圧縮 GR00T N1 または π0。汎用的な動作知識を持つVLA。 LeRobot ACT。 Teacherの軌跡からコンパクトなポリシーを学習。 Genesis/IsaacLab + SAC。並列シミュレーションで高速にRL fine-tune。小さなMLP or Diffusion Policy。 ONNXで export してエッジデプロイ。言語トークン → アクション︵連続値︶アクションチャンク（複数ステップの軌跡︶単一ステップの⾏動確率分布行動ログ • いつ・どこで・何をしたか • 選択肢と採用した⾏動 • 周辺の環境コンテキスト報酬履歴 • 各行動で得た報酬値 • 失敗・成功パターン • ペルソナ別の累積スコア成長履歴 • ペルソナの変化軌跡 • 新しく学んだ行動 • 強化された価値観・優先度空間記憶 • 訪問場所・経路・頻度 • ポジ/ ネガランドマーク • 未探索エリアのマップ模倣学習の源泉模倣学習の源泉ペルソナ設計行動ロジック、⽬標をLLMで定義フィジカルAIでの活用フィジカルAIでの活用フィジカルAIでの活用かつては、すべての事象についてプログラミングによる制御が必要であったが、世界モデルの登場によって、ロボットは行動の予測をすることによって、様々な事象に対処することができるようになった。内部モデルによる次の行動を予想する仕組み内部モデルによる次の行動を予想する仕組み内部モデルによる次の行動を予想する仕組み事前定義モデル学習 VLAゴール設計ペルソナ別の行動変容⽬標地図、俯瞰情報セグメント、エリア構造の把握外的要因気温、時間、天気など

模倣学習の源泉空間・視覚記憶行動・動作学習成長の実体予測・合成・出力計画・物語・個性デモンストレーション・行動ログ LLM / LangChain
Agents VLM / DINOv2 + SAM VLA / Genesis 並列RL 統合レイヤー・行動ログ蓄積拡散モデル → 動画生成 → データ還流 Survey Knowledge Landmark Knowledge ONNX 共通基盤 / 経験メモリDB Cosmos World Model Route Knowledge 人間によるインプット経験メモリDB — エージェントが「育つ」仕組みの核心行動ログ • いつ・どこで・何をしたか • 選択肢と採用した⾏動 • 周辺の環境コンテキスト報酬履歴 • 各行動で得た報酬値 • 失敗・成功パターン • ペルソナ別の累積スコア成長履歴 • ペルソナの変化軌跡 • 新しく学んだ行動 • 強化された価値観・優先度空間記憶 • 訪問場所・経路・頻度 • ポジ/ ネガランドマーク • 未探索エリアのマップ MESAが実現するエージェントの一生 MESAが実現するエージェントの一生 MESAが実現するエージェントの一生インプットから経験蓄積・成長までの完全なサイクルインプットから経験蓄積・成長までの完全なサイクルインプットから経験蓄積・成長までの完全なサイクルペルソナ定義を入力とし、Route KnowledgeがLLMで計画を立て、Survey KnowledgeがVLMで環境を認識し、Landmark KnowledgeがVLAで体を動かす。各行動は経験メモリDBに蓄積され次の判断に反映される。Cosmosが動画として出力し、合成データが学習へ還流する一連のサイクルを示す学習済ポリシー. SIm2Realギャップを埋める

セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまで...

セルから世界へ ------Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門

oggata

More Decks by oggata

Other Decks in Technology

Featured

Transcript

Life Gameからパックマン、そしてWorld Modelまでの世界生成シミュレーション入門セルから世界へ

MANUAL 1980- プログラミングの時代ソースコードを書く　3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル

CharacterManager 性格・記憶の一貫性保持 DialogGenerator キャラ設定に基づく会話文の生成 Crew Manager 手がかりやヒントの整合性

環境 #N ...... ペルソナ知らない店...... ▼ 学習済みアクションポリシー「このペルソナはこの状況でこう動く」好奇心旺盛報酬設計：

if new_cell_explored: reward += 0.1 # 新しい場所に行ったら褒める if moved_efficiently: reward

Data Pyramid for Robot Learning YouTubeなどインターネット上のデータクローリング災害災害などのイレギュラーデータは

2. データ収集・時刻同期センサー・カメラ・音声のタイムスタンプを揃える 1. 環境構築（コンテナ化） CUDA

工場アーム — 関節角・⼒覚製造ラインで組み⽴て・溶接・ピッキングを担う。配送ロボット — LiDAR・GPS ⾃律⾛⾏で荷物を届ける。障害物

CosmosPredict 模倣学習 — 人間らしさを直接学ぶ強化学習（Reinforcement Learning × Genesis

A model A VLA / PRO (teacher) B model B

Sim2Real Transfer — 包括的マップ（世界モデル・シミュレーター視点含む） Sim2Real Transfer — 包括的マップ（世界モデル・シミュレーター視点含む） Sim2Real Transfer

Pac km acn 一人称視点世界

Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation

Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation Architecture 全体構成 Multi-Entity Simulation

VLAゴール設計ペルソナ別の行動変容目標地図、俯瞰情報セグメント、エリア構造の把握外的要因気温、時間、天気など物理理解の初期設定通行可能領域、障害物などの定義

模倣学習の源泉空間・視覚記憶行動・動作学習成長の実体予測・合成・出力計画・物語・個性デモンストレーション・行動ログ LLM / LangChain