MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界への架け橋

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界への架け橋 Fumitoshi Ogata 資料概要本資料では、ゲームNPCから始まったAIシミュレーション技術が、社会行動シミュレーション、そしてフィジカルAIへと進化する過程を辿ります。LLMだけでは不十分な現実世界の複雑な物理環境に対応するため、MESAプロジェクトが採用する拡散モデル、階層的ナビゲーション、DINOv2やV-JEPA2などの視覚モデル、自己教師あり学習、模倣学習といった技術スタックを実践的に解説します。さらに、ワールドモデルの歴史的変遷から最新のNVIDIA Cosmosまで、AIが世界を理解し
予測する仕組みの全体像を紹介し、仮想空間でのシミュレーションから実世界ロボット制御への展開を包括的に学びます。

「敵キャラは追いかける」「障害物は避ける」など、すべての行動がプログラマーによって事前定義。個性も成長もなく、毎回まったく同じ動きをします。人間のプレイデータを活用し、報酬を最大化する行動を⾃律的に習得。「うまい動き方」は学習できるようになりましたが、「人間らしい迷いや個性」の表現は依然困難です。
LLM ・VLM ・VLA が協調し「なぜ⾏動するか」「何を⾒て判断するか」「どう動くか」の3 層が統合されます。ペルソナ・経験・記憶を持つ真に人間らしいエージェントを実現します。パックマン RULE-BASED 1980s 〜予測可能・実装が簡単 OpenAI GYM REINFORCEMENT 2016 〜多様な動き・未知環境への適応 MULTI-AI Next 個性・迷い・成長・記憶を持つ行動 DQN NPCの進化の歴史と、MESAの位置づけ NPCの進化の歴史と、MESAの位置づけオンライン、オフライン学習からトークナイズ、学習の流れオンライン、オフライン学習からトークナイズ、学習の流れかつてのNPCはルールベースのロジックで動いていました。OpenAI Gymのような強化学習環境で人間の行動データを取り込むことで多様な動きが可能になりましたが、それでも「目的に向かって最短経路を取る最適化エージェント」の域を出ませんでした。 1 Conway's Life Game（1970） 2 Pac-Man（1980）誕生・生存・死の3ルールグライダーなど複雑構造が創発チューリング完全性を証明テーマ：均一なルール → 複雑性同一ルール＋パラメータ差＝個性モードシステム（追跡/散漫/怯え）テーマ：差異あるルール → 個性 3 The Sims (2000) 4 Dwarf Fortress（2006〜）地形生成地質・水・浸食・気候歴史生成数千年の文明・戦争・伝説心理モデル性格・記憶・精神健康 Legends Mode 英雄・遺物・因果データ Hunger（空腹） Comfort（快適） Hygiene（清潔） Bladder（排泄） Energy（体力） Fun（楽しみ） Social（社交） Room（環境）ゲームのルールなどは不要観測データ報酬 AlphaGo スコアを上げる行動をとれ！ img : The Principles Of A.I Alphago / YinChen Wu, Dr. Hubert Bray / Duke Summer Session / 20 july 2017 openai/gym R o u t e k n o w l e d g e ( 手続き的知識 ) S u r v e y k n o w l e d g e ( 地図的知識 ) L a n d m a r k k n o w l e d g e ( 視覚ランドマーク )

MANUAL 1980- プログラミングの時代ソースコードを書く　3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル
& AI ⽣成時代ソースコード・モデル・ポリゴンを自動生成する End2End Next エンドツーエンド生成の時代拡散モデルで世界をまるごと生成するプログラマーがC++ でロジックを書き、デザイナーがMaya でポリゴンを⼀頂点ずつ配置。1 キャラクターの制作に数百時間を要する職人的なものづくりの時代。 Houdini やCopilot がコードと地形を⾃動⽣成し、NeRF やStable Diffusion が3D モデルと背景画像を⽣み出す。人間は「指⽰する側」へと役割が変化した時代。 Cosmos World Model やGameNGen が、アイデアを入⼒するだけでゲームの映像・物理・NPC の行動をまるごと拡散モデルで生成する。クリエイティブの変化クリエイティブの変化オンライン、オフライン学習からトークナイズ、学習の流れオンライン、オフライン学習からトークナイズ、学習の流れかつてのNPCはルールベースのロジックで動いていました。OpenAI Gymのような強化学習環境で人間の行動データを取り込むことで多様な動きが可能になりましたが、それでも「目的に向かって最短経路を取る最適化エージェント」の域を出ませんでした。プログラミングデザインサウンドアニメーションアウトプット AI Tools AI Tools AI Tools AI Tools プログラミングデザインサウンドアニメーションアウトプット AI Tools アウトプット

Route Knowledge 手続き的知識 LLM / LangChain Agents Survey Knowledge 地図的知識
VLM / DINOv2 + Segmentation Landmark Knowledge 視覚ランドマーク VLA / Genesis 並列RL ペルソナの目標・動機・行動計画を管理。物語の一貫性を保ちながら次の⾏動を決定する司令塔。 3D 空間・地図・天候を視覚的に分析。「⾒たことある場所」を記憶し、ルート選択に空間コンテキストを提供。目の前の視覚情報に基づきリアルタイムで行動を決定。ペルソナ別の⾏動ポリシーを強化学習で習得。スーパーに買い物に行く！「なぜ行く」「何を買う」「誰のため」「どこを通る」「天気は？」「距離は？」「実際に動く」「角を曲がる」「店に入る」人間の行動モデル：3種の知識の組み合わせ人間の行動モデル：3種の知識の組み合わせオンライン、オフライン学習からトークナイズ、学習の流れオンライン、オフライン学習からトークナイズ、学習の流れ人間が「買い物に行く」というシンプルな行動を取る場合でも、実際には以下の3種類の知識が複雑に絡み合っています。大目標中目標小目標施設全体の効率的な運営「次の荷物を取りに行く」「障害物を避ける」午前中に50個の荷物を指定エリアに配置 1 . 名前（日本語の一般的な苗字と名前の組み合わせ、例：田中太郎、佐藤花子など） 2 . 年齢（ 2 0 - 7 0 歳の範囲の整数） 3 . 出身地（日本の都道府県、または海外の国名） 4 . 学歴（最終学歴、大学名や専門学校名など具体的に） 5 . 職業経歴（過去の仕事や現在の職業、職種を具体的に） 6 . 趣味・嗜好（ 3 - 5 個の具体的な趣味） 7 . 宗教・信仰（無宗教、仏教、キリスト教、神道など、または具体的な宗派） 8 . 家族構成（配偶者の有無、子供の有無、同居家族など） 9 . 性格の詳細説明（ 3 - 4 文程度で詳しく） 1 0 . 性格特性（ 0 - 1 の範囲の数値、小数点以下 2 桁まで）： - 社交性（ s o c i a b i l i t y ） - 活動的さ（ e n e r g y ） - ルーチン重視度（ r o u t i n e ） - 好奇心（ c u r i o s i t y ） - 共感性（ e m p a t h y ） - 責任感（ r e s p o n s i b i l i t y ） - 創造性（ c r e a t i v i t y ） - 論理的思考（ l o g i c ） 1 1 . 価値観・信念（人生観や大切にしている価値観） 1 2 . 目標・夢（将来の目標や夢） 1 3 . 日課（各時間帯で 2 つまでの場所）

CharacterManager 性格・記憶の一貫性保持 DialogGenerator キャラ設定に基づく会話文の生成 Crew Manager 手がかりやヒン
トの整合性例：「田中さんが特売日に買い物へ行く」というストーリーを生成する際、 Character Manager が「田中さんは節約志向」という記憶を保持し、Dialog Generator が「今⽇は卵が安いから早く⾏かなきゃ」という⾃然な会話を⽣成する。Consistency Checker が「昨日の記録では田中さんは卵アレルギーと設定されていた」という矛盾を検出すれば、Repairer が整合性を⾃動修正する。 1. Route Knowledge（手続き的知識）― LLM × LangChain マルチエージェント 1. Route Knowledge（手続き的知識）― LLM × LangChain マルチエージェント役割：ペルソナ・目標・行動計画の生成と物語の一貫性管理役割：ペルソナ・目標・行動計画の生成と物語の一貫性管理人間が「買い物に行く」というシンプルな行動を取る場合でも、実際には以下の3種類の知識が複雑に絡み合っています。 Supervisor 全体の調整・優先度判断 Story Generator メインストーリーの生成と管理 ConsistencyChecker 物語全体の⽭盾検出 ConsistencyRepairer ⽭盾の⾃動修復 // ゲームノードの専⾨化例 this.nodes = { storyGenerator: this._generateStory.bind(this), // ストーリー生成エージェント actionProcessor: this._processAction.bind(this), // アクション処理エージェント sceneUpdater: this._updateScene.bind(this), // シーン更新エージェント clueManager: this._manageClues.bind(this), // ⼿がかり管理エージェント consistencyChecker: this._checkConsistency.bind(this), // 整合性チェックエージェント consistencyRepairer: this._repairConsistency.bind(this) // 整合性修復エージェント }; Agent Supervisor パターンの実装例

2. Survey Knowledge（地図的知識）― VLM × 視覚認識・空間記憶 2. Survey Knowledge（地図的知識）― VLM
× 視覚認識・空間記憶役割：環境の視覚的理解と空間知識の構築役割：環境の視覚的理解と空間知識の構築 DINOv2などの視覚基盤モデルを活用し、エージェントが「見たもの」を記憶・分類・認識する仕組みを構築します。視覚情報を「見たことがある/ ない」「どのカテゴリの建物か」といったセグメント情報に変換し、Route Knowledge の計画立案やLandmark Knowledge の⾏動判断に空間コンテキストを提供します。DINO と言語モデルの連携方法については、視覚特徴ベクトルとテキスト埋め込みの共通空間への投影（CLIP 的アプローチ）の採⽤を検討中です。 DINOv2 特徴量抽出物体・場所の埋め込みカメラ入力（街の映像） VLM 視覚認識パイプライン SegmentationModel 建物/ 道路/ 人物の領域分離自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション（画像から物体をきりわける）を行った例。空間記憶DB の構造ポジティブランドマーク「いつものスーパー」→ 座標+ 高頻度訪問フラグネガティブランドマーク「工事中の道路」→ 座標+ 通⾏不可フラグ+ 期間初⾒ランドマーク「初めて⾒る店」→ 座標+ 「未評価」フラグ+ 視覚特徴カテゴリ記憶「コンビニ系建物」「公園」→ クラス+ 出現頻度

3. Landmark Knowledge（視覚ランドマーク）― VLA × Genesis 並列強化学習 3. Landmark Knowledge（視覚ランドマーク）―
VLA × Genesis 並列強化学習役割：具体的なアクションの実行と行動パターンの学習役割：具体的なアクションの実行と行動パターンの学習 Genesis 並列シミュレーション環境 VLA Policy Network ペルソナ別行動モデル環境 #N ...... ペルソナ知らない店...... 各ペルソナの報酬を並列収集 ▼ 学習済みアクションポリシー「このペルソナはこの状況でこう動く」 Route Knowledge から「行動指示」受信 G e n e s i s による強化学習実行好奇心旺盛報酬設計： +10 探索⾏動 +5 新規発⾒ -2 ⽬標未達几帳面報酬設計： +10 計画達成 -5 予定外⾏動 +3 時間厳守慎重派報酬設計： +10 安全確認 +5 リスク回避 -3 機会損失環境 ×N… 報酬設計：任意のペルソナ任意の報酬設計並列で同時学習 Genesis の1 万倍速シミュレーションで、ペルソナ× 状況の組み合わせを⼤量並列学習。人間では不可能な試⾏回数を実現します。 Genesis 1 万倍速により、1 ⽇のシミュレーションで人間換算27 年分の試⾏経験を蓄積同じ状況：「知らない店が目の前に現れた」 🔍 好奇心旺盛ペルソナ行動：入店する　　高報酬 +15pt 「新しいものを発見した」という経験がRoute Knowledge に蓄積。次回はさらに積極的に探索するペルソナへと進化。 📋 ⼏帳⾯ペルソナ行動：素通りする　　高報酬 +12pt 「計画通りに行動できた」という達成感が蓄積。⽬標達成の効率を最優先するペルソナへと進化していく。 ⚠️ 慎重派ペルソナ行動：立ち止まって観察　　高報酬 +10pt 「リスクを評価してから行動した」という慎重さが蓄積。安全確認を優先する性格がより強化される。

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界へ...

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界への架け橋

oggata

More Decks by oggata

Featured

Transcript

MANUAL 1980- プログラミングの時代ソースコードを書く　3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル

Route Knowledge 手続き的知識 LLM / LangChain Agents Survey Knowledge 地図的知識

CharacterManager 性格・記憶の一貫性保持 DialogGenerator キャラ設定に基づく会話文の生成 Crew Manager 手がかりやヒン

2. Survey Knowledge（地図的知識）― VLM × 視覚認識・空間記憶 2. Survey Knowledge（地図的知識）― VLM

3. Landmark Knowledge（視覚ランドマーク）― VLA × Genesis 並列強化学習 3. Landmark Knowledge（視覚ランドマーク）―

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション ：仮想から現実世界へ...

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション ：仮想から現実世界への架け橋

More Decks by oggata

Featured

Transcript

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界へ...

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション：仮想から現実世界への架け橋