Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション :仮想から現実世界へ...

Avatar for oggata oggata
February 01, 2026
1

MESAワールドモデルとマルチエージェントによる人間行動シミュレーション :仮想から現実世界への架け橋

Avatar for oggata

oggata

February 01, 2026
Tweet

More Decks by oggata

Transcript

  1. 「敵キャラは追いかける」 「障害物は避ける」など、すべて の行動がプログラマーによって事前定義。個性も成長もな く、毎回まったく同じ動きをします。 人間のプレイデータを活用し、報酬を最大化する行動を ⾃律的に習得。 「うまい動き方」は学習できるようになり ましたが、 「人間らしい迷いや個性」の表現は依然困難で す。

    LLM ・VLM ・VLA が協調し「なぜ⾏動するか」 「何を⾒て判断 するか」 「どう動くか」の3 層が統合されます。ペルソナ・経 験・記憶を持つ真に人間らしいエージェントを実現します。 パックマン RULE-BASED 1980s 〜 予測可能・実装が簡単 OpenAI GYM REINFORCEMENT 2016 〜 多様な動き・未知環境への適応 MULTI-AI Next 個性・迷い・成長・記憶を持つ 行動 DQN NPCの進化の歴史と、MESAの位置づけ NPCの進化の歴史と、MESAの位置づけ オンライン、オフライン学習からトークナイズ、学習の流れ オンライン、オフライン学習からトークナイズ、学習の流れ かつてのNPCはルールベースのロジックで動いていました。OpenAI Gymのような強化学習環境で人間の行動データを取り込むことで多様な動きが可能になりましたが、 それでも「目的に向かって最短経路を取る最適化エージェント」の域を出ませんでした。 1 Conway's Life Game(1970) 2 Pac-Man(1980) 誕生・生存・死の3ルール グライダーなど複雑構造が 創発 チューリング完全性を証明 テーマ:均一なルール → 複雑性 同一ルール+パラメータ差=個性 モードシステム(追跡/散漫/怯え) テーマ:差異あるルール → 個性 3 The Sims (2000) 4 Dwarf Fortress(2006〜) 地形生成 地質・水・浸食・気候 歴史生成 数千年の文明・戦争・伝 説 心理モデル 性格・記憶・精神健康 Legends Mode 英雄・遺物・因果データ Hunger(空腹) Comfort(快適) Hygiene(清潔) Bladder(排泄) Energy(体力) Fun(楽しみ) Social(社交) Room(環境) ゲームのルールなどは不要 観測データ 報酬 AlphaGo スコアを上げる行動をとれ! img : The Principles Of A.I Alphago / YinChen Wu, Dr. Hubert Bray / Duke Summer Session / 20 july 2017 openai/gym R o u t e k n o w l e d g e ( 手 続 き 的 知 識 ) S u r v e y k n o w l e d g e ( 地 図 的 知 識 ) L a n d m a r k k n o w l e d g e ( 視 覚 ラ ン ド マ ー ク )
  2. MANUAL 1980- プログラミングの時代 ソースコードを書く 3D モデルをデザイナーが描く PROCEDUAL / AI-GEN 2010- プロシージャル

    & AI ⽣成時代 ソースコード・モデル・ポリゴンを自動生成する End2End Next エンドツーエンド生成の時代 拡散モデルで世界をまるごと生成する プログラマーがC++ でロジックを書き、デザイナーがMaya で ポリゴンを⼀頂点ずつ配置。1 キャラクターの制作に数百時間 を要する職人的なものづくりの時代。 Houdini やCopilot がコードと地形を⾃動⽣成し、NeRF やStable Diffusion が3D モデルと背景画像を⽣み出す。人間は「指⽰す る側」へと役割が変化した時代。 Cosmos World Model やGameNGen が、アイデアを入⼒するだけ でゲームの映像・物理・NPC の行動をまるごと拡散モデルで 生成する。 クリエイティブの変化 クリエイティブの変化 オンライン、オフライン学習からトークナイズ、学習の流れ オンライン、オフライン学習からトークナイズ、学習の流れ かつてのNPCはルールベースのロジックで動いていました。OpenAI Gymのような強化学習環境で人間の行動データを取り込むことで多様な動きが可能になりましたが、 それでも「目的に向かって最短経路を取る最適化エージェント」の域を出ませんでした。 プログラミン グ デザイン サウンド アニメーショ ン アウトプット AI Tools AI Tools AI Tools AI Tools プログラミン グ デザイン サウンド アニメーショ ン アウトプット AI Tools アウトプット
  3. Route Knowledge 手続き的知識 LLM / LangChain Agents Survey Knowledge 地図的知識

    VLM / DINOv2 + Segmentation Landmark Knowledge 視覚ランドマーク VLA / Genesis 並列RL ペルソナの目標・動機・行動計画を管理。物語の一貫性を保ちなが ら次の⾏動を決定する司令塔。 3D 空間・地図・天候を視覚的に分析。 「⾒たことある場所」を記憶 し、ルート選択に空間コンテキストを提供。 目の前の視覚情報に基づきリアルタイムで行動を決定。ペルソナ別 の⾏動ポリシーを強化学習で習得。 スーパーに買い物に行く! 「なぜ行く」 「何を買う」 「誰のため」 「どこを通る」 「天気は?」 「距離は?」 「実際に動く」 「角を曲がる」 「店に入る」 人間の行動モデル:3種の知識の組み合わせ 人間の行動モデル:3種の知識の組み合わせ オンライン、オフライン学習からトークナイズ、学習の流れ オンライン、オフライン学習からトークナイズ、学習の流れ 人間が「買い物に行く」というシンプルな行動を取る場合でも、実際には以下の3種類の知識が複雑に絡み合っています。 大目標 中目標 小目標 施設全体の効率的な運営 「次の荷物を取りに行く」 「障害物を避ける」 午前中に50個の荷物を指定エリアに配置 1 . 名 前 ( 日 本 語 の 一 般 的 な 苗 字 と 名 前 の 組 み 合 わ せ 、 例 : 田 中 太 郎 、 佐 藤 花 子 な ど ) 2 . 年 齢 ( 2 0 - 7 0 歳 の 範 囲 の 整 数 ) 3 . 出 身 地 ( 日 本 の 都 道 府 県 、 ま た は 海 外 の 国 名 ) 4 . 学 歴 ( 最 終 学 歴 、 大 学 名 や 専 門 学 校 名 な ど 具 体 的 に ) 5 . 職 業 経 歴 ( 過 去 の 仕 事 や 現 在 の 職 業 、 職 種 を 具 体 的 に ) 6 . 趣 味 ・ 嗜 好 ( 3 - 5 個 の 具 体 的 な 趣 味 ) 7 . 宗 教 ・ 信 仰 ( 無 宗 教 、 仏 教 、 キ リ ス ト 教 、 神 道 な ど、 ま た は 具 体 的 な 宗 派 ) 8 . 家 族 構 成 ( 配 偶 者 の 有 無 、 子 供 の 有 無 、 同 居 家 族 な ど ) 9 . 性 格 の 詳 細 説 明 ( 3 - 4 文 程 度 で 詳 し く ) 1 0 . 性 格 特 性 ( 0 - 1 の 範 囲 の 数 値 、 小 数 点 以 下 2 桁 ま で ) : - 社 交 性 ( s o c i a b i l i t y ) - 活 動 的 さ ( e n e r g y ) - ル ー チ ン 重 視 度 ( r o u t i n e ) - 好 奇 心 ( c u r i o s i t y ) - 共 感 性 ( e m p a t h y ) - 責 任 感 ( r e s p o n s i b i l i t y ) - 創 造 性 ( c r e a t i v i t y ) - 論 理 的 思 考 ( l o g i c ) 1 1 . 価 値 観 ・ 信 念 ( 人 生 観 や 大 切 に し て い る 価 値 観 ) 1 2 . 目 標 ・ 夢 ( 将 来 の 目 標 や 夢 ) 1 3 . 日 課 ( 各 時 間 帯 で 2 つ ま で の 場 所 )
  4. CharacterManager 性格・記憶の一 貫性保持 DialogGenerator キャラ設定に基 づく会話文の生 成 Crew Manager 手がかりやヒン

    トの整合性 例: 「田中さんが特売日に買い物へ行く」というストーリーを生成する際、 Character Manager が「田中さんは節約志向」という記憶を保持し、Dialog Generator が「今⽇は卵が安いから早く⾏かなきゃ」という⾃然な会話を⽣成 する。Consistency Checker が「昨日の記録では田中さんは卵アレルギーと設定 されていた」という矛盾を検出すれば、Repairer が整合性を⾃動修正する。 1. Route Knowledge(手続き的知識)― LLM × LangChain マルチエージェント 1. Route Knowledge(手続き的知識)― LLM × LangChain マルチエージェント 役割:ペルソナ・目標・行動計画の生成と物語の一貫性管理 役割:ペルソナ・目標・行動計画の生成と物語の一貫性管理 人間が「買い物に行く」というシンプルな行動を取る場合でも、実際には以下の3種類の知識が複雑に絡み合っています。 Supervisor 全体の調整・優先度判断 Story Generator メインストーリ ーの生成と管理 ConsistencyChecker 物語全体の⽭盾検出 ConsistencyRepairer ⽭盾の⾃動修復 // ゲームノードの専⾨化例 this.nodes = { storyGenerator: this._generateStory.bind(this), // ストーリー生成エージェント actionProcessor: this._processAction.bind(this), // アクション処理エージェント sceneUpdater: this._updateScene.bind(this), // シーン更新エージェント clueManager: this._manageClues.bind(this), // ⼿がかり管理エージェント consistencyChecker: this._checkConsistency.bind(this), // 整合性チェックエージェント consistencyRepairer: this._repairConsistency.bind(this) // 整合性修復エージェント }; Agent Supervisor パターンの実装例
  5. 2. Survey Knowledge(地図的知識)― VLM × 視覚認識・空間記憶 2. Survey Knowledge(地図的知識)― VLM

    × 視覚認識・空間記憶 役割:環境の視覚的理解と空間知識の構築 役割:環境の視覚的理解と空間知識の構築 DINOv2などの視覚基盤モデルを活用し、エージェントが「見たもの」を記憶・分類・認識する仕組みを構築します。 視覚情報を「見たことがある/ ない」 「どのカテゴリの建物か」といったセグメント情 報に変換し、Route Knowledge の計画立案やLandmark Knowledge の⾏動判断に空間コン テキストを提供します。DINO と言語モデルの連携方法については、視覚特徴ベクト ルとテキスト埋め込みの共通空間への投影(CLIP 的アプローチ)の採⽤を検討中で す。 DINOv2 特徴量抽出 物体・場所の埋め込み カメラ入力(街の映像) VLM 視覚認識パイプライン SegmentationModel 建物/ 道路/ 人物の領域分 離 自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグ メンテーション(画像から物体をきりわける)を行った例。 空間記憶DB の構造 ポジティブランドマーク 「いつものスーパー」→ 座標+ 高頻度訪問フラグ ネガティブランドマーク 「工事中の道路」→ 座標+ 通⾏不可フラグ+ 期間 初⾒ランドマーク 「初めて⾒る店」→ 座標+ 「未評価」フラグ+ 視覚特徴 カテゴリ記憶 「コンビニ系建物」 「公園」→ クラス+ 出現頻度
  6. 3. Landmark Knowledge(視覚ランドマーク)― VLA × Genesis 並列強化学習 3. Landmark Knowledge(視覚ランドマーク)―

    VLA × Genesis 並列強化学習 役割:具体的なアクションの実行と行動パターンの学習 役割:具体的なアクションの実行と行動パターンの学習 Genesis 並列シミュレーション環境 VLA Policy Network ペルソナ別行動モデル 環境 #N ...... ペルソナ 知らない店...... 各ペルソナの報酬を並列収集 ▼ 学習済みアクションポリシー 「このペルソナはこの状況でこう動く」 Route Knowledge から「行動指示」受信 G e n e s i s に よ る 強 化 学 習 実 行 好奇心旺盛 報酬設計: +10 探索⾏動 +5 新規発⾒ -2 ⽬標未達 几帳面 報酬設計: +10 計画達成 -5 予定外⾏動 +3 時間厳守 慎重派 報酬設計: +10 安全確認 +5 リスク回避 -3 機会損失 環境 ×N… 報酬設計: 任意のペルソナ 任意の報酬設計 並列で同時学習 Genesis の1 万倍速シミュレーションで、ペルソナ× 状況の組み合わせを⼤量並列学習。人間では不可能な試⾏回数を実現します。 Genesis 1 万倍速により、1 ⽇のシミュレーションで人間換算27 年分の試⾏経験を蓄積 同じ状況: 「知らない店が目の前に現れた」 🔍 好奇心旺盛ペルソナ 行動:入店する  高報酬 +15pt 「新しいものを発見した」という経験 がRoute Knowledge に蓄積。次回はさら に積極的に探索するペルソナへと進 化。 📋 ⼏帳⾯ペルソナ 行動:素通りする  高報酬 +12pt 「計画通りに行動できた」という達成 感が蓄積。⽬標達成の効率を最優先す るペルソナへと進化していく。 ⚠️ 慎重派ペルソナ 行動:立ち止まって観察  高報酬 +10pt 「リスクを評価してから行動した」と いう慎重さが蓄積。安全確認を優先す る性格がより強化される。