Rex Lily … 好奇心 ••••• •◦◦◦◦ 安定性 •◦◦◦◦ ••••• 社交性 ••◦◦◦ ••◦◦◦ 効率性 ••◦◦◦ •••◦◦ 観光性 •••◦◦ •◦◦◦◦ ↓ 報酬関数 R(s,a) に変換 → ② 並列 PPO 強化学習 同じ都市環境で5 エージェントが同時並列で独立学習 Rex Env(Sim) → R(s,a) → Policy 更新 Lily Env(Sim) → R(s,a) → Policy 更新 Marco Env(Sim) → R(s,a) → Policy 更新 Cole Env(Sim) → R(s,a) → Policy 更新 Elena Env(Sim) → R(s,a) → Policy 更新 ↓ 各ペルソナのポリシーが収束 → ③ ACT 模倣で検証 👤 人間がブラウザで エージェントを操作 📋 観測・行動ペアを デモとして収集 🔍 PPO の行動と 人間の行動を比較 ✅ 方向性が正しいか 確認・微調整 🔄 ズレがあれば PPO を再学習 性格の重みベクトル → 報酬関数 → 5 並列PPO 学習 → ACT 模倣で「人間の感覚」と照合 → ズレを修正してポリシー完成