[2] 地形タイプ [3,4] 渇き・空腹 [5–7] 水場方向・距離 [8–10] 脅威の方向・距離 [11] 森林近傍フラグ [12,13] 同種仲間の方向 [14] boldness (DNA 直結) [15] water_sense (DNA 直結) 学習フロー 観測 16 次元ベクトルを入力 NN Linear(16→128→128→5) 行動 Categorical 分布からサンプル 報酬 渇き/ 空腹/ 捕食/ 逃走で計算 更新 G = Σγʳ · r を逆算 → loss ポリシーは種ごとに独立 — DNA は「体質」を決め、RL は「動き方」を学ぶ