ecological_niche_reward_function_v3

C O N C E P T B A C
K G R O U N D 生態的ニッチとは何かダーウィン『種の起原』（1859 ）「自然の経済における位置（place in the economy of nature ）」—— ある⽣物がどこに存在し、何を食べ、何に食べられ、どう環境に作⽤するかの総体として初めて概念化された。 1917 ジョセフ・グリネル Joseph Grinnell 『The Niche-Relationships of the California Thrasher 』ニッチ＝微生息地（microhabitat ）特定の種が占める物理的・地理的な場所に着目。カリフォルニアムクドリモドキの詳細な観察から、種ごとに固有の「環境の使い方」があることを⽰した。場所・餌・⾏動パターンの三位⼀体として定義。 1927 チャールズ・エルトン Charles Elton 『Animal Ecology 』ニッチ＝機能的役割（functional role ）「動物のニッチとは、食物連鎖における地位である」と定義。グリネルの場所概念を超え、⽣態系内での役割・職業（occupation ）として捉え直した。捕食者・被食者・分解者という機能的地位が核心。 1957 G.E. ハッチンソン G.E. Hutchinson 『Concluding Remarks 』Cold Spring Harbor Symposia ニッチ＝n 次元超体積（hypervolume ）温度・湿度・食物サイズ… すべての環境変数を軸とするn 次元空間を定義し、⽣物が⽣存できる領域を「超体積」として数学的に形式化。「根本的ニッチ」と「実現ニッチ」の区別を導入。現代強化学習の状態空間と等価。

理論的深化：ニッチ概念の進化と報酬関数の対応 1917→1927→1957 の3 段階で「場所」から「超空間」へと抽象化されたニッチ概念は、強化学習の状態空間・報酬設計と構造的に同⼀である。研究者・年代ニッチ定義核心的問い RL への対応
reward_scales グリネル（1917 ）微生息地（物理的場所）「どこにいるか」状態空間 s の物理座標 base_height, lin_vel_z 体高・垂直速度の制約エルトン（1927 ）機能的役割（食物連鎖の地位）「何をするか」行動空間 a の機能的意味 tracking_lin_vel, ang_vel 移動・回転の役割重みハッチンソン（1957 ） n 次元超体積（生存可能超空間）「どの範囲で生存できるか」報酬関数 r(s,a) の多次元スケール reward_scales 全係数多次元の生態的圧⼒の総体 Hutchinson の形式：N = {(x₁, x₂, … , xₙ) | 種が正の増殖率を維持できる環境変数の組} → reward_scales = {k: v} の多次元係数ベクトルと同型

A N A L O G Y 0 1 動物は「学習済みpolicy
」である進化とは、数百万年をかけた強化学習である。各動物の形態・行動はフィールド特性に最適化された収束結果。 🦒 キリンサバンナ（高木フィールド） base_height +∞ 方向体高を極限まで高く tracking_lin_vel 低速度より高さを優先 similar_to_default 低首長姿勢へ⾃由に逸脱他の動物と餌の高さが重ならない＝ニッチ分離による競争回避 🦔 モグラ地下（洞窟フィールド） lin_vel_z -2.0 下方向に強い駆動力 base_height + 高低姿勢を加点に反転 action_rate - 低慎重・反復動作を許容視覚情報をゼロにした結果触覚・嗅覚センサーに特化 🐆 チーター草原（高速追跡フィールド） tracking_lin_vel +2.0 水平速度を最⼤化 tracking_ang_vel 0.0 旋回を完全に捨てる similar_to_default 0.0 姿勢制約を外す持続走⾏は苦⼿＝短距離特化のトレードオフが明確 🐢 カメ湿地・砂地（低速安定フィールド） action_rate -0.1 最強レベルの急動作罰則 similar_to_default +0.9 デフォルト姿勢を強固に tracking_lin_vel +0.2 速度追跡は極⼩甲羅＝`similar_to_default` の物理的な実装形態

A N A L O G Y 0 2 ニッチ重複：なぜライオンとチーターは共存できるのか
同じフィールドに複数の種（キャラクター）を置いても、reward_scales が異なれば自然に役割分化が起きる。 🦁 ライオン待ち伏せ型・集団包囲戦略群れで獲物を囲い、最後に短距離で仕留める。持久力と協調⾏動に特化。単独の直線速度は低い。 tracking_ang_vel +0.8 旋回・包囲が得意 tracking_lin_vel +0.5 速度は中程度 similar_to_default +0.6 安定した姿勢を維持 action_rate -0.02 急動作より省エネを重視ゲームキャラ例：タンク・支援型。旋回・陣形維持が得意なキャラクター。 🐆 チーター単独・直線全力追跡戦略視覚で獲物を捉え、単独で高速追跡。短時間の爆発的加速に特化。旋回は苦手。 tracking_lin_vel +2.0 直線速度を最⼤化 tracking_ang_vel 0.0 旋回を完全に放棄 similar_to_default 0.0 姿勢制約なし・全力傾倒 action_rate -0.001 急加速を許容ゲームキャラ例：アサシン・スカウト型。一撃離脱・高速突破が得意なキャラクター。同フィールド共存 ↕ 役割分化 Gause の競争排除則：同一のニッチを占める2 種は共存できない。逆に言えば、reward_scales が異なれば同フィールドに複数キャラを配置しても⾃然に役割分化が起きる。

A N A L O G Y 0 3 根本的ニッチ
vs 実現ニッチハッチンソンが区別した2 概念は、ゲームのキャラクター設計に直接応⽤できる。 📐 根本的ニッチ Fundamental Niche 競争相手がいない理想条件下で生存できる環境変数の全範囲。 🌍 生態系での例例：チーターは本来、草原・半乾燥地・森林縁辺など幅広い地形を利⽤できる能⼒を持つ。 🎮 ゲームへの接続キャラクターのスペック上の能力範囲。 reward_scales が定義する「理論上の最⼤パフォーマンス空間」。 → 設計者が意図するキャラクター像 🎯 実現ニッチ Realized Niche 競争・捕食・環境制約によって実際に利⽤している範囲。常に根本的ニッチより狭い。 🌍 生態系での例例：実際にはライオンとの競争で、チーターは開けた草原の直線追跡に特化せざるを得ない。 🎮 ゲームへの接続他キャラ・マップ構造・プレイヤー戦略の中で実際に使われるモーション範囲。 → 対戦・マルチプレイ環境で「実際に刺さる動き」設計の示唆：根本的ニッチ（スペック）を広く設計しておき、対戦環境が実現ニッチ（実際の立ち位置）を⾃然に絞り込む—— これがreward_scales 設計の理想形。

F O R G A M E C O M
P A N I E S 生態的ニッチと報酬関数の対応 Ecological Niche × Reward Function → Character Motion 世界観テキストからキャラクターの動きが自動⽣成されるフィールド定義ニッチ推定報酬スケール RL 学習運動特性

課題：従来のキャラクターモーション設計 ⏱ 工数が⼤きい 1 キャラクターのモーション作成に数百時間。フィールドごとに手動調整が必要。 🔁 一貫性がないデザイナーの感覚頼り。世界観設
定とモーションの整合性が崩れやすい。 📐 スケールしないキャラクター数・フィールド数が増えるほど組み合わせ爆発が起きる。 → 世界観・フィールド特性から、報酬関数を自動⽣成できればこの3 つを同時に解決できる

コア概念：3 つの等価性生態学・強化学習・ゲーム設計は、同じ構造を異なる言語で記述している生態学 🌿 生態的ニッチ Ecological Niche ある種が環境において占める「機能的役割」の総体。
Hutchinson （1957 ）の多次元ニッチ理論：⽣物が⽣存できる環境変数の超空間として定義。山岳の動物は垂直移動コストを最小化する形態に収束。 ≡ 強化学習 ⚙️ 報酬関数 Reward Function エージェントが最大化すべき環境適応の指標。 reward_scales の各係数が、エージェントの「生態的圧⼒」に対応。係数の設定が収束後の運動特性を決定する。 ≡ ゲーム設計 🎮 フィールド特性 Field Characteristics 地形・重力・摩擦係数・障害物密度などの世界観パラメータ。フィールドの物理的性質が、キャラクターに課す「生態的制約」を定義。＝報酬スケールへの写像元。

変換パイプライン世界観テキスト → reward_scales → 運動特性の自動変換フロー 1 フィールド定義地形・物理パラメータ
地形: " 山岳" 傾斜: 急障害物: 岩場 2 ロア解釈 LLM テキスト解析「垂直移動を多用する⽣態」と解釈 3 報酬スケール生成 reward_scales dict lin_vel_z: +1.5 base_height: -5 similar: 0.0 4 RL 学習 PPO / SAC 数千エピソード自動収束 GPU 並列対応 5 運動特性 Policy 出力うさぎ跳び的跳躍歩行自動⽣成正規化レイヤー：LLM が出力した係数値はモデル固有の値域に自動クランプ。係数が暴走してシミュレーションが破綻するリスクを排除。

フィールド 1 / 4 🏙️ 市街地平坦・高密度創発モーション水平効率重視の通常歩⾏平坦な地形での水平移動を最適化。体高を一定に保ち、滑らかで
省エネな歩⾏に収束する。障害物回避を重視し、垂直方向の動きには罰則が働く。省エネ体高安定水平速度重視滑らか reward_scales tracking_lin_vel +1 水平速度追跡を高く設定 tracking_ang_vel +0.2 方向転換を許容 base_height -20 体高逸脱に強い罰則 action_rate -0.005 急激な動作を抑制 similar_to_default +0.5 デフォルト姿勢を維持 lin_vel_z -1 垂直方向に罰則

フィールド 2 / 4 🏔️ 山岳地帯凹凸・急斜面創発モーション跳躍重視のうさぎ跳び歩行垂直方向の動きに加点し体高制約を緩めることで、岩場を跳び越
える跳躍的な運動が創発する。姿勢制約を完全に外すことで急斜面への適応も許容。うさぎ跳び垂直移動跳躍力高姿勢自由 reward_scales tracking_lin_vel +0.8 水平速度はやや低減 tracking_ang_vel +0.1 直進重視で旋回は低め base_height -5 体高罰則を大幅に緩和 action_rate -0.003 跳躍的な動作を許容 similar_to_default 0 姿勢制約を完全に解除 lin_vel_z +1.5 垂直方向を加点に反転

フィールド 3 / 4 🕳️ 洞窟・地下低天井・暗所創発モーション低姿勢・慎重な移動上方向への強い罰則と低体高維持の加点により、しゃがみ歩き的
な姿勢が創発する。横移動を優先し、天井衝突を回避する慎重な動きに収束。低姿勢しゃがみ歩き天井回避慎重動作 reward_scales tracking_lin_vel +0.7 慎重な水平移動 tracking_ang_vel +0.3 方向転換を頻繁に許容 base_height +3 低体高維持を加点に反転 action_rate -0.008 急動作を強く抑制 similar_to_default +0.2 姿勢を部分的に維持 lin_vel_z -2 上方向に最大強度の罰則

フィールド 4 / 4 🌊 湿地・砂地粘性・スリップ創発モーションゆっくり慎重な安定歩行粘性・スリップのある地形では行動変化率の罰則を⼤幅に強化
し、ゆっくりとした安定重視の動きが創発する。デフォルト姿勢維持を重視し転倒リスクを低減。安定重視低速歩行転倒防止慎重動作 reward_scales tracking_lin_vel +0.5 速度を意図的に抑制 tracking_ang_vel +0.15 方向転換を慎重に base_height -15 体高維持（中程度） action_rate -0.05 急動作を最強レベルで罰則 similar_to_default +0.8 デフォルト姿勢を強く維持 lin_vel_z -0.5 垂直動作を軽く抑制

キャラクター種族テンプレートゲームのロア設定を入力すると種族特性が⾃動でreward_scales に変換される ⛰️ 山岳族「険しい岩山に生き、跳躍力で谷を渡る」 lin_vel_z: +1.5 base_height:
-5 similar: 0.0 🐟 水棲族「河川・海岸に適応し浮力を使って移動」 action_rate: -0.08 lin_vel_z: +0.5 tracking: 0.4 🦎 地下族「洞窟に住み低い姿勢で素早く動く」 base_height: +3.0 lin_vel_z: -2.0 action: -0.01 🦌 草原族「開けた平地で高速直線移動が得意」 tracking_lin: 1.8 ang_vel: 0.05 similar: 0.7 LLM がロアテキストを解析 → 種族特性を数値化 → 正規化レイヤー → reward_scales 出力

フィールド合成ルール複数フィールドの特性を合成して中間的な環境を表現できる合成例：山岳（60% ）＋洞窟（40% ）→ 湿った洞窟 lin_vel_z = 0.6
× (+1.5) + 0.4 × (−2.0) = +0.1 　← わずかに上方向を許容 base_height = 0.6 × (−5.0) + 0.4 × (+3.0) = −1.8 　← 体高はやや⾃由 ⚖️ 加重平均ブレンドフィールドA × 重みα ＋フィールドB × (1−α) 連続的な地形変化（山→ 山麓→ 平地）に最適。重みをリアルタイムに変化させることでシームレスな遷移が実現できる。 blend(A, B, alpha=0.6) 🎯 優先度付きオーバーライド主フィールドのスケールをベースに、副フィールドの特定パラメータのみ上書き。例：市街地がベースで、特定ゾーンだけ水場（action_rate を強化）。 override(base=A, patch=B, keys=['action_rate']) 🛡️ 最悪値（Pessimistic ）合成各パラメータの罰則が大きい方を採⽤。安全重視の設計や、プレイヤーが思い通りに動かせない「難しいフィールド」の表現に適している。 pessimistic(A, B)

LLM プロンプト設計ガイドロアテキストから精度の高い報酬スケールを引き出すためのプロンプト構造プロンプト構造例あなたはゲームキャラクターの運動設計AI です。【キャラクター設定】 {lore_text} 【フィールド特性】地形:
{terrain_type} 摩擦係数: {friction} 天井高: {ceiling_h} 【出力要件】 JSON のみ。説明文不要。値域: lin_vel_z in [-2, 2] rationale を必ず含める ✅ 具体的な動詞を使う 👍 「跳び越える」「這う」「滑る」 👎 「特殊な動き」「ユニーク」 ✅ 身体部位に言及する 👍 「前足で岩を掴む」 👎 「岩場に適応」 ✅ 速度感を数値で⽰す 👍 「人間の2 倍速で走る」 👎 「素早い」 rationale フィールドを出力させることで、LLM の推論根拠をデバッグ・監査できる。係数が期待外れの場合の原因分析に不可欠。

まとめ：何が変わるか BEFORE モーション設計：数百時間の手作業 ⏱ → ⚡ AFTER ロアテキストを書くだけで自動⽣成 BEFORE フィールドごとに個別調整が必要
🔁→ 🔀 AFTER 合成ルールで組み合わせを自動計算 BEFORE キャラクター増加で工数爆発 📐→ 📦 AFTER 種族テンプレートでスケール対応提案価値世界観の一貫性を保ちながら、キャラクターモーション設計コストを大幅に削減。 PPO/SAC による自動学習でゲームデザイナーとAI エンジニアの協業ワークフローを実現。

ecological_niche_reward_function_v3

ecological_niche_reward_function_v3

oggata

More Decks by oggata

Other Decks in Science

Featured

Transcript

C O N C E P T B A C

A N A L O G Y 0 1 動物は「学習済みpolicy

A N A L O G Y 0 2 ニッチ重複：なぜライオンとチーターは共存できるのか

A N A L O G Y 0 3 根本的ニッチ

F O R G A M E C O M

課題：従来のキャラクターモーション設計 ⏱ 工数が⼤きい 1 キャラクターのモーション作成に数百時間。フィールドごとに手動調整が必要。 🔁 一貫性がないデザイナーの感覚頼り。世界観設

コア概念：3 つの等価性生態学・強化学習・ゲーム設計は、同じ構造を異なる言語で記述している生態学 🌿 生態的ニッチ Ecological Niche ある種が環境において占める「機能的役割」の総体。

変換パイプライン世界観テキスト → reward_scales → 運動特性の自動変換フロー 1 フィールド定義地形・物理パラメータ

フィールド 1 / 4 🏙️ 市街地平坦・高密度創発モーション水平効率重視の通常歩⾏平坦な地形での水平移動を最適化。体高を一定に保ち、滑らかで

フィールド 2 / 4 🏔️ 山岳地帯凹凸・急斜面創発モーション跳躍重視のうさぎ跳び歩行垂直方向の動きに加点し体高制約を緩めることで、岩場を跳び越

フィールド 3 / 4 🕳️ 洞窟・地下低天井・暗所創発モーション低姿勢・慎重な移動上方向への強い罰則と低体高維持の加点により、しゃがみ歩き的

フィールド 4 / 4 🌊 湿地・砂地粘性・スリップ創発モーションゆっくり慎重な安定歩行粘性・スリップのある地形では行動変化率の罰則を⼤幅に強化

キャラクター種族テンプレートゲームのロア設定を入力すると種族特性が⾃動でreward_scales に変換される ⛰️ 山岳族「険しい岩山に生き、跳躍力で谷を渡る」 lin_vel_z: +1.5 base_height:

フィールド合成ルール複数フィールドの特性を合成して中間的な環境を表現できる合成例：山岳（60% ）＋洞窟（40% ）→ 湿った洞窟 lin_vel_z = 0.6

まとめ：何が変わるか BEFORE モーション設計：数百時間の手作業 ⏱ → ⚡ AFTER ロアテキストを書くだけで自動⽣成 BEFORE フィールドごとに個別調整が必要