Ibaraki Seminar for Resilient and Future city #1

非協力微分ゲームに基づく均衡制約埋め込み予測型車群軌道制御東京大学博士1年古橋郁一羽藤英二 2026年3月5日（木） ISRF#1@筑波大学
※土木計画学（春大会）発表予定

自己紹介 1 八千代町土浦一高

自己紹介 2 学部: 東京大学工学部システム創成学科卒論: Evaluation of Crack-Arrest Performance of
Cruciform Structures Based on a High-Speed Crack Propagation 修士: 東京大学工学部社会基盤学専攻修論: A Differential Game-Based Trajectory Prediction Model for Autonomous Vehicle Platoons 興味 • 相互作用 • 離散・連続最適化 • Gamification • 交通制御システム

自己紹介 3 タイトル: 非協力微分ゲームに基づく均衡制約埋め込み予測型車群軌道制御貴重な機会をありがとうございます。本日はよろしくお願いします！ Key words: 軌道計画、内生性（Lucas
critique）、微分ゲームなど

目次 1. はじめに 2. 既往研究の整理 3. 非協力微分ゲームによる軌道計画問題の定式化 4. 均衡埋め込み予測制御 (EEPC)
5. 数値実験 6. 結論

軌道計画問題 5 YouTube / Waymo ...自動運転車のキーテクノロジー

自動運転車の意思決定 6 時間スケールマクロミクロ制御計画 0~1 [sec] 軌道計画本研究の対象
1~10 [sec] 経路計画 1 min~1 hour 課題: 戦略的相互作用下での安全で効率的な意思決定

Lucas critique 7 Robert E. Lucas Jr. (1937-2023) “Given that
the structure of an econometric model consists of optimal decision rules of economic agents, and that optimal decision rules vary systematically with changes in the structure of series relevant to the decision maker, it follows that any change in policy will systematically alter the structure of econometric models.” 計量経済モデルの構造は、経済主体の最適な意思決定ルールによって成り立っており、しかもその最適意思決定ルールは、意思決定主体に関連する諸系列の構造変化に応じて体系的に変化する。したがって、いかなる政策変更も、計量経済モデルの構造を体系的に変化させることになる。内生性 (Endogeneity) 反応政策変更

Lucas critique 8 Robert E. Lucas Jr. (1937-2023) “Given that
the structure of an econometric model consists of optimal decision rules of economic agents, and that optimal decision rules vary systematically with changes in the structure of series relevant to the decision maker, it follows that any change in policy will systematically alter the structure of econometric models.” 自動運転の内生性パラドクス ...予測する主体が予測される主体である反応軌道選択自車他車計量経済モデルの構造は、経済主体の最適な意思決定ルールによって成り立っており、しかもその最適意思決定ルールは、意思決定主体に関連する諸系列の構造変化に応じて体系的に変化する。したがって、いかなる政策変更も、計量経済モデルの構造を体系的に変化させることになる。

本研究の提案: EEPC 9 ゲーム理論ベースモデルフリー内生性パラドクスの解消モデル設計-評価ギャップ柔軟なモデル設計均衡・安全性制約の補償均衡埋め込み型予測制御
Equilibrium Embedded Predictive Control, EEPC • 非協力/協力ゲーム • 微分ゲーム • Stackelbergゲーム • 強化学習 • 生成モデル • 模倣学習

5. 数値実験 6. 結論 10

既往研究: 軌道計画問題 subject to ሶ 𝑧 𝑡 = 𝑓 𝑧
𝑡 , 𝑢(𝑡) , 𝑧 0 = 𝑧0 . min 𝑧,𝑢 𝐽 𝑡, 𝑧, 𝑢 , 車両𝑖の状態: 𝑧𝑖 𝑡 𝑧 𝑡 = 𝑧1 𝑡 , … , 𝑧𝑁 (𝑡) 𝒛 = 𝑧 𝑡 , … , 𝑧(𝑇) 車両𝑖の入力: 𝒖𝑖 𝑡 コスト関数: 𝐽 状態方程式: 𝑓 記法. 11 自車他車最適軌道！

既往研究: 軌道計画問題 12 1970-80年代: MPC 2000年代: 制約・ロバストMPC 2000年代: 多車両制御（外生化, ゲーム）
2020年代: モデルフリー制御モデル設計-評価ギャップ均衡解・安全性の保証コスト関数の設計 ≠ アルゴリズムの評価式モデルベースアプローチ • MPC (Model Predictive Control): ...最適化問題として定式化 • ゲーム理論化 ...戦略的均衡解を計算モデルフリーアプローチ • 模倣学習...人間のデモ軌道を近似 • 強化学習（RL/MARL）...教師なしで学習

既往研究: 軌道計画問題 13 Su & Judd (2012), Urata & Hato
(2024) どう解くか？どう書くか？ Hoogendoorn & Bovy (2009), Wang et al.(2015) Differential Game モデル調整が困難 MPEC (均衡制約付き数理計画法) 𝐿 𝑡 = 車両距離 + 加速度 + ⋯ min 𝐽 𝑡 = න 𝑡 𝑇 𝐿 𝜏 𝑑𝜏 コスト関数即時コスト関数開発者が設計 minimize ℒ(𝑍∗, 𝑈∗) subject to (𝑍∗, 𝑈∗) ∈ 𝐸𝑞𝑢𝑖𝑟𝑖𝑏𝑙𝑖𝑢𝑚 評価関数利用者が評価求解パラメータ更新モデル設計-評価誤差

既往研究: モデル設計-評価誤差 14 では、AIを使えばいいのでは？ AIなら評価指標を元に学習可能なはず。 No. • 統計的相関 ≠ 均衡&安全性保証
• （特に）コナーケースへの対応は困難回答:

既往研究: モデル設計-評価誤差 15 キーテクノロジー: End-to-End Learning (Liu et al., 2023)
Liu et al. (2023) Liu, Z., Yin, Y., Bai, F., & Grimm, D. K. (2023). End-to-end learning of user equilibrium with implicit neural networks. Transportation Research Part C: Emerging Technologies, 150, 104085. 柔軟なモデル設計 & 均衡条件の保証 UEの計算コスト関数（NN）の学習

研究の位置付け既往研究の課題 • 自動運転の内生性パラドクス • モデルの設計-評価ギャップ • 安全性制約の遵守論文の貢献 •
軌道計画問題を非協力微分ゲームの一般化Nash均衡解として定式化 • 均衡埋め込み予測制御（Equilibrium Embedded Predictive Control; EEPC）の提案 • モデル設計と軌道計画を同時に充足 • 安全性制約および収束性の保証 16

5. 数値実験 6. 結論 17

非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,
𝑓 Players Control (actions) Cost function Dynamics 時間 𝑡0 𝑇2 𝑇1 18 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種

𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 YOU 𝑡0 → 𝑇1 の軌道計画を考える... 19 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種時間初期状態: 𝒛𝟎

𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 Get • state: 𝑧 • control: 𝑢 20 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 𝐽 𝑡, 𝑧, 𝑢 = ׬ 𝑡 𝑇1 𝐿 𝑠, 𝑧, 𝑢 𝑑𝑠 コスト関数: 即時コスト 𝑉 𝑡, 𝑧 = min 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 価値関数: 時間初期状態: 𝒛𝟎

𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 𝐽 𝑡, 𝑧∗, 𝑢∗ ≤ 𝐽 𝑡, 𝑧𝑖 , 𝑧−𝑖 ∗ , 𝑢𝑖 , 𝑢−𝑖 ∗ 𝑢∗ = argmin 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 最適入力: Nash均衡: Get • state: 𝑧 • control: 𝑢 𝐽 𝑡, 𝑧, 𝑢 = ׬ 𝑡 𝑇1 𝐿 𝑠, 𝑧, 𝑢 𝑑𝑠 コスト関数: 即時コスト 𝑉 𝑡, 𝑧 = min 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 価値関数: 21 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種時間初期状態: 𝒛𝟎

𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 状態方程式 ሶ 𝑧 = ሶ 𝑥 ሶ 𝑦 ሶ 𝜃 ሶ 𝑣 = 𝑓 𝑧, 𝑢∗ = 𝑣 cos 𝜃 𝑣 sin 𝜃 𝑣 𝐿 tan𝛿 𝑎 22 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種時間初期状態: 𝒛𝟎

𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 23 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種時間時間発展: 𝒇 初期状態: 𝒛𝟎

非協力微分ゲーム Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 Γ𝑧0 𝑇 ≔ 𝑁,
𝑢𝑖 , 𝐽𝑖 𝑇 , 𝑓 Players Control (actions) Cost function Dynamics 時間 𝑡0 𝑇2 𝑇1 時間発展: 𝒇 初期状態: 𝒛𝟎 24

一般化ナッシュ均衡任意の行動空間 𝒰 →安全性が保証されない（ex. 衝突） Nash均衡 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖
∗ ≤ 𝐽𝑖 𝑢𝑖 , 𝑢−𝑖 ∗ , ∀𝑢𝑖 ∈ 𝒰 一般化Nash均衡 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ≤ 𝐽𝑖 𝑢𝑖 , 𝑢−𝑖 ∗ , ∀𝑢𝑖 ∈ 𝒦(𝑢−𝑖 ∗ ) [KKT条件] ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 + 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0, 𝜆𝑖 ≥ 0, 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0. [KKT条件] ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 + 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 +𝜇𝑖 Tℎ𝑐𝑟𝑎𝑠ℎ 𝑧𝑖 , 𝑢𝑖 + 𝜈𝑖 Tℎ𝑙𝑎𝑛𝑒 𝑧𝑖 , 𝑢𝑖 = 0, 𝜆𝑖 ≥ 0, 𝜇𝑖 ≥ 0, 𝜈𝑖 ≥ 0, 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0, 𝜇𝑖 Tℎ𝑐𝑟𝑎𝑠ℎ 𝑧𝑖 , 𝑢𝑖 = 0, 𝜈𝑖 Tℎ𝑙𝑎𝑛𝑒 𝑧𝑖 , 𝑢𝑖 = 0. Control Barrier Function (CBF) 25 状態方程式状態方程式衝突回避制約レーン逸脱防止制約相互依存

Control Barrier Function (CBF) ...システム状態が安全な集合内に留まることを保証するための制約関数可行集合: 𝒦 = 𝑢 ∈
𝒰 | ℎ 𝑧 ≥ 0 衝突回避の場合... 安全性制約: ሶ ℎ 𝑧 ≥ 𝛼ℎ 𝑧 ℎ𝑖𝑗 𝑧 = 𝑝𝑖 − 𝑝𝑗 2 − 𝑑𝑚𝑖𝑛 2 ∇𝑧𝑖 ℎ𝑖𝑗 𝑧 𝑓0 𝑧𝑖 + ∇𝑧𝑗 ℎ𝑖𝑗 𝑧 𝑓0 𝑧𝑗 + ∇𝑧𝑖 ℎ𝑖𝑗 𝑧 𝐺 𝑧𝑖 𝑢𝑖 + ∇𝑧𝑗 ℎ𝑖𝑗 𝑧 𝐺 𝑧𝑗 𝑢𝑗 − 𝛼ℎ𝑖𝑗 𝑧 ≥ 0 このとき... ただし、𝑓 𝑧, 𝑢 = 𝑓0 𝑧 + 𝐺 𝑧 𝑢 ⟺ 𝐴𝑖𝑗 𝑧 𝑢𝑖 , 𝑢𝑗 + 𝐵𝑖𝑗 𝑧 ≥ 0 26 線形制約で書ける！！

変分不等式 (Variational Inequality; VI) 定理1. 解の存在保証可行集合 𝒦 が非空コンパクト凸集合であり、コスト関数𝐽 が集合𝒦
上で連続であるとする。このとき、変分不等式[VI]の解𝑢∗ ∈ 𝒦 が少なくとも一つ存在する。定理2. 解の唯一性定理1の仮定に加え、コスト関数𝐽が𝑢に対して𝛽-強凸であるとする。このとき勾配𝐹は𝒦上で強単調であり、変分不等式[VI]の解は一意に存在する。 ※𝐹 = ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 ⋮ ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 [KKT条件] [VI] Find 𝑢∗ ∈ 𝒦 subject to 𝐹, 𝑢 − 𝑢∗ ≥ 0, 𝑢 ∈ 𝒦 27 Check: 𝒦は非空コンパクト凸集合？ 𝐽が𝛽-強凸？線形制約より充足

5. 数値実験 6. 結論 28

EEPCのフレームワーク 29 Part 1.コスト関数の学習 Part 2. 変分不等式の求解

Part 1. Neural Networkのアーキテクチャ ICNN (Input Convex NN): 入力に対して(β-強)凸なNN ...各層の重み𝑊
𝑙 ≥ 0 30 定理1, 2の仮定を満たし、VIの解が存在&唯一コスト関数 𝐿𝜃 , 𝐽𝜃 は凸性が保障される。

Part2: 順伝播 1. 損失関数 ℒ を設計する • 目的に応じて任意に設計可能 • 本研究では、
ℒ 𝑧∗, 𝑢∗ ≔ （衝突率） + （速度乖離） 2. 軌道 𝑧∗, 𝑢∗ 𝑘 からコスト関数を計算 • 即時コスト関数 with NN: 𝐿𝜃 𝑧, 𝑢 3. GNEか判定 • Yes: • 𝑧∗, 𝑢∗ 𝑘 を出力 • 損失関数 ℒ を計算 • No: 𝑧∗, 𝑢∗ 𝑘+1 ← 𝑉𝐼を解いて更新 31 ℒ

Part 2. 誤差逆伝播損失関数の自動微分: 𝜕ℒ(𝑧∗, 𝑢∗) 𝜕𝜃 = ෍ 𝑡=0
𝑇 𝜕ℒ 𝜕𝑢∗(𝑡) 𝜕𝑢∗(𝑡) 𝜕𝜃 + 𝜕ℒ 𝜕𝑧∗ 𝜕𝑧∗ 𝜕𝜃 32 𝑢∗はVIの解として𝜃に依存 →自動微分不可陰関数定理を使うと、固定点問題: 𝑢(𝑘+1) = 𝑇𝜃 (𝑧 𝑘 , 𝑢 𝑘 ) に対して、以下が成立する。 𝜕𝑢∗ 𝜕𝜃 = 𝐼 − 𝜕𝑇𝜃 𝜕𝑢 −1 𝜕𝑇𝜃 𝜕𝜃

5. 数値実験 6. 結論

数値実験 34 シナリオ1. 直線部シナリオ2. 曲線部シナリオ3. 合流部

数値実験 35 求解できず... 安全性が大幅改善 but 計算時間... 繰り返し計算提案モデル軌道計画アルゴリズムごとの比較道路幾何ごとの比較
MPC: 他車軌道が外生的 DG-NE: 微分ゲームのNash均衡 DG-GNE: 微分ゲームの一般化Nash均衡 NN: Neural Networkによる予測 EEPC: 均衡埋め込み型予測制御（提案）希望速度との乖離を減少 ℒ𝑣 ≔ 1 𝑇 σ𝑡=0 𝑇−1 𝑣 𝑡 −𝑣𝑑 𝑣𝑑 , ℒ𝑐 ≔ 1 𝑇 σ𝑡=0 𝑇−1 𝕀 𝑡 ∈ 0, 𝑇 − 1 , 𝑠. 𝑡. ℎ 𝑧, 𝑡 > 0 .

数値実験 36 提案手法（EEPC）既存手法（MPC）滑らかかつ安全な軌道を計画！

5. 数値実験 6. 結論 37

結論今後の発展提案手法 38 研究の貢献均衡埋め込み型予測制御（EEPC）の提案 • 非協力微分ゲームの一般化Nash均衡 • 内生性・安全性制約の構造的内部化
• VI解の存在・一意性の理論的保証 AI agent含む、内生的走行エージェントのための新たな制御理論の構築料金設計・政策介入の頑健化（Lucas critique）不完全情報・通信遅延への対応

参考文献 Sachiyo Fukuyama. Dynamic game-based approach for optimizing merging vehicle
trajectories using time-expanded decision diagram. Transportation Research Part C: Emerging Technologies, Vol. 120, p. 102766, 2020. Serge P. Hoogendoorn and Piet Bovy. Generic driving behavior modeling by differential game theory. In C´ ecile Appert Rolland, François Chevoir, Philippe Gondret, Sylvain Lassarre, Jean-Patrick Lebacque, and Michael Schreckenberg, editors, Traffic and Granular Flow ’07, pp. 321–331, Berlin, Heidelberg, 2009. Springer Berlin Heidelberg. Robert E. Lucas. Econometric policy evaluation: A critique. Vol. 1, pp. 19–46, 1976. Rufus Isaacs. The problem of aiming and evasion. Technical Report RAND-P-642, RAND Corporation, Santa Monica, CA, March 1955. Report Date: 1955-03-14. DTIC Accession Number: AD0604643. Collection: TR. Monitor Series: XD. Approved for public release; distribution is unlimited. Richalet, J., Rault, A., Testud, J. L., & Papon, J. (1978). Model predictive heuristic control. Automatica (journal of IFAC), 14(5), 413-428. Su, C. L., & Judd, K. L. (2012). Constrained optimization approaches to estimation of structural models. Econometrica, 80(5), 2213-2230. 39

Ibaraki Seminar for Resilient and Future city #1

Ibaraki Seminar for Resilient and Future city #1

More Decks by FuruhashiFumihito

Other Decks in Science

Featured

Transcript