Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ibaraki Seminar for Resilient and Future city #1

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Ibaraki Seminar for Resilient and Future city #1

Avatar for FuruhashiFumihito

FuruhashiFumihito

April 12, 2026

More Decks by FuruhashiFumihito

Other Decks in Science

Transcript

  1. 自己紹介 2 学部: 東京大学工学部システム創成学科 卒論: Evaluation of Crack-Arrest Performance of

    Cruciform Structures Based on a High-Speed Crack Propagation 修士: 東京大学工学部社会基盤学専攻 修論: A Differential Game-Based Trajectory Prediction Model for Autonomous Vehicle Platoons 興味 • 相互作用 • 離散・連続最適化 • Gamification • 交通制御システム
  2. 自動運転車の意思決定 6 時間スケール マクロ ミクロ 制御計画 0~1 [sec] 軌道計画 本研究の対象

    1~10 [sec] 経路計画 1 min~1 hour 課題: 戦略的相互作用下での安全で効率的な意思決定
  3. Lucas critique 7 Robert E. Lucas Jr. (1937-2023) “Given that

    the structure of an econometric model consists of optimal decision rules of economic agents, and that optimal decision rules vary systematically with changes in the structure of series relevant to the decision maker, it follows that any change in policy will systematically alter the structure of econometric models.” 計量経済モデルの構造は、経済主体の最適な意思決定ルールによっ て成り立っており、しかもその最適意思決定ルールは、意思決定主 体に関連する諸系列の構造変化に応じて体系的に変化する。 したがって、いかなる政策変更も、計量経済モデルの構造を体系的 に変化させることになる。 内生性 (Endogeneity) 反応 政策変更
  4. Lucas critique 8 Robert E. Lucas Jr. (1937-2023) “Given that

    the structure of an econometric model consists of optimal decision rules of economic agents, and that optimal decision rules vary systematically with changes in the structure of series relevant to the decision maker, it follows that any change in policy will systematically alter the structure of econometric models.” 自動運転の内生性パラドクス ...予測する主体が予測される主体である 反応 軌道選択 自車 他車 計量経済モデルの構造は、経済主体の最適な意思決定ルールによっ て成り立っており、しかもその最適意思決定ルールは、意思決定主 体に関連する諸系列の構造変化に応じて体系的に変化する。 したがって、いかなる政策変更も、計量経済モデルの構造を体系的 に変化させることになる。
  5. 本研究の提案: EEPC 9 ゲーム理論ベース モデルフリー 内生性パラドクスの解消 モデル設計-評価ギャップ 柔軟なモデル設計 均衡・安全性制約の補償 均衡埋め込み型予測制御

    Equilibrium Embedded Predictive Control, EEPC • 非協力/協力ゲーム • 微分ゲーム • Stackelbergゲーム • 強化学習 • 生成モデル • 模倣学習
  6. 既往研究: 軌道計画問題 subject to ሶ 𝑧 𝑡 = 𝑓 𝑧

    𝑡 , 𝑢(𝑡) , 𝑧 0 = 𝑧0 . min 𝑧,𝑢 𝐽 𝑡, 𝑧, 𝑢 , 車両𝑖の状態: 𝑧𝑖 𝑡 𝑧 𝑡 = 𝑧1 𝑡 , … , 𝑧𝑁 (𝑡) 𝒛 = 𝑧 𝑡 , … , 𝑧(𝑇) 車両𝑖の入力: 𝒖𝑖 𝑡 コスト関数: 𝐽 状態方程式: 𝑓 記法. 11 自車 他車 最適軌道!
  7. 既往研究: 軌道計画問題 12 1970-80年代: MPC 2000年代: 制約・ロバストMPC 2000年代: 多車両制御(外生化, ゲーム)

    2020年代: モデルフリー制御 モデル設計-評価ギャップ 均衡解・安全性の保証 コスト関数の設計 ≠ アルゴリズムの評価式 モデルベースアプローチ • MPC (Model Predictive Control): ...最適化問題として定式化 • ゲーム理論化 ...戦略的均衡解を計算 モデルフリーアプローチ • 模倣学習...人間のデモ軌道を近似 • 強化学習(RL/MARL)...教師なしで学習
  8. 既往研究: 軌道計画問題 13 Su & Judd (2012), Urata & Hato

    (2024) どう解くか? どう書くか? Hoogendoorn & Bovy (2009), Wang et al.(2015) Differential Game モデル調整が困難 MPEC (均衡制約付き数理計画法) 𝐿 𝑡 = 車両距離 + 加速度 + ⋯ min 𝐽 𝑡 = න 𝑡 𝑇 𝐿 𝜏 𝑑𝜏 コスト関数 即時コスト関数 開発者が設計 minimize ℒ(𝑍∗, 𝑈∗) subject to (𝑍∗, 𝑈∗) ∈ 𝐸𝑞𝑢𝑖𝑟𝑖𝑏𝑙𝑖𝑢𝑚 評価関数 利用者が評価 求解 パラメータ更新 モデル設計-評価誤差
  9. 既往研究: モデル設計-評価誤差 15 キーテクノロジー: End-to-End Learning (Liu et al., 2023)

    Liu et al. (2023) Liu, Z., Yin, Y., Bai, F., & Grimm, D. K. (2023). End-to-end learning of user equilibrium with implicit neural networks. Transportation Research Part C: Emerging Technologies, 150, 104085. 柔軟なモデル設計 & 均衡条件の保証 UEの計算 コスト関数 (NN)の学習
  10. 研究の位置付け 既往研究の課題 • 自動運転の内生性パラドクス • モデルの設計-評価ギャップ • 安全性制約の遵守 論文の貢献 •

    軌道計画問題を非協力微分ゲームの一般化Nash均衡解として定式化 • 均衡埋め込み予測制御(Equilibrium Embedded Predictive Control; EEPC)の提案 • モデル設計と軌道計画を同時に充足 • 安全性制約および収束性の保証 16
  11. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 時間 𝑡0 𝑇2 𝑇1 18 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種
  12. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 YOU 𝑡0 → 𝑇1 の軌道計画を考える... 19 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 時間 初期状態: 𝒛𝟎
  13. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 Get • state: 𝑧 • control: 𝑢 20 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 𝐽 𝑡, 𝑧, 𝑢 = ׬ 𝑡 𝑇1 𝐿 𝑠, 𝑧, 𝑢 𝑑𝑠 コスト関数: 即時コスト 𝑉 𝑡, 𝑧 = min 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 価値関数: 時間 初期状態: 𝒛𝟎
  14. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 𝐽 𝑡, 𝑧∗, 𝑢∗ ≤ 𝐽 𝑡, 𝑧𝑖 , 𝑧−𝑖 ∗ , 𝑢𝑖 , 𝑢−𝑖 ∗ 𝑢∗ = argmin 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 最適入力: Nash均衡: Get • state: 𝑧 • control: 𝑢 𝐽 𝑡, 𝑧, 𝑢 = ׬ 𝑡 𝑇1 𝐿 𝑠, 𝑧, 𝑢 𝑑𝑠 コスト関数: 即時コスト 𝑉 𝑡, 𝑧 = min 𝑢𝑖 𝐽 𝑡, 𝑧, 𝑢𝑖 , 𝑢−𝑖 価値関数: 21 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 時間 初期状態: 𝒛𝟎
  15. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 状態方程式 ሶ 𝑧 = ሶ 𝑥 ሶ 𝑦 ሶ 𝜃 ሶ 𝑣 = 𝑓 𝑧, 𝑢∗ = 𝑣 cos 𝜃 𝑣 sin 𝜃 𝑣 𝐿 tan𝛿 𝑎 22 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 時間 初期状態: 𝒛𝟎
  16. 非協力微分ゲーム Γ𝑧0 𝑇 ≔ 𝑁, 𝑢𝑖 , 𝐽𝑖 𝑇 ,

    𝑓 Players Control (actions) Cost function Dynamics 𝑡0 𝑇2 𝑇1 23 Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 時間 時間発展: 𝒇 初期状態: 𝒛𝟎
  17. 非協力微分ゲーム Differential Game (Isaacs, 1955) 連続時間・状態有限プレイヤー数の動的ゲームの一種 Γ𝑧0 𝑇 ≔ 𝑁,

    𝑢𝑖 , 𝐽𝑖 𝑇 , 𝑓 Players Control (actions) Cost function Dynamics 時間 𝑡0 𝑇2 𝑇1 時間発展: 𝒇 初期状態: 𝒛𝟎 24
  18. 一般化ナッシュ均衡 任意の行動空間 𝒰 →安全性が保証されない(ex. 衝突) Nash均衡 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖

    ∗ ≤ 𝐽𝑖 𝑢𝑖 , 𝑢−𝑖 ∗ , ∀𝑢𝑖 ∈ 𝒰 一般化Nash均衡 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ≤ 𝐽𝑖 𝑢𝑖 , 𝑢−𝑖 ∗ , ∀𝑢𝑖 ∈ 𝒦(𝑢−𝑖 ∗ ) [KKT条件] ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 + 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0, 𝜆𝑖 ≥ 0, 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0. [KKT条件] ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 + 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 +𝜇𝑖 Tℎ𝑐𝑟𝑎𝑠ℎ 𝑧𝑖 , 𝑢𝑖 + 𝜈𝑖 Tℎ𝑙𝑎𝑛𝑒 𝑧𝑖 , 𝑢𝑖 = 0, 𝜆𝑖 ≥ 0, 𝜇𝑖 ≥ 0, 𝜈𝑖 ≥ 0, 𝜆𝑖 T𝑓 𝑧𝑖 , 𝑢𝑖 = 0, 𝜇𝑖 Tℎ𝑐𝑟𝑎𝑠ℎ 𝑧𝑖 , 𝑢𝑖 = 0, 𝜈𝑖 Tℎ𝑙𝑎𝑛𝑒 𝑧𝑖 , 𝑢𝑖 = 0. Control Barrier Function (CBF) 25 状態方程式 状態方程式 衝突回避制約 レーン逸脱防止制約 相互依存
  19. Control Barrier Function (CBF) ...システム状態が安全な集合内に留まることを保証するための制約関数 可行集合: 𝒦 = 𝑢 ∈

    𝒰 | ℎ 𝑧 ≥ 0 衝突回避の場合... 安全性制約: ሶ ℎ 𝑧 ≥ 𝛼ℎ 𝑧 ℎ𝑖𝑗 𝑧 = 𝑝𝑖 − 𝑝𝑗 2 − 𝑑𝑚𝑖𝑛 2 ∇𝑧𝑖 ℎ𝑖𝑗 𝑧 𝑓0 𝑧𝑖 + ∇𝑧𝑗 ℎ𝑖𝑗 𝑧 𝑓0 𝑧𝑗 + ∇𝑧𝑖 ℎ𝑖𝑗 𝑧 𝐺 𝑧𝑖 𝑢𝑖 + ∇𝑧𝑗 ℎ𝑖𝑗 𝑧 𝐺 𝑧𝑗 𝑢𝑗 − 𝛼ℎ𝑖𝑗 𝑧 ≥ 0 このとき... ただし、𝑓 𝑧, 𝑢 = 𝑓0 𝑧 + 𝐺 𝑧 𝑢 ⟺ 𝐴𝑖𝑗 𝑧 𝑢𝑖 , 𝑢𝑗 + 𝐵𝑖𝑗 𝑧 ≥ 0 26 線形制約で書ける!!
  20. 変分不等式 (Variational Inequality; VI) 定理1. 解の存在保証 可行集合 𝒦 が非空コンパクト凸集合であり、コスト関数𝐽 が集合𝒦

    上で連続であるとする。このとき、 変分不等式[VI]の解𝑢∗ ∈ 𝒦 が少なくとも一つ存在する。 定理2. 解の唯一性 定理1の仮定に加え、コスト関数𝐽が𝑢に対して𝛽-強凸であるとする。このとき勾配𝐹は𝒦上で強単調 であり、変分不等式[VI]の解は一意に存在する。 ※𝐹 = ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 ⋮ ∇𝑢𝑖 𝐽𝑖 𝑢𝑖 ∗, 𝑢−𝑖 ∗ ; 𝑧0 [KKT条件] [VI] Find 𝑢∗ ∈ 𝒦 subject to 𝐹, 𝑢 − 𝑢∗ ≥ 0, 𝑢 ∈ 𝒦 27 Check: 𝒦は非空コンパクト凸集合? 𝐽が𝛽-強凸? 線形制約より充足
  21. Part 1. Neural Networkのアーキテクチャ ICNN (Input Convex NN): 入力に対して(β-強)凸なNN ...各層の重み𝑊

    𝑙 ≥ 0 30 定理1, 2の仮定を満たし、VIの解が存在&唯一 コスト関数 𝐿𝜃 , 𝐽𝜃 は凸性が保障される。
  22. Part2: 順伝播 1. 損失関数 ℒ を設計する • 目的に応じて任意に設計可能 • 本研究では、

    ℒ 𝑧∗, 𝑢∗ ≔ (衝突率) + (速度乖離) 2. 軌道 𝑧∗, 𝑢∗ 𝑘 からコスト関数を計算 • 即時コスト関数 with NN: 𝐿𝜃 𝑧, 𝑢 3. GNEか判定 • Yes: • 𝑧∗, 𝑢∗ 𝑘 を出力 • 損失関数 ℒ を計算 • No: 𝑧∗, 𝑢∗ 𝑘+1 ← 𝑉𝐼を解いて更新 31 ℒ
  23. Part 2. 誤差逆伝播 損失関数の自動微分: 𝜕ℒ(𝑧∗, 𝑢∗) 𝜕𝜃 = ෍ 𝑡=0

    𝑇 𝜕ℒ 𝜕𝑢∗(𝑡) 𝜕𝑢∗(𝑡) 𝜕𝜃 + 𝜕ℒ 𝜕𝑧∗ 𝜕𝑧∗ 𝜕𝜃 32 𝑢∗はVIの解として𝜃に依存 →自動微分不可 陰関数定理を使うと、固定点問題: 𝑢(𝑘+1) = 𝑇𝜃 (𝑧 𝑘 , 𝑢 𝑘 ) に対して、以下が成立する。 𝜕𝑢∗ 𝜕𝜃 = 𝐼 − 𝜕𝑇𝜃 𝜕𝑢 −1 𝜕𝑇𝜃 𝜕𝜃
  24. 数値実験 35 求解できず... 安全性が大幅改善 but 計算時間... 繰り返し計算 提案モデル 軌道計画アルゴリズムごとの比較 道路幾何ごとの比較

    MPC: 他車軌道が外生的 DG-NE: 微分ゲームのNash均衡 DG-GNE: 微分ゲームの一般化Nash均衡 NN: Neural Networkによる予測 EEPC: 均衡埋め込み型予測制御(提案) 希望速度との乖離を減少 ℒ𝑣 ≔ 1 𝑇 σ𝑡=0 𝑇−1 𝑣 𝑡 −𝑣𝑑 𝑣𝑑 , ℒ𝑐 ≔ 1 𝑇 σ𝑡=0 𝑇−1 𝕀 𝑡 ∈ 0, 𝑇 − 1 , 𝑠. 𝑡. ℎ 𝑧, 𝑡 > 0 .
  25. 結論 今後の発展 提案手法 38 研究の貢献 均衡埋め込み型予測制御(EEPC)の提案 • 非協力微分ゲームの一般化Nash均衡 • 内生性・安全性制約の構造的内部化

    • VI解の存在・一意性の理論的保証 AI agent含む、内生的走行エージェントのための 新たな制御理論の構築 料金設計・政策介入の頑健化(Lucas critique) 不完全情報・通信遅延への対応
  26. 参考文献 Sachiyo Fukuyama. Dynamic game-based approach for optimizing merging vehicle

    trajectories using time-expanded decision diagram. Transportation Research Part C: Emerging Technologies, Vol. 120, p. 102766, 2020. Serge P. Hoogendoorn and Piet Bovy. Generic driving behavior modeling by differential game theory. In C´ ecile Appert Rolland, Franc¸ois Chevoir, Philippe Gondret, Sylvain Lassarre, Jean-Patrick Lebacque, and Michael Schreckenberg, editors, Traffic and Granular Flow ’07, pp. 321–331, Berlin, Heidelberg, 2009. Springer Berlin Heidelberg. Robert E. Lucas. Econometric policy evaluation: A critique. Vol. 1, pp. 19–46, 1976. Rufus Isaacs. The problem of aiming and evasion. Technical Report RAND-P-642, RAND Corporation, Santa Monica, CA, March 1955. Report Date: 1955-03-14. DTIC Accession Number: AD0604643. Collection: TR. Monitor Series: XD. Approved for public release; distribution is unlimited. Richalet, J., Rault, A., Testud, J. L., & Papon, J. (1978). Model predictive heuristic control. Automatica (journal of IFAC), 14(5), 413-428. Su, C. L., & Judd, K. L. (2012). Constrained optimization approaches to estimation of structural models. Econometrica, 80(5), 2213-2230. 39