Slide 1

Slide 1 text

第66回コンピュータビジョン勉強会@関東 世界モデル論文読み会 Kento Sasaki 紹介する論文: Epona: Autoregressive Diffusion World Model for Autonomous Driving (Zhang+, ICCV 2025) Feb. 8, 2026

Slide 2

Slide 2 text

⾃⼰紹介 佐々木謙人 (Kento Sasaki) ● Research Engineer @ Turing Inc. (April 2023~) ● X account: @kento_sasaki1 ● 自動運転VLAモデルの研究開発 ● ICLR 2026, AAAI 2026 (Oral), WACV 2025 (Oral) 1

Slide 3

Slide 3 text

紹介する論⽂ https://kevin-thu.github.io/Epona/ 2

Slide 4

Slide 4 text

過去のカメラ映像とそれに対応する⾛⾏軌跡(メタアクション)を与えたとき、 将来の⾛⾏ダイナミクスを予測する ⾃動運転世界モデルの問題設定 3

Slide 5

Slide 5 text

Motivation Auto Regressive (AR) ✓ 時間的因果性を⾃然に保持 ✓ 可変⻑の将来予測が可能 ✗ トークン化による空間情報の劣化 ✗ ⾼周波な視覚詳細が失われやすい Video Diffusion ✓ ⾼品質で空間的⼀貫性のある動画⽣成 ✓ グローバルな時間分布を⼀括でモデル化可能 ✗ 時間的因果構造が崩れる ✗ 固定⻑の将来予測に限定される 課題:既存⼿法では、因果性と⾼品質⽣成を両⽴できない 提案⼿法:因果的な逐次予測を保ちつつ、連続表現で⾼品質⽣成を実現 4

Slide 6

Slide 6 text

Motivation 5

Slide 7

Slide 7 text

Method

Slide 8

Slide 8 text

Overview 6

Slide 9

Slide 9 text

Epona: AR Diffusion World Model 1) Multimodal Spatiotemporal Transformer (MST) 2) Trajectory Diffusion Transformer (TrajDiT) 3) Next-frame Prediction Diffusion Transformer (VisDiT) 7

Slide 10

Slide 10 text

Multimodal Spatiotemporal Transformer 時刻tまでのフロントカメラ画像および⾛⾏軌跡の埋め込み表現をナイーブに扱うと計算量が 膨⼤になるため、時刻tまでの履歴を圧縮したコンパクトな潜在表現を構築 8

Slide 11

Slide 11 text

Traj / Vis Diffusion Transformer Rectified Flowで速度場を予測 9

Slide 12

Slide 12 text

Temporal-aware DCAE Decoder spatiotemporal self-attention層を追加 各フレームごとデコードすると フリッカーや時系列⽅向の不整合が⽣じるため、 フレーム間で情報共有したい DCAE (Deep Compression AutoEncoder) x32のダウンサンプリングが可能な画像オートエンコーダ 10

Slide 13

Slide 13 text

Chain-of-Forward Training ⾃⼰回帰⽣成では、学習時(GT履歴)と推論時(⾃⼰予測履歴)の ギャップにより、誤差が蓄積 ⼀定間隔でモデルの⾃⼰予測を⽤いて次フレームを⽣成し、 推論時に⽣じる⾃⼰予測に由来するノイズを学習段階に与える 11

Slide 14

Slide 14 text

Experiments

Slide 15

Slide 15 text

Model Size: 2.5B (MST: 1.3B, VisDiT: 1.2B, TrajDiT: 50M) Training Data: nuPlan, nuScenes (700 scenes), image resolution 512 × 1024 Training: NVIDIA A100 48 GPUs, 2 weeks, 600K iterations, batch size 96 Chain-of-Forward Training: every 10 steps, 3 forward passes each time Training & Implementation Details Evaluation on Video Generation Dataset: nuPlan test: 1,628 scenes, nuScenes val: 1,646 scenes Metrics: Frechet Video Distance (FVD), Frechet Inception Distance (FID) Evaluation on Trajectory Planning Benchmarks: nuScenes (L2 distance, collision rate), NAVSIM 12

Slide 16

Slide 16 text

Benchmarks NAVSIM (non-reactive simulation) ● ⽣成画像と実画像の特徴分布の距離を測定 ● 1フレームの画質‧多様性を評価 ● ⽣成動画と実動画の時空間特徴分布の 距離を測定 ● 動きの⾃然さ‧時間的⼀貫性を評価 衝突回避、安全距離確保、 ルート遵守、快適性などを考慮した PDMスコアを評価 13

Slide 17

Slide 17 text

Evaluation of Generated Videos 提案⼿法は、従来⼿法と⽐較してFVDスコアが改善しており、 時間的⼀貫性を保った⻑尺動画が⽣成可能 14

Slide 18

Slide 18 text

Evaluation of trajectory-controlled Video Generation 軌跡を条件として与えることで、その軌跡に従った将来フレームを⽣成可能 15

Slide 19

Slide 19 text

Evaluation of trajectory-controlled Video Generation 16

Slide 20

Slide 20 text

Chain-of-Forwardにより、⾃⼰回帰ドリフトを抑えた⻑尺動画⽣成が可能 Evaluation of Long-range Video Generation 17

Slide 21

Slide 21 text

Evaluation of Trajectory Planning Eponaはフロントカメラのみを⽤いるが、nuScenesベンチマークにおいて 追加の教師信号を⽤いずに競争⼒にある性能を達成 18

Slide 22

Slide 22 text

Evaluation of Trajectory Planning 過去2秒間の観測を条件として4秒先の軌跡を予測し、 NAVSIM v1におけるPDMSでSoTA性能を達成 19

Slide 23

Slide 23 text

Ablations

Slide 24

Slide 24 text

Effect of Shared Latent for Multi-modal Joint Prediction 動画予測と軌跡予測を共有潜在表現で共同学習効果を検証 動画予測を無効にすると、軌跡予測の性能が低下 20

Slide 25

Slide 25 text

Effect of Chain-of Forward Training ⾃⼰回帰的に⻑い系列を⽣成する場合、 Chain-of-Forwardの有無による視覚品質およびFIDの差が拡⼤ 21

Slide 26

Slide 26 text

Effect of Different Context Length 条件フレームを増やすと⻑い履歴情報を活⽤できるため、FVDが改善 (計算コストが増⼤するため、10フレームを採⽤) 22

Slide 27

Slide 27 text

まとめ ● Epona: ⾃⼰回帰拡散モデルを⽤いた⾃動運転世界モデル ● 過去フレームと軌跡を条件とし、将来フレームと軌跡を同時予測 ● Chain-of-Forward学習により⾃⼰回帰ドリフトを抑え、⻑尺動画を⽣成可能 ● TrajDiTとVizDiTを分離する設計により、リアルタイムの軌跡⽣成が可能 23

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

Detailed architecture of DiT 24