UniAD: Planning-oriented Autonomous Driving 補⾜資料

© 2023 SenseTime. All Rights Reserved. 2 ▪ 概要 •
Vision-based End-to-end Autonomous Driving • Perception, Prediction, Planning について，各タスクの機能を個別に作ったり，マルチタスクモデルにするのではなく，⾃動運転⾞の Planning という究極のゴールのために各モジュールを最適化するというフレームワークを提案． • nuScenes のベンチマークにおいて，あらゆる点で既存⼿法を凌駕．書誌情報 CVPR 2023 Best Paper Award arXiv project page code ※ 特に明記されない限り，本資料の図表は原論⽂，プロジェクトサイトからの引⽤．

© 2023 SenseTime. All Rights Reserved. 3 デモプロジェクトサイトから引⽤ https://opendrivelab.github.io/UniAD/
high level command (navigation signal) BEV (Top View) Surrounding Cameras

© 2023 SenseTime. All Rights Reserved. 4 世界観（Autonomous Driving Framework
の⽐較） (a) 各タスクを独⽴したモデルで処理 • 😃 チーム間の研究開発の難易度を単純化できる． • 😣 最適化が別々に⾏われるので，モジュール間の情報の損失，エラーの蓄積，特徴のズレが起きる． (b) マルチタスク学習 • 😃 特徴の抽象化を活⽤でき，追加タスクの拡張も容易．SoCの計算コストも下げられる． • 😣 Negative Transfer の問題もある．

© 2023 SenseTime. All Rights Reserved. 5 世界観（Autonomous Driving Framework
の⽐較）この論⽂ Planning 指向の精神がある．センサの⼊⼒から直接⾏動計画．モジュールを分ける． Perception → Prediction Mp3 [1], PnPNet [2] など Planning 指向の精神がない．タスクの⽐較・分類 Planning 指向 • Planning に有利なパイプラインをどのように設計すればよいか︖ • どのような先⾏タスクが必要なのか︖ [1] Sergio Casas, Abbas Sadat, Raquel Urtasun. MP3: A Unified Model to Map, Perceive, Predict and Plan. In CVPR, 2021. [2] Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, Raquel Urtasun. PnPNet: End-to-End Perception and Prediction with Tracking in the Loop. In CVPR, 2020.

© 2023 SenseTime. All Rights Reserved. 6 ▪ Planning 指向の哲学
• ⾃動運転フレームワークの新しい展望．効果的なタスク間の協調． • 単純にタスクを積み重ねているわけではない． ▪ UniAD: 包括的なE2Eシステム • クエリベースの設計︓すべてのノードを接続するためのインタフェース • 従来の bounding box 表現に⽐べ，クエリはより⼤きな受容野を持ち，上流の誤差を和らげる効果を持つ． • 複数のエージェント間の関係など，様々な相互作⽤をモデル化し，エンコードできる柔軟性を持つ． • 初めて， Perception, Prediction, Planning の協調を包括的に研究した． ▪ 現実的なシナリオでのベンチマーク • 広範なAblationにより，従来のSOTAをすべての側⾯で上回っていることを⽰した．本論⽂の貢献

© 2023 SenseTime. All Rights Reserved. 8 フレームワークの構成 ▪ Perception,
Prediction モジュール • すべての Perception, Prediction モジュールは，各ノードをつなぐインタフェースとして Task Query をもつ， Transformer Decoder 構造で設計されている． ▪ Planning モジュール • 単純な Attention ベースの構造． • 先⾏するノードから抽出された知識を考慮して，⾃⾞両の将来の Way Point を予測する．⼿法

© 2023 SenseTime. All Rights Reserved. 9 フレームワークの構成 ▪ Backbone
• BEVFormer [3] で複数視点の画像から，BEV特徴 B を抽出する． • BEVFormer に限らず，他のモデルでも良い．⼿法 [3] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. In ECCV, 2022.

© 2023 SenseTime. All Rights Reserved. 10 フレームワークの構成 ▪ TrackFormer
• DETR [4] や MOTR [5] と同じく，クエリベースの検出・トラッキングを⾏うモデル． • Track Query: エージェントの情報を BEV 特徴 B から問い合わせる． • 検出クエリ（初出オブジェクトの検出），追跡クエリ（前のフレームからあるエージェントのモデリングを維持），⾃⾞クエリ（Planningで使⽤） • 最終出⼒状態 QA は，下流のPredictionのタスクのための Na 個の有効なエージェントの知識を提供．⼿法 QA [4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-End Object Detection with Transformers. In ECCV, 2020. [5] Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, Yichen Wei. MOTR: End-to-End Multiple-Object Tracking with Transformer. In ECCV, 2022.

© 2023 SenseTime. All Rights Reserved. 11 フレームワークの構成 ▪ MapFormer
• Panoptic SegFormer [6] (2次元 Panoptic Segmentation の⼿法)ベースの⼿法． • 道路の構成要素を，地図クエリとして疎に表現し，位置と構造の知識をエンコードする． • Things: lanes, dividers, crossings, Stuff: drivable area • 最終層で更新されたクエリ QM のみが MotionFormer に送られる（→エージェントと地図の相互作⽤）⼿法 QM [6] Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022.

© 2023 SenseTime. All Rights Reserved. 12 フレームワークの構成 ▪ MotionFormer
• 前段の TrackFormer の出⼒（エージェントの動き） QA と MapFormer の出⼒（静的マップ） QM から，各エージェントのマルチモーダルな将来軌跡を予測する． • 単⼀の forward pass ですべてのエージェントの将来軌跡を予測する． • TrackFormer からの⾃⾞クエリも，MotionFormer を通し，他⾞との相互作⽤を⾏わせる． • → Planner で使われる．⼿法

© 2023 SenseTime. All Rights Reserved. 13 フレームワークの構成 ▪ OccFormer
• 現在と将来の各時刻において，各グリッドが占有されているか (Occupancy) を表すマップを出⼒する．⼿法

© 2023 SenseTime. All Rights Reserved. 14 フレームワークの構成 ▪ Planner
• ⾃⾞がどのように進むかを計画するモジュール． • 動作のコマンド（左折，右折，前進）を学習可能な埋め込み（Command Query）に変換し，MotionFormer から来た⾃⾞クエリと合わせて，Plan Query とする． • Plan Query と BEV の特徴量 B から，周囲の状況を認識させ，将来の Way Point にデコードする． • 衝突を避けるために，将来の Way Point を，将来の各時刻の Occupancy （OccFormer の出⼒）から遠ざけるような最適化を⾏い，最終的な出⼒とする．⼿法

© 2023 SenseTime. All Rights Reserved. 16 TrackFormer ▪ BEV
上の物体検出・トラッキングを⾏うモジュール ▪ 構成 • N (=6) 個の Transformer Decoder 層 • Qo (=900) 個の初期オブジェクトクエリ • BEV 上の特徴 B から Deformable DETR head で物体検出・トラッキングを⾏う（BEVFormer とほぼ同じ） ▪ Track Query QA • エージェントの数 Na (= dynamic) x D (=256) 次元の，各エージェントの特徴が出⼒される． ▪ 損失関数 • Hungarian Loss を使⽤ • Classification: Focal loss • 3D bbox localization: l1 loss • 𝐿!"#$% = 𝜆&'$#( 𝐿&'$#( + 𝜆(! 𝐿(! , 𝜆&'$#( = 2, 𝜆(! = 0.25 MOTR の仕組み • 基本的には DETR と同じ． • GTとマッチした検出クエリはQIMを通じて，次のタイムスタンプに追跡クエリとして引き継がれる．図は [3] から引⽤．

© 2023 SenseTime. All Rights Reserved. 17 ▪ BEV 上のマッピングを⾏うモジュール
▪ 構成 • Panoptic SegFormer [6] の N (=6) 段の Location Decoder と N (=4) 段の Mask Decoder をスタック • Location decoder の最終層の出⼒の things query を map query QM として後段に送る ▪ Thing query と Stuff query • Thing query︓インスタンスごとの地図要素（lane, boundary, crossing） (300 個) • Stuff query︓意味的な領域（drivable area） (1 個) ▪ 損失関数 • Classification: Focal loss • Localization (Thing class bbox): l1 loss • Segmentation: GIoU loss, Dice loss MapFormer Panoptic SegFormer（図は [6] から引⽤） • Decoder 部分を使う． Query Decoupling Strategy（右．図は [6] から引⽤） • Instance segmentation: Thing Query は GT と⼆部マッチング • Semantic segmentation: Stuff Query はクラス固定割当 [6] Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022.

© 2023 SenseTime. All Rights Reserved. 18 ▪ 各エージェントのマルチモーダルな軌跡を，混合ガウスモデル (GMM)
として予測（Multipath, Multipath++ [7, 8]） • 予測される状態︓ • 各時刻の位置 (μx , μy ) と共分散⾏列の各要素 (σx , σy , ρ) の 5 次元 • 予測のタイムステップ T ︓ 12（2 fps で 6 秒間） • 予測されるモダリティ数 K︓ 6 MotionFormer 3 ⽅向交差点の例． (a) はデータ⽣成過程から抽出されたサンプル．⻘線は GT． (b) は Multipath ⼿法の結果． K=3 における， Intent と uncertainty の分布が正しく予測されている． [8] Fig. 2 から引⽤ [7] Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction. In CoRL, 2019. [8] Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction. In ICRA, 2022.

© 2023 SenseTime. All Rights Reserved. 19 ▪ モデル構造 •
N (=3) 個の積み上げられたTransformerブロック • agent-agent, agent-map, agent-goal の interaction • Queries: query context + query position MotionFormer query context Transformer Decoder with MHSA + MHCA Query Position • シーンレベルアンカの終端点（エージェントレベルアンカを世界座標系に変換したもの） • クラスタリングした，エージェントレベルアンカの終端点． • エージェントの現在位置 • 前の層で出⼒されたエージェントのゴール地点 → Position Embedding → MLP → Summarize → Qpos (K x D 次元, D=256, Qctx と同じ shape) Agent-Goal Interaction Module • Deformable Cross Attention module [9] • 直前の層で予測されたゴールポイントを reference point とし，その周囲の 4 点をサンプリングする． [9] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2020.

© 2023 SenseTime. All Rights Reserved. 20 ▪ ⾮線形最適化 •
予測の際に，上流の Perception の結果の不確実性を考慮したい． • 通常のモーション予測の問題と異なり，End-to-end パラダイムでは，現在の物体の位置・⾓度のGTは得られず，誤差が乗っているという前提で考える． • 普通にGTとの回帰を⾏うと，⾮現実的な軌跡（⼤きな曲率，加速度）になってしまう． ▪ ⾮線形平滑化 • ターゲットの軌跡を修正 MotionFormer GT 軌跡平滑化後の軌跡コスト関数運動関数のセット︓jerk, curvature, curvature rate, acceleration and lateral acceleration 多重狙い打ち法 (Multiple Shooting Method) により⽣成

© 2023 SenseTime. All Rights Reserved. 21 ▪ 学習⽅法 •
模倣学習 (imitation learning) GT の軌跡に対し，推定されたパラメータが最も尤度を最⼤化するようにフィッティング． ▪ 損失関数 • Multipath loss [7, 8] を使⽤． • Classification score loss + Negative log-likelihood loss MotionFormer [7] Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction. In CoRL, 2019. [8] Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction. In ICRA, 2022.

© 2023 SenseTime. All Rights Reserved. 22 ▪ 現在と将来の Occupancy
を予測するモジュール ▪ 構造 • To (=5) ブロックの MHSA + MHCA からなる Transformer Decoder • 各ブロック t から各時刻 t の Occupancy が出⼒される • 計算負荷の低減のため，Query となる dense な特徴マップは downsample-upsample を繰り返すような構造になっている． ▪ 各時刻 t の downscaled BEV特徴 Ft • t=0 では， BEVFormer の出⼒ B を 1/4 に downscale したものが使われる ▪ Pixel-Agent の interaction • 密な特徴 Fds と Agent 特徴 G の interaction • Pixel が Agent のいる位置だけに注⽬するようにマスキングする． OccFormer Track Query Agent Position Motion Query 時刻 t の agent feature Gt Fds : dense feature (/8) Dds Mask feature Mt

© 2023 SenseTime. All Rights Reserved. 23 ▪ 出⼒︓Instance level
occupancy • 各エージェントの IDを保った Occupancy 予測（⼆値のセグメンテーションマップ） • 特徴 Ft を Convolution Decoder で upsample したものと， Mask feature Mt を upsample したものの積 ▪ 損失関数 • Binary Cross Entropy (BCE) + Dice loss • 𝐿'$$ = 𝜆)$*𝐿)$* + 𝜆+,$*𝐿+,$* , 𝜆)$* = 5, 𝜆+,$* = 1 OccFormer Fds t: dense feature Dds t Mask feature Mt Instance-level occupancy

© 2023 SenseTime. All Rights Reserved. 24 ▪ ⾃⾞がどのように進むかを計画するモジュール ▪
構造 • N (=3) 個のTransformer Decoder w/ MHCA • Collision Optimizer ▪ Plan Query • ego-vehicle query (from Tracking and Motion forecasting) • + high-level command (turn left, turn right, forward) • → MLP + maxpool + learned PE Planner Plan Query high level command: • turn left • turn right • forward ego-vehicle queries (tracking & motion forecasting modules)

© 2023 SenseTime. All Rights Reserved. 25 ▪ Collision optimizer
• 衝突回避のための仕組み． ▪ 損失関数 • naïve な imitation loss (l2 loss) と collision loss の組み合わせ (衝突を回避するためのloss: ⾃⾞とエージェントの IoU が⼩さくなるように．) • ω, δ: 安全距離を考慮するための weight と value のペア． • box: ⾃⾞の box + マージン Planner original occupancy 候補最適化後コスト関数衝突項衝突項: 専有されたグリッドから遠ざけるように動作 (S: τt の近傍) imitation Original predicted planning Optimized planning インスタンスレベル occupancy map (OccFormer から)

© 2023 SenseTime. All Rights Reserved. 26 ▪ 2 段階の学習︓安定化
• step 1: TrackFormer + MapFormer だけを学習 (6 epochs) • Backbone の BEVFormer は，学習済みのものを object query embeddings 以外そのまま使い，image backbone は weight を固定． • 損失関数︓ • step 2: TrackFormer + MapFormer + MotionFormer + OccFormer + Planner をすべて合わせて学習 (20 epochs) • Backbone の BEVFormer のうち，BEV encoder も weight を固定． • 損失関数︓ ▪ Shared matching • Tracking における予測結果とGTのマッチング結果を，後段の Motion 予測と Occupancy 予測でも再利⽤する． • 過去のトラックから将来のモーションまでを E2E に⼀貫してモデル化することができる．学習⽅法

© 2023 SenseTime. All Rights Reserved. 28 全体の結果 naïve な
E2E 法提案⼿法 (UniAD) 別々の mutli-task head (baseline) 2種の Prediction task (Motion, Occ.) は必須． 2種類の Prediction の協調効果エージェント表現とシーン表現の両⽅があったほうが良い． Tracking と Mapping ノードの両⽅を使うことで，予測結果が顕著に改善． 2種類の Perception モジュールがモーション予測にどのように貢献するか︖ Tracking と Mapping は両⽅あったほうが良い．⼆種類の Perception task は⼀緒に学習したほうが，双⽅で良い結果になる．

© 2023 SenseTime. All Rights Reserved. 29 モジュールごとの結果 Multi-object tracking
Online mapping Motion Forecasting Occupancy Prediction Planning Immortal Tracker よりは弱い結果．クラスによっては，既存⼿法よりも弱い． → UniAD は Perception の性能を最⼤化するためではなく，知覚された情報を使って，Planning を⾏うことに利点があるという主張． LiDAR ベースの⼿法をも上回る場合がある

© 2023 SenseTime. All Rights Reserved. 30 Ablation Motion Forecasting
Occupancy Prediction Planning • Imitation loss 単体よりも，衝突項を⼊れたほうが良い． • 局所性の制約をつけない（すべてのエージェントとすべての Pixel の相互作⽤）と，わずかに性能が下がる． • Occupancy guided attention mask により，特に近傍で性能が改善． • Agent feature ではなく，Mask feature を使って，Occupancy feature を得ることで， • 更に性能が改善．近傍遠⽅近傍遠⽅ • シーンレベルアンカ (Scene-l. Anch.) により，かなり性能が上がる．つまり，エージェント中⼼ではなく，シーン中⼼で予測を⾏うことが重要． • エージェントとゴール点の相互作⽤，⾃⾞両の意図の考慮，⾮線形最適化はどれも効果的．

© 2023 SenseTime. All Rights Reserved. 32 Navigation Command と
Attention Mask の可視化 Navigation Command によって，Attention mask はどのように変化するか． • コマンドの変化により，Planning の結果の軌道が⼤きく変化している． • ⾃⾞に対して譲っている Critical な⾞両（前⽅）だけでなく，Goal のレーンに対しても多くの Attention が向いている直進左折 → 隣接フレーム →

© 2023 SenseTime. All Rights Reserved. 38 ▪ ⾃動運転フレームワークのシステムレベルの設計に関する論⽂ ▪
Planning 指向のパイプラインの提案 • Perception と Prediction において，どのようなモジュールが必要か • すべてのモジュールを接続する Query デザイン ▪ 広範な実験により，効果を検証 ▪ 限界と今後の課題 • このような包括的な構成を学習することは non-trivial．⼤規模な計算資源も必要 • デプロイのための軽量化 • 他のタスク（深度推定，⾏動予測など）は︖ 結論

© 2023 SenseTime. All Rights Reserved. 39 1. Sergio Casas,
Abbas Sadat, Raquel Urtasun. MP3: A Unified Model to Map, Perceive, Predict and Plan. In CVPR, 2021. 2. Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, Raquel Urtasun. PnPNet: End-to-End Perception and Prediction with Tracking in the Loop. In CVPR, 2020. 3. Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. In ECCV, 2022. 4. Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-End Object Detection with Transformers. In ECCV, 2020. 5. Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, Yichen Wei. MOTR: End-to-End Multiple-Object Tracking with Transformer. In ECCV, 2022. 6. Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022. 7. Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction. In CoRL, 2019. 8. Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction. In ICRA, 2022. 9. Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2020. 参考⽂献リスト

UniAD: Planning-oriented Autonomous Driving 補⾜資料

UniAD: Planning-oriented Autonomous Driving 補⾜資料

More Decks by SenseTime Japan

Other Decks in Research

Featured

Transcript