$30 off During Our Annual Pro Sale. View Details »

UniAD: Planning-oriented Autonomous Driving 補⾜資料

UniAD: Planning-oriented Autonomous Driving 補⾜資料

CVPR 2023 において Best Paper Award を受賞した Planning-oriented Autonomous Driving (Hu et al.) について,MIRU 2023 の SenseTime Japan 企業展示で紹介いたします.
本資料はそのための補足資料としてまとめたものです.

なお, 本論文は Shanghai AI Lab. と SenseTime Research の共同研究です.

arXiv: https://arxiv.org/abs/2212.10156
project page: https://opendrivelab.github.io/UniAD/
github: https://github.com/OpenDriveLab/UniAD
MIRU2023:「企業展示 EX-G3:株式会社センスタイムジャパン」 http://cvim.ipsj.or.jp/MIRU2023/program/

SenseTime Japan

July 21, 2023
Tweet

More Decks by SenseTime Japan

Other Decks in Research

Transcript

  1. © 2023 SenseTime. All Rights Reserved. 1
    © 2023 SenseTime. All Rights Reserved.
    UniAD: Planning-oriented Autonomous Driving
    補⾜資料
    Jul. 25, 2023.
    Michiya Abe
    SenseTime Japan Ltd.
    MIRU2023, Hamamatsu

    View Slide

  2. © 2023 SenseTime. All Rights Reserved. 2
    ■ 概要
    ● Vision-based End-to-end Autonomous Driving
    ● Perception, Prediction, Planning について,各タスクの機能を個別に作ったり,マルチタスクモデルにするのではなく,
    ⾃動運転⾞の Planning という究極のゴールのために各モジュールを最適化するというフレームワークを提案.
    ● nuScenes のベンチマークにおいて,あらゆる点で既存⼿法を凌駕.
    書誌情報
    CVPR 2023
    Best Paper Award
    arXiv project page code
    ※ 特に明記されない限り,本資料の図表は原論⽂,プロジェクトサイトからの引⽤.

    View Slide

  3. © 2023 SenseTime. All Rights Reserved. 3
    デモ
    プロジェクトサイトから引⽤
    https://opendrivelab.github.io/UniAD/
    high level command
    (navigation signal)
    BEV (Top View)
    Surrounding Cameras

    View Slide

  4. © 2023 SenseTime. All Rights Reserved. 4
    世界観(Autonomous Driving Framework の⽐較)
    (a) 各タスクを独⽴したモデルで処理
    • 😃 チーム間の研究開発の難易度を単純化できる.
    • 😣 最適化が別々に⾏われるので,モジュール間の
    情報の損失,エラーの蓄積,特徴のズレが起きる.
    (b) マルチタスク学習
    • 😃 特徴の抽象化を活⽤でき,追加タスクの拡張も
    容易.SoCの計算コストも下げられる.
    • 😣 Negative Transfer の問題もある.

    View Slide

  5. © 2023 SenseTime. All Rights Reserved. 5
    世界観(Autonomous Driving Framework の⽐較)
    この論⽂
    Planning 指向の精神がある.
    センサの⼊⼒から直接⾏動計画.
    モジュールを分ける.
    Perception → Prediction
    Mp3 [1], PnPNet [2] など
    Planning 指向の精神がない.
    タスクの⽐較・分類
    Planning 指向
    • Planning に有利なパイプラインをどのように設計すればよいか︖
    • どのような先⾏タスクが必要なのか︖
    [1] Sergio Casas, Abbas Sadat, Raquel Urtasun. MP3: A Unified Model to Map, Perceive, Predict and Plan. In CVPR, 2021.
    [2] Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, Raquel Urtasun. PnPNet: End-to-End Perception and Prediction with Tracking in the Loop. In CVPR, 2020.

    View Slide

  6. © 2023 SenseTime. All Rights Reserved. 6
    ■ Planning 指向の哲学
    ● ⾃動運転フレームワークの新しい展望.効果的なタスク間の協調.
    ● 単純にタスクを積み重ねているわけではない.
    ■ UniAD: 包括的なE2Eシステム
    ● クエリベースの設計︓すべてのノードを接続するためのインタフェース
    ● 従来の bounding box 表現に⽐べ,クエリはより⼤きな受容野を持ち,上流の誤差を和らげる効果を持つ.
    ● 複数のエージェント間の関係など,様々な相互作⽤をモデル化し,エンコードできる柔軟性を持つ.
    ● 初めて, Perception, Prediction, Planning の協調を包括的に研究した.
    ■ 現実的なシナリオでのベンチマーク
    ● 広範なAblationにより,従来のSOTAをすべての側⾯で上回っていることを⽰した.
    本論⽂の貢献

    View Slide

  7. © 2023 SenseTime. All Rights Reserved. 7
    まずは, uniad の構成を⾒ていこう

    View Slide

  8. © 2023 SenseTime. All Rights Reserved. 8
    フレームワークの構成
    ■ Perception, Prediction モジュール
    ● すべての Perception, Prediction モジュールは,各ノードをつなぐインタフェースとして Task Query をもつ,
    Transformer Decoder 構造で設計されている.
    ■ Planning モジュール
    ● 単純な Attention ベースの構造.
    ● 先⾏するノードから抽出された知識を考慮して,⾃⾞両の将来の Way Point を予測する.
    ⼿法

    View Slide

  9. © 2023 SenseTime. All Rights Reserved. 9
    フレームワークの構成
    ■ Backbone
    ● BEVFormer [3] で複数視点の画像から,BEV特徴 B を抽出する.
    ● BEVFormer に限らず,他のモデルでも良い.
    ⼿法
    [3] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. In ECCV, 2022.

    View Slide

  10. © 2023 SenseTime. All Rights Reserved. 10
    フレームワークの構成
    ■ TrackFormer
    ● DETR [4] や MOTR [5] と同じく,クエリベースの検出・トラッキングを⾏うモデル.
    ● Track Query: エージェントの情報を BEV 特徴 B から問い合わせる.
    ● 検出クエリ(初出オブジェクトの検出),追跡クエリ(前のフレームからあるエージェントのモデリングを維持),⾃⾞クエリ
    (Planningで使⽤)
    ● 最終出⼒状態 QA
    は,下流のPredictionのタスクのための Na
    個の有効なエージェントの知識を提供.
    ⼿法
    QA
    [4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-End Object Detection with Transformers. In ECCV, 2020.
    [5] Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, Yichen Wei. MOTR: End-to-End Multiple-Object Tracking with Transformer. In ECCV, 2022.

    View Slide

  11. © 2023 SenseTime. All Rights Reserved. 11
    フレームワークの構成
    ■ MapFormer
    ● Panoptic SegFormer [6] (2次元 Panoptic Segmentation の⼿法)ベースの⼿法.
    ● 道路の構成要素を,地図クエリとして疎に表現し,位置と構造の知識をエンコードする.
    ● Things: lanes, dividers, crossings, Stuff: drivable area
    ● 最終層で更新されたクエリ QM
    のみが MotionFormer に送られる(→エージェントと地図の相互作⽤)
    ⼿法
    QM
    [6] Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022.

    View Slide

  12. © 2023 SenseTime. All Rights Reserved. 12
    フレームワークの構成
    ■ MotionFormer
    ● 前段の TrackFormer の出⼒(エージェントの動き) QA
    と MapFormer の出⼒(静的マップ) QM
    から,各エージェ
    ントのマルチモーダルな将来軌跡を予測する.
    ● 単⼀の forward pass ですべてのエージェントの将来軌跡を予測する.
    ● TrackFormer からの⾃⾞クエリも,MotionFormer を通し,他⾞との相互作⽤を⾏わせる.
    ● → Planner で使われる.
    ⼿法

    View Slide

  13. © 2023 SenseTime. All Rights Reserved. 13
    フレームワークの構成
    ■ OccFormer
    ● 現在と将来の各時刻において,各グリッドが占有されているか (Occupancy) を表すマップを出⼒する.
    ⼿法

    View Slide

  14. © 2023 SenseTime. All Rights Reserved. 14
    フレームワークの構成
    ■ Planner
    ● ⾃⾞がどのように進むかを計画するモジュール.
    ● 動作のコマンド(左折,右折,前進)を学習可能な埋め込み(Command Query)に変換し,MotionFormer から
    来た⾃⾞クエリと合わせて,Plan Query とする.
    ● Plan Query と BEV の特徴量 B から,周囲の状況を認識させ,将来の Way Point にデコードする.
    ● 衝突を避けるために,将来の Way Point を,将来の各時刻の Occupancy (OccFormer の出⼒)から遠ざけるよう
    な最適化を⾏い,最終的な出⼒とする.
    ⼿法

    View Slide

  15. © 2023 SenseTime. All Rights Reserved. 15
    次に,各モジュールについて⾒ていこう

    View Slide

  16. © 2023 SenseTime. All Rights Reserved. 16
    TrackFormer
    ■ BEV 上の物体検出・トラッキングを⾏うモジュール
    ■ 構成
    ● N (=6) 個の Transformer Decoder 層
    ● Qo
    (=900) 個の初期オブジェクトクエリ
    ● BEV 上の特徴 B から Deformable DETR head で物体検出・トラッキ
    ングを⾏う(BEVFormer とほぼ同じ)
    ■ Track Query QA
    ● エージェントの数 Na
    (= dynamic) x D (=256) 次元の,各エージェン
    トの特徴が出⼒される.
    ■ 損失関数
    ● Hungarian Loss を使⽤
    ● Classification: Focal loss
    ● 3D bbox localization: l1 loss
    ● 𝐿!"#$%
    = 𝜆&'$#(
    𝐿&'$#(
    + 𝜆(!
    𝐿(!
    , 𝜆&'$#(
    = 2, 𝜆(!
    = 0.25
    MOTR の仕組み
    • 基本的には DETR と同じ.
    • GTとマッチした検出クエリはQIMを通じて,次のタイムス
    タンプに追跡クエリとして引き継がれる.
    図は [3] から引⽤.

    View Slide

  17. © 2023 SenseTime. All Rights Reserved. 17
    ■ BEV 上のマッピングを⾏うモジュール
    ■ 構成
    ● Panoptic SegFormer [6] の N (=6) 段の Location Decoder
    と N (=4) 段の Mask Decoder をスタック
    ● Location decoder の最終層の出⼒の things query を map
    query QM
    として後段に送る
    ■ Thing query と Stuff query
    ● Thing query︓インスタンスごとの地図要素(lane,
    boundary, crossing) (300 個)
    ● Stuff query︓意味的な領域(drivable area) (1 個)
    ■ 損失関数
    ● Classification: Focal loss
    ● Localization (Thing class bbox): l1 loss
    ● Segmentation: GIoU loss, Dice loss
    MapFormer
    Panoptic SegFormer(図は [6] から引⽤)
    • Decoder 部分を使う.
    Query Decoupling Strategy(右.図は [6] から引⽤)
    • Instance segmentation: Thing Query は GT と⼆部マッチング
    • Semantic segmentation: Stuff Query は クラス固定割当
    [6] Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022.

    View Slide

  18. © 2023 SenseTime. All Rights Reserved. 18
    ■ 各エージェントのマルチモーダルな軌跡を,混合ガウスモデル
    (GMM) として予測(Multipath, Multipath++ [7, 8])
    ● 予測される状態︓
    ● 各時刻の位置 (μx
    , μy
    ) と共分散⾏列の各要素 (σx
    , σy
    , ρ) の 5 次元
    ● 予測のタイムステップ T ︓ 12(2 fps で 6 秒間)
    ● 予測されるモダリティ数 K︓ 6
    MotionFormer
    3 ⽅向交差点の例.
    (a) はデータ⽣成過程から抽出されたサンプル.⻘線は GT.
    (b) は Multipath ⼿法の結果. K=3 における, Intent と uncertainty
    の分布が正しく予測されている.
    [8] Fig. 2 から引⽤
    [7] Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction. In CoRL, 2019.
    [8] Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
    Behavior Prediction. In ICRA, 2022.

    View Slide

  19. © 2023 SenseTime. All Rights Reserved. 19
    ■ モデル構造
    ● N (=3) 個の積み上げられたTransformerブロック
    ● agent-agent, agent-map, agent-goal の interaction
    ● Queries: query context + query position
    MotionFormer
    query
    context
    Transformer Decoder with MHSA + MHCA
    Query Position
    • シーンレベルアンカの終端点
    (エージェントレベルアンカを世界座標系に変換したもの)
    • クラスタリングした,エージェントレベルアンカの終端点.
    • エージェントの現在位置
    • 前の層で出⼒されたエージェントのゴール地点
    → Position Embedding → MLP → Summarize → Qpos
    (K x D 次元, D=256, Qctx
    と同じ shape)
    Agent-Goal Interaction Module
    • Deformable Cross Attention module [9]
    • 直前の層で予測されたゴールポイン
    トを reference point とし,その周囲
    の 4 点をサンプリングする.
    [9] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2020.

    View Slide

  20. © 2023 SenseTime. All Rights Reserved. 20
    ■ ⾮線形最適化
    ● 予測の際に,上流の Perception の結果の不確実性を考慮したい.
    ● 通常のモーション予測の問題と異なり,End-to-end パラダイムでは,現在の物体の位置・⾓度のGTは得られず,誤
    差が乗っているという前提で考える.
    ● 普通にGTとの回帰を⾏うと,⾮現実的な軌跡(⼤きな曲率,加速度)になってしまう.
    ■ ⾮線形平滑化
    ● ターゲットの軌跡を修正
    MotionFormer
    GT 軌跡
    平滑化後の軌跡
    コスト関数 運動関数のセット︓jerk, curvature, curvature rate,
    acceleration and lateral acceleration
    多重狙い打ち法 (Multiple
    Shooting Method) により⽣成

    View Slide

  21. © 2023 SenseTime. All Rights Reserved. 21
    ■ 学習⽅法
    ● 模倣学習 (imitation learning)
    GT の軌跡に対し,推定されたパラメータが最も尤度を最⼤化するようにフィッティング.
    ■ 損失関数
    ● Multipath loss [7, 8] を使⽤.
    ● Classification score loss + Negative log-likelihood loss
    MotionFormer
    [7] Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction. In CoRL, 2019.
    [8] Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
    Behavior Prediction. In ICRA, 2022.

    View Slide

  22. © 2023 SenseTime. All Rights Reserved. 22
    ■ 現在と将来の Occupancy を予測するモジュール
    ■ 構造
    ● To
    (=5) ブロックの MHSA + MHCA からなる Transformer Decoder
    ● 各ブロック t から 各時刻 t の Occupancy が出⼒される
    ● 計算負荷の低減のため,Query となる dense な特徴マップは
    downsample-upsample を繰り返すような構造になっている.
    ■ 各時刻 t の downscaled BEV特徴 Ft
    ● t=0 では, BEVFormer の出⼒ B を 1/4 に downscale したものが使われる
    ■ Pixel-Agent の interaction
    ● 密な特徴 Fds
    と Agent 特徴 G の interaction
    ● Pixel が Agent のいる位置だけに注⽬するようにマスキングする.
    OccFormer
    Track Query
    Agent Position
    Motion Query
    時刻 t の agent
    feature Gt
    Fds
    :
    dense feature (/8)
    Dds
    Mask feature Mt

    View Slide

  23. © 2023 SenseTime. All Rights Reserved. 23
    ■ 出⼒︓Instance level occupancy
    ● 各エージェントの IDを保った Occupancy 予測
    (⼆値のセグメンテーションマップ)
    ● 特徴 Ft を Convolution Decoder で upsample したものと,
    Mask feature Mt を upsample したものの積
    ■ 損失関数
    ● Binary Cross Entropy (BCE) + Dice loss
    ● 𝐿'$$ = 𝜆)$*𝐿)$* + 𝜆+,$*𝐿+,$*
    , 𝜆)$*
    = 5, 𝜆+,$* = 1
    OccFormer
    Fds
    t: dense feature
    Dds
    t
    Mask feature Mt
    Instance-level occupancy

    View Slide

  24. © 2023 SenseTime. All Rights Reserved. 24
    ■ ⾃⾞がどのように進むかを計画するモジュール
    ■ 構造
    ● N (=3) 個のTransformer Decoder w/ MHCA
    ● Collision Optimizer
    ■ Plan Query
    ● ego-vehicle query (from Tracking and Motion forecasting)
    ● + high-level command (turn left, turn right, forward)
    ● → MLP + maxpool + learned PE
    Planner
    Plan Query
    high level command:
    • turn left
    • turn right
    • forward ego-vehicle queries
    (tracking & motion forecasting modules)

    View Slide

  25. © 2023 SenseTime. All Rights Reserved. 25
    ■ Collision optimizer
    ● 衝突回避のための仕組み.
    ■ 損失関数
    ● naïve な imitation loss (l2 loss) と collision loss の組み合わせ
    (衝突を回避するためのloss: ⾃⾞とエージェントの IoU が⼩さくなるように.)
    ● ω, δ: 安全距離を考慮するための weight と value のペア.
    ● box: ⾃⾞の box + マージン
    Planner
    original
    occupancy
    候補
    最適化後
    コスト関数 衝突項
    衝突項: 専有されたグリッドから遠ざけるように動作 (S: τt
    の近傍)
    imitation Original
    predicted
    planning
    Optimized
    planning
    インスタンスレベル
    occupancy map
    (OccFormer から)

    View Slide

  26. © 2023 SenseTime. All Rights Reserved. 26
    ■ 2 段階の学習︓安定化
    ● step 1: TrackFormer + MapFormer だけを学習 (6 epochs)
    ● Backbone の BEVFormer は,学習済みのものを object query embeddings 以外そのまま使い,image backbone は weight を固定.
    ● 損失関数︓
    ● step 2: TrackFormer + MapFormer + MotionFormer + OccFormer + Planner をすべて合わせて学習 (20 epochs)
    ● Backbone の BEVFormer のうち,BEV encoder も weight を固定.
    ● 損失関数︓
    ■ Shared matching
    ● Tracking における予測結果とGTのマッチング結果を,後段の Motion 予測と Occupancy 予測でも再利⽤する.
    ● 過去のトラックから将来のモーションまでを E2E に⼀貫してモデル化することができる.
    学習⽅法

    View Slide

  27. © 2023 SenseTime. All Rights Reserved. 27
    実験 (nuScenes)

    View Slide

  28. © 2023 SenseTime. All Rights Reserved. 28
    全体の結果
    naïve な E2E 法
    提案⼿法 (UniAD)
    別々の mutli-task head
    (baseline)
    2種の Prediction task (Motion,
    Occ.) は必須.
    2種類の Prediction の協調効果
    エージェント表現とシーン表現の両⽅が
    あったほうが良い.
    Tracking と Mapping ノードの両⽅を使うこ
    とで,予測結果が顕著に改善.
    2種類の Perception モジュールがモー
    ション予測にどのように貢献するか︖
    Tracking と Mapping は両⽅あったほう
    が良い.
    ⼆種類の Perception task は⼀
    緒に学習したほうが,双⽅で良
    い結果になる.

    View Slide

  29. © 2023 SenseTime. All Rights Reserved. 29
    モジュールごとの結果
    Multi-object tracking Online mapping
    Motion Forecasting Occupancy Prediction Planning
    Immortal Tracker よりは弱い結果. クラスによっては,既存⼿法よりも弱い.
    → UniAD は Perception の性能を最⼤化するためではなく,知覚された情報を使って,Planning を⾏うことに利点があるという主張.
    LiDAR ベースの⼿法をも上回る場合がある

    View Slide

  30. © 2023 SenseTime. All Rights Reserved. 30
    Ablation
    Motion Forecasting
    Occupancy Prediction
    Planning
    • Imitation loss 単体よりも, 衝突項を⼊れたほうが良い.
    • 局所性の制約をつけない(すべてのエージェントとすべての Pixel の相互作⽤)と,
    わずかに性能が下がる.
    • Occupancy guided attention mask により,特に近傍で性能が改善.
    • Agent feature ではなく,Mask feature を使って,Occupancy feature を得ることで,
    • 更に性能が改善.
    近傍 遠⽅ 近傍 遠⽅
    • シーンレベルアンカ (Scene-l. Anch.) により,かなり性能が上がる.つまり,エー
    ジェント中⼼ではなく,シーン中⼼で予測を⾏うことが重要.
    • エージェントとゴール点の相互作⽤,⾃⾞両の意図の考慮,⾮線形最適化はどれも
    効果的.

    View Slide

  31. © 2023 SenseTime. All Rights Reserved. 31
    可視化
    Ego-car
    前⽅の⿊い⾞両がカットインしてきているが,⾃⾞は譲るような⾏動計画を⾏えている.

    View Slide

  32. © 2023 SenseTime. All Rights Reserved. 32
    Navigation Command と Attention Mask の可視化
    Navigation Command によって,Attention mask はど
    のように変化するか.
    • コマンドの変化により,Planning の結果の軌道
    が⼤きく変化している.
    • ⾃⾞に対して譲っている Critical な⾞両(前
    ⽅)だけでなく,Goal のレーンに対しても多く
    の Attention が向いている
    直進 左折
    → 隣接フレーム →

    View Slide

  33. © 2023 SenseTime. All Rights Reserved. 33
    クリティカルなシーン

    View Slide

  34. © 2023 SenseTime. All Rights Reserved. 34
    障害物を避けるシーン

    View Slide

  35. © 2023 SenseTime. All Rights Reserved. 35
    Perception で失敗しても後段で回復できる

    View Slide

  36. © 2023 SenseTime. All Rights Reserved. 36
    失敗したシーン
    ⼤きい⾞両(トレーラー)
    夜間

    View Slide

  37. © 2023 SenseTime. All Rights Reserved. 37
    結論

    View Slide

  38. © 2023 SenseTime. All Rights Reserved. 38
    ■ ⾃動運転フレームワークのシステムレベルの設計に関する論⽂
    ■ Planning 指向のパイプラインの提案
    ● Perception と Prediction において,どのようなモジュールが必要か
    ● すべてのモジュールを接続する Query デザイン
    ■ 広範な実験により,効果を検証
    ■ 限界と今後の課題
    ● このような包括的な構成を学習することは non-trivial.⼤規模な計算資源も必要
    ● デプロイのための軽量化
    ● 他のタスク(深度推定,⾏動予測など)は︖
    結論

    View Slide

  39. © 2023 SenseTime. All Rights Reserved. 39
    1. Sergio Casas, Abbas Sadat, Raquel Urtasun. MP3: A Unified Model to Map, Perceive, Predict and Plan. In CVPR, 2021.
    2. Ming Liang, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, Raquel Urtasun. PnPNet: End-to-End Perception and Prediction
    with Tracking in the Loop. In CVPR, 2020.
    3. Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai. BEVFormer: Learning Bird's-Eye-View
    Representation from Multi-Camera Images via Spatiotemporal Transformers. In ECCV, 2022.
    4. Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-End Object
    Detection with Transformers. In ECCV, 2020.
    5. Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, Yichen Wei. MOTR: End-to-End Multiple-Object Tracking with
    Transformer. In ECCV, 2022.
    6. Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu. Panoptic SegFormer: Delving
    Deeper into Panoptic Segmentation with Transformers. In CVPR, 2022.
    7. Yuning Chai, Benjamin Sapp, Mayank Bansal, Dragomir Anguelov. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for
    Behavior Prediction. In CoRL, 2019.
    8. Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand
    Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp. MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
    Behavior Prediction. In ICRA, 2022.
    9. Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end
    object detection. In ICLR, 2020.
    参考⽂献リスト

    View Slide