Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

Inoichan
July 23, 2023

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

2023/7/23に開催されたCV勉強会@関東 CVPR2023の資料です。
論文はCVPR2023のBest paperである「UniAD: Planning-oriented Autonomous Driving」です。
Paper: https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_Planning-Oriented_Autonomous_Driving_CVPR_2023_paper.pdf
Github: https://github.com/OpenDriveLab/UniAD

Inoichan

July 23, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 自己紹介 ❖ Inoue

    Yuichi ❖ Turing Inc. Brain Research Team ❖ 京都大学 博士(薬学) ❖ Kaggle competition grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan
  2. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ➢ Paper:

    link ➢ Github: https://github.com/OpenDriveLab/UniAD ➢ OpenDriveLabは上海AIラボのグループ ➢ カメラベースの自動運転や End-to-endのアプローチなど深層学習ベースのアプローチを研究 ➢ Teslaっぽいアプローチから初めて独自に進化してきている。 本論文の主張
  3. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 1つのモデルにすべてのコンポーネントを積んだ

    End-to-endのフレームワーク ❖ 最終的に経路予測の部分が良くなるように中間タスクを組み込んだモデルを提案 本論文の主張
  4. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 従来のモジュールベースの自動運転システム Perception Prediction

    Planning Bounding boxes Waypoints Steer Gas/Brake Trajactory ❖ モジュールごとに各タスクを最適化 ❖ 人が作ったインターフェースでモジュール間をやりとりしている。 ❖ モジュールごとにチーム作れるから開発しやすい。 ❖ この方法の欠点は、 ➢ 最初に入力されたセンサー情報がモジュールを通過するごとに情報が失われていく ➢ 誤差が蓄積していく ➢ 最適化するターゲットが各モジュールごとに設定されているので最終的な経路予測にとっていい感じ の特徴を保持できているかわからない
  5. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 特徴量を共有できる

    ❖ タスクを簡単に増やせる マルチタスク学習 Tesla AI Day 2021より[8]
  6. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD マルチタスク学習にはタスク同士が良くない影響を 与えて精度が悪化する現象を

    Negative Transferとい う。 本論文ではPlanningを重要視するようにうまく設計し て精度が劣化しないようになっている。 [1]より引用 マルチタスク学習のデメリット: Negative Transfer
  7. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ センサー情報から直接経路を予測

    ❖ シミュレータや高速などのシーンでは良い結果も。 ❖ 解釈性が低く、複雑なコンテキストでは不十分 これまでのEnd-to-end。。。Deep de pon
  8. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ これまでのEnd-to-endのアプローチ

    ❖ 解釈性が上がっている。 ❖ しかし、どのコンポーネントの重要性の検 証が不十分で課題が残っていた。 これまでのEnd-to-end ST-P3[10] PnPNet[9]
  9. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Planningが最適化されるようにいい感じに調節したパイプライン

    ❖ 各モジュールで用意した QueryをCross Attentionで更新してタスクを解き、さらに各モジュールで作った Queryを新たなKey、Valueとして別モジュールに使用するデザイン。 モジュール間をつなぐクエリーベースのデザイン
  10. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ DETR3D[3]はマルチカメラの入力を使った

    3次元物体検出の手法 ❖ 画像から特徴を抽出した後、カメラパラメータやリファレンスポイントの予測を使って空間情報を考慮した特 徴ベクトルのサンプリングを行う ❖ タスクに特化したQueryをCross Attentionで更新(DETR3Dのタスクは3次元物体検出) 全タスクに共通するCross Attentionによるベクトル更新
  11. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ カメラやLiDARなどのセンサー情報を空間情報と結びつけて保持している

    BEV型の特徴表現 ❖ 本論文ではBEVFormer[2]を使用しているが他のモデルでも OK ❖ BEVFormerは複数カメラの画像を CNNで獲得した特徴ベクトルを KeyとValueとし、空間情報を考慮した Cross AttentionでBEV Queryを更新していく。(後の棚橋さんの発表で詳細を説明!期待!) ベースとなるBird's Eye View特徴量(BEV特徴量)
  12. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ TrackerにはMOTR[4]を採用

    ❖ 物体に紐付いたTrack QueryをQuery Interaction Moduleで次のフレームで使用する Track Queryを判定 している。 ❖ 自車の情報を持った ego-vehicle queryも明示的に用意して Planningに使用。 Perception: Tracking
  13. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Map

    segmentationにはPanoptic SegFormer[5]を採用 ❖ 車線、分割線、交差点を「 Thing Query」、走行可能エリアを「 Stuff Query」とする。 ❖ Mask Decoderで6 layersに通したQueryを次のステップで使用。 ❖ Segmentationタスク用に更に6 layers通してSegmentationの結果を出している。 Perception: Map segmentation
  14. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Motion Formerは本論文で新たに提案した手法

    ❖ エージェントあたり6つ予測を用意し、6秒分予測する。 ❖ Motion queryはシーンレベルのアンカー I s、エージェントレベルのアンカー 、エージェントの現在の場 所 、1つ前のLayerで予測したゴール地点から計算する ❖ kmeansで出したエージェントレベルのアンカーをあらかじめ用意しておく。 UniADのパイプライン Motion prediction Queryの計算方法 予め用意しておいたエージェントのアンカー
  15. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Agent-Agent、Agent-Mapの相互作用は通常の

    Cross Attentionで計算 ❖ Agent-Goalについては、予測された目標地点か ら4点サンプリングしたDeformable Cross Attentionを使用 ❖ Attention moduleの結果を結合し、次のステージ や予測に使う。 Motion Formerの構造
  16. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Occ Formerのモジュールも本論文で新たに提案したアーキテクチャ

    ❖ Pixel levelで物体が存在する確率を予測する。 ❖ 従来のRNNベースの手法はシーン全体が RNNのhidden stateに圧縮されており、お手製の後処理でエージェン トごとのOccupancyを求めていた。提案手法ではシーンとエージェントの情報を持った Key、Valueをそれぞれう まく入れることで、いい感じにエージェントの情報を組み込み、後処理も軽くなった。 UniADのパイプライン Occupancy prediction
  17. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 計算量を抑えるため、 BEV特徴量はCNNで1/4のサイズにして、

    さらにDownscaleのところで1/8まで落としている。 ❖ Q X がMotion Formerが出したMotion query。それをシーンの情 報を持っているQ A とエージェントポジションを表した P A と結合し、 MLP予測タイムスタンプtに対応したMLPにかける。 ❖ さらにもう一度MLPに通した特徴量とBEV特徴量をかけることで Maskを作成。このMaskはPixel-Agentの対応関係を制約として Cross Attentionに入れ込む。 ❖ インスタンスレベルで 1/1スケールのOccupancyを出すときに も、Maskをもう一段MLPに通したものを使用する。 UniADのパイプライン Occ Formerのアーキテクチャ
  18. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 左折、右折、直進の情報を持たせた学習可能な Command

    embeddingsを用意。 ❖ Motion FormerでEgo-vehicleに対応したQueryにCommand queryの情報を合わせたものを Plan Queryと する。 ❖ 推論時に、衝突を回避するために Occ Formerの予測結果のOccupancy mapを使い、予測した経路 τ^を ニュートン法に基づいて最適化した τ*を算出する。 UniADのパイプライン Planning
  19. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各タスクがお互いにうまく作用してそれぞれのタスクの精度が上昇している

    ❖ PlanningのタスクはModuleを足すことで最終的な経路の精度が向上している Moduleの有無によるAblation
  20. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 歩行者の予測進路もバッチリ。

    ❖ Planning時のAttentionの結果を可視化しているのが一番右の図。重要なエージェント(歩行者)に Attentionがかかっているのがわかる。 歩行者が横断歩道を渡っている難しいケース
  21. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 停車もしっかり認識できている。

    ❖ 一番右のAttention mapを見ても、追い越し時に注目すべきところに Attentionがかかっている。 停車している車を追い越す難しいケース
  22. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 Next: Scene as

    Occupancy ❖ どの中間表現を使うかは、どのモジュールを途中で使うかはこれからいろいろでてきそう。 ❖ Depth estimationやBehavior predictionなどまだまだ検討の余地はありそう。 BEV特徴を3次元に拡張したモデルも提案されてる(同じ Author)[11]
  23. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。

    ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心 の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで きるかもしれない!
  24. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。

    ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心 の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで きるかもしれない! これをTuringではやってます!車も作る!データも大量に集める! GPUクラスターも作る!
  25. CONFIDENTIAL COMPANY PROFILE Section 00 - 00 参考文献 1. Liu,

    Zhijian, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. 2022. “BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2205.13542. 2. Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. 3. Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. 4. Zeng, Fangao, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. 2021. “MOTR: End-to-End Multiple-Object Tracking with Transformer.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2105.03247. 5. Li, Zhiqi, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, and Tong Lu. 2021. “Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.03814. 6. CVPR23 Plenary Talk | [Best Paper] UniAD: Planning-oriented Autonomous Driving youtube 7. Gu, Junru, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, and Hang Zhao. 2022. “ViP3D: End-to-End Visual Trajectory Prediction via 3D Agent Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2208.01582. 8. Tesla AI Day 2021 youtube 9. Liang, Ming, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, and Raquel Urtasun. 2020. “PnPNet: End-to-End Perception and Prediction with Tracking in the Loop.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.14711. 10. Hu, Shengchao, Li Chen, Penghao Wu, Hongyang Li, Junchi Yan, and Dacheng Tao. 2022. “ST-P3: End-to-End Vision-Based Autonomous Driving via Spatial-Temporal Feature Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2207.07601. 11. Tong, Wenwen, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, et al. 2023. “Scene as Occupancy.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.02851. 12. UniAD: Planning-oriented Autonomous Driving 補⾜資料