$30 off During Our Annual Pro Sale. View Details »

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

Inoichan
July 23, 2023

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

2023/7/23に開催されたCV勉強会@関東 CVPR2023の資料です。
論文はCVPR2023のBest paperである「UniAD: Planning-oriented Autonomous Driving」です。
Paper: https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_Planning-Oriented_Autonomous_Driving_CVPR_2023_paper.pdf
Github: https://github.com/OpenDriveLab/UniAD

Inoichan

July 23, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. CONFIDENTIAL
    COMPANY PROFILE
    UniAD: Planning-oriented
    Autonomous Driving
    2023/7/23 いのうえゆういち

    View Slide

  2. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    自己紹介
    ❖ Inoue Yuichi
    ❖ Turing Inc. Brain Research Team
    ❖ 京都大学 博士(薬学)
    ❖ Kaggle competition grandmaster
    Twitter: https://twitter.com/inoichan
    Github: https://github.com/Ino-Ichan
    Kaggle: https://www.kaggle.com/inoueu1
    Linkedin: https://www.linkedin.com/in/inoichan

    View Slide

  3. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    ➢ Paper: link
    ➢ Github: https://github.com/OpenDriveLab/UniAD
    ➢ OpenDriveLabは上海AIラボのグループ
    ➢ カメラベースの自動運転や End-to-endのアプローチなど深層学習ベースのアプローチを研究
    ➢ Teslaっぽいアプローチから初めて独自に進化してきている。
    本論文の主張

    View Slide

  4. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    ❖ 1つのモデルにすべてのコンポーネントを積んだ End-to-endのフレームワーク
    ❖ 最終的に経路予測の部分が良くなるように中間タスクを組み込んだモデルを提案
    本論文の主張

    View Slide

  5. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    従来のモジュールベースの自動運転システム
    Perception Prediction Planning
    Bounding
    boxes
    Waypoints
    Steer
    Gas/Brake
    Trajactory
    ❖ モジュールごとに各タスクを最適化
    ❖ 人が作ったインターフェースでモジュール間をやりとりしている。
    ❖ モジュールごとにチーム作れるから開発しやすい。
    ❖ この方法の欠点は、
    ➢ 最初に入力されたセンサー情報がモジュールを通過するごとに情報が失われていく
    ➢ 誤差が蓄積していく
    ➢ 最適化するターゲットが各モジュールごとに設定されているので最終的な経路予測にとっていい感じ
    の特徴を保持できているかわからない

    View Slide

  6. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    ❖ 特徴量を共有できる
    ❖ タスクを簡単に増やせる
    マルチタスク学習
    Tesla AI Day 2021より[8]

    View Slide

  7. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    マルチタスク学習にはタスク同士が良くない影響を
    与えて精度が悪化する現象を Negative Transferとい
    う。
    本論文ではPlanningを重要視するようにうまく設計し
    て精度が劣化しないようになっている。
    [1]より引用
    マルチタスク学習のデメリット: Negative Transfer

    View Slide

  8. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    ❖ センサー情報から直接経路を予測
    ❖ シミュレータや高速などのシーンでは良い結果も。
    ❖ 解釈性が低く、複雑なコンテキストでは不十分
    これまでのEnd-to-end。。。Deep de pon

    View Slide

  9. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniAD
    ❖ これまでのEnd-to-endのアプローチ
    ❖ 解釈性が上がっている。
    ❖ しかし、どのコンポーネントの重要性の検
    証が不十分で課題が残っていた。
    これまでのEnd-to-end
    ST-P3[10]
    PnPNet[9]

    View Slide

  10. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ Planningが最適化されるようにいい感じに調節したパイプライン
    ❖ 各モジュールで用意した QueryをCross Attentionで更新してタスクを解き、さらに各モジュールで作った
    Queryを新たなKey、Valueとして別モジュールに使用するデザイン。
    モジュール間をつなぐクエリーベースのデザイン

    View Slide

  11. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ DETR3D[3]はマルチカメラの入力を使った 3次元物体検出の手法
    ❖ 画像から特徴を抽出した後、カメラパラメータやリファレンスポイントの予測を使って空間情報を考慮した特
    徴ベクトルのサンプリングを行う
    ❖ タスクに特化したQueryをCross Attentionで更新(DETR3Dのタスクは3次元物体検出)
    全タスクに共通するCross Attentionによるベクトル更新

    View Slide

  12. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ カメラやLiDARなどのセンサー情報を空間情報と結びつけて保持している BEV型の特徴表現
    ❖ 本論文ではBEVFormer[2]を使用しているが他のモデルでも OK
    ❖ BEVFormerは複数カメラの画像を CNNで獲得した特徴ベクトルを KeyとValueとし、空間情報を考慮した
    Cross AttentionでBEV Queryを更新していく。(後の棚橋さんの発表で詳細を説明!期待!)
    ベースとなるBird's Eye View特徴量(BEV特徴量)

    View Slide

  13. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ TrackerにはMOTR[4]を採用
    ❖ 物体に紐付いたTrack QueryをQuery Interaction Moduleで次のフレームで使用する Track Queryを判定
    している。
    ❖ 自車の情報を持った ego-vehicle queryも明示的に用意して Planningに使用。
    Perception: Tracking

    View Slide

  14. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ Map segmentationにはPanoptic SegFormer[5]を採用
    ❖ 車線、分割線、交差点を「 Thing Query」、走行可能エリアを「 Stuff Query」とする。
    ❖ Mask Decoderで6 layersに通したQueryを次のステップで使用。
    ❖ Segmentationタスク用に更に6 layers通してSegmentationの結果を出している。
    Perception: Map segmentation

    View Slide

  15. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    ❖ Motion Formerは本論文で新たに提案した手法
    ❖ エージェントあたり6つ予測を用意し、6秒分予測する。
    ❖ Motion queryはシーンレベルのアンカー I s、エージェントレベルのアンカー 、エージェントの現在の場
    所 、1つ前のLayerで予測したゴール地点から計算する
    ❖ kmeansで出したエージェントレベルのアンカーをあらかじめ用意しておく。
    UniADのパイプライン
    Motion prediction Queryの計算方法
    予め用意しておいたエージェントのアンカー

    View Slide

  16. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    UniADのパイプライン
    ❖ Agent-Agent、Agent-Mapの相互作用は通常の
    Cross Attentionで計算
    ❖ Agent-Goalについては、予測された目標地点か
    ら4点サンプリングしたDeformable Cross
    Attentionを使用
    ❖ Attention moduleの結果を結合し、次のステージ
    や予測に使う。
    Motion Formerの構造

    View Slide

  17. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    ❖ Occ Formerのモジュールも本論文で新たに提案したアーキテクチャ
    ❖ Pixel levelで物体が存在する確率を予測する。
    ❖ 従来のRNNベースの手法はシーン全体が RNNのhidden stateに圧縮されており、お手製の後処理でエージェン
    トごとのOccupancyを求めていた。提案手法ではシーンとエージェントの情報を持った Key、Valueをそれぞれう
    まく入れることで、いい感じにエージェントの情報を組み込み、後処理も軽くなった。
    UniADのパイプライン
    Occupancy prediction

    View Slide

  18. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    ❖ 計算量を抑えるため、 BEV特徴量はCNNで1/4のサイズにして、
    さらにDownscaleのところで1/8まで落としている。
    ❖ Q
    X
    がMotion Formerが出したMotion query。それをシーンの情
    報を持っているQ
    A
    とエージェントポジションを表した P
    A
    と結合し、
    MLP予測タイムスタンプtに対応したMLPにかける。
    ❖ さらにもう一度MLPに通した特徴量とBEV特徴量をかけることで
    Maskを作成。このMaskはPixel-Agentの対応関係を制約として
    Cross Attentionに入れ込む。
    ❖ インスタンスレベルで 1/1スケールのOccupancyを出すときに
    も、Maskをもう一段MLPに通したものを使用する。
    UniADのパイプライン
    Occ Formerのアーキテクチャ

    View Slide

  19. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    ❖ 左折、右折、直進の情報を持たせた学習可能な Command embeddingsを用意。
    ❖ Motion FormerでEgo-vehicleに対応したQueryにCommand queryの情報を合わせたものを Plan Queryと
    する。
    ❖ 推論時に、衝突を回避するために Occ Formerの予測結果のOccupancy mapを使い、予測した経路 τ^を
    ニュートン法に基づいて最適化した τ*を算出する。
    UniADのパイプライン
    Planning

    View Slide

  20. CONFIDENTIAL
    COMPANY PROFILE
    学習安定化の工夫
    ❖ Perceptionを先に学習することで収束が速くなる。
    ❖ Trackingのマッチング結果をPredictionでも使用することで収束が速くなり、さらに一貫したエージェントとし
    て学習することができる。
    Perception stageとEnd-to-end stageの2段階学習
    BEV
    Encoder
    🔥
    Perception
    🔥
    BEV
    Encoder

    Perception
    🔥
    Predictiono
    🔥
    Planning
    🔥
    Stage 1
    Stage 2

    View Slide

  21. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    結果
    ❖ 各タスクがお互いにうまく作用してそれぞれのタスクの精度が上昇している
    ❖ PlanningのタスクはModuleを足すことで最終的な経路の精度が向上している
    Moduleの有無によるAblation

    View Slide

  22. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    結果
    ❖ 最終的なPlanningの精度において、LiDARベースの手法を超える精度を達成している!
    LiDARベースの手法超えた精度を実現

    View Slide

  23. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    結果
    ❖ 各エージェントが別々の色で示されている。
    可視化したときの解釈性が高い

    View Slide

  24. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    結果
    ❖ 歩行者の予測進路もバッチリ。
    ❖ Planning時のAttentionの結果を可視化しているのが一番右の図。重要なエージェント(歩行者)に
    Attentionがかかっているのがわかる。
    歩行者が横断歩道を渡っている難しいケース

    View Slide

  25. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    結果
    ❖ 停車もしっかり認識できている。
    ❖ 一番右のAttention mapを見ても、追い越し時に注目すべきところに Attentionがかかっている。
    停車している車を追い越す難しいケース

    View Slide

  26. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    Next: Scene as Occupancy
    ❖ どの中間表現を使うかは、どのモジュールを途中で使うかはこれからいろいろでてきそう。
    ❖ Depth estimationやBehavior predictionなどまだまだ検討の余地はありそう。
    BEV特徴を3次元に拡張したモデルも提案されてる(同じ
    Author)[11]

    View Slide

  27. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    まとめ
    ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。
    ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。
    ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。
    ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心
    の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで
    きるかもしれない!

    View Slide

  28. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    まとめ
    ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。
    ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。
    ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。
    ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心
    の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで
    きるかもしれない!
    これをTuringではやってます!車も作る!データも大量に集める!
    GPUクラスターも作る!

    View Slide

  29. CONFIDENTIAL
    COMPANY PROFILE
    Section 00 - 00
    参考文献
    1. Liu, Zhijian, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. 2022. “BEVFusion: Multi-Task Multi-Sensor
    Fusion with Unified Bird’s-Eye View Representation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2205.13542.
    2. Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning
    Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2203.17270.
    3. Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection
    from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922.
    4. Zeng, Fangao, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. 2021. “MOTR: End-to-End Multiple-Object
    Tracking with Transformer.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2105.03247.
    5. Li, Zhiqi, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, and Tong Lu. 2021. “Panoptic
    SegFormer: Delving Deeper into Panoptic Segmentation with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.03814.
    6. CVPR23 Plenary Talk | [Best Paper] UniAD: Planning-oriented Autonomous Driving youtube
    7. Gu, Junru, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, and Hang Zhao. 2022. “ViP3D: End-to-End Visual
    Trajectory Prediction via 3D Agent Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2208.01582.
    8. Tesla AI Day 2021 youtube
    9. Liang, Ming, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, and Raquel Urtasun. 2020. “PnPNet: End-to-End
    Perception and Prediction with Tracking in the Loop.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.14711.
    10. Hu, Shengchao, Li Chen, Penghao Wu, Hongyang Li, Junchi Yan, and Dacheng Tao. 2022. “ST-P3: End-to-End Vision-Based
    Autonomous Driving via Spatial-Temporal Feature Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2207.07601.
    11. Tong, Wenwen, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, et al. 2023. “Scene as Occupancy.” arXiv
    [cs.CV]. arXiv. http://arxiv.org/abs/2306.02851.
    12. UniAD: Planning-oriented Autonomous Driving 補⾜資料

    View Slide

  30. View Slide