[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

CONFIDENTIAL COMPANY PROFILE UniAD: Planning-oriented Autonomous Driving 2023/7/23 いのうえゆういち

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 自己紹介 ❖ Inoue
Yuichi ❖ Turing Inc.　Brain Research Team ❖ 京都大学博士（薬学） ❖ Kaggle competition grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ➢ Paper:
link ➢ Github: https://github.com/OpenDriveLab/UniAD ➢ OpenDriveLabは上海AIラボのグループ ➢ カメラベースの自動運転や End-to-endのアプローチなど深層学習ベースのアプローチを研究 ➢ Teslaっぽいアプローチから初めて独自に進化してきている。本論文の主張

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 1つのモデルにすべてのコンポーネントを積んだ
End-to-endのフレームワーク ❖ 最終的に経路予測の部分が良くなるように中間タスクを組み込んだモデルを提案本論文の主張

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 従来のモジュールベースの自動運転システム Perception Prediction
Planning Bounding boxes Waypoints Steer Gas/Brake Trajactory ❖ モジュールごとに各タスクを最適化 ❖ 人が作ったインターフェースでモジュール間をやりとりしている。 ❖ モジュールごとにチーム作れるから開発しやすい。 ❖ この方法の欠点は、 ➢ 最初に入力されたセンサー情報がモジュールを通過するごとに情報が失われていく ➢ 誤差が蓄積していく ➢ 最適化するターゲットが各モジュールごとに設定されているので最終的な経路予測にとっていい感じの特徴を保持できているかわからない

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 特徴量を共有できる
❖ タスクを簡単に増やせるマルチタスク学習 Tesla AI Day 2021より[8]

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD マルチタスク学習にはタスク同士が良くない影響を与えて精度が悪化する現象を
Negative Transferという。本論文ではPlanningを重要視するようにうまく設計して精度が劣化しないようになっている。 [1]より引用マルチタスク学習のデメリット: Negative Transfer

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ センサー情報から直接経路を予測
❖ シミュレータや高速などのシーンでは良い結果も。 ❖ 解釈性が低く、複雑なコンテキストでは不十分これまでのEnd-to-end。。。Deep de pon

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ これまでのEnd-to-endのアプローチ
❖ 解釈性が上がっている。 ❖ しかし、どのコンポーネントの重要性の検証が不十分で課題が残っていた。これまでのEnd-to-end ST-P3[10] PnPNet[9]

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Planningが最適化されるようにいい感じに調節したパイプライン
❖ 各モジュールで用意した QueryをCross Attentionで更新してタスクを解き、さらに各モジュールで作った Queryを新たなKey、Valueとして別モジュールに使用するデザイン。モジュール間をつなぐクエリーベースのデザイン

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ DETR3D[3]はマルチカメラの入力を使った
3次元物体検出の手法 ❖ 画像から特徴を抽出した後、カメラパラメータやリファレンスポイントの予測を使って空間情報を考慮した特徴ベクトルのサンプリングを行う ❖ タスクに特化したQueryをCross Attentionで更新（DETR3Dのタスクは3次元物体検出）全タスクに共通するCross Attentionによるベクトル更新

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ カメラやLiDARなどのセンサー情報を空間情報と結びつけて保持している
BEV型の特徴表現 ❖ 本論文ではBEVFormer[2]を使用しているが他のモデルでも OK ❖ BEVFormerは複数カメラの画像を CNNで獲得した特徴ベクトルを KeyとValueとし、空間情報を考慮した Cross AttentionでBEV Queryを更新していく。（後の棚橋さんの発表で詳細を説明！期待！）ベースとなるBird's Eye View特徴量（BEV特徴量）

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ TrackerにはMOTR[4]を採用
❖ 物体に紐付いたTrack QueryをQuery Interaction Moduleで次のフレームで使用する Track Queryを判定している。 ❖ 自車の情報を持った ego-vehicle queryも明示的に用意して Planningに使用。 Perception: Tracking

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Map
segmentationにはPanoptic SegFormer[5]を採用 ❖ 車線、分割線、交差点を「 Thing Query」、走行可能エリアを「 Stuff Query」とする。 ❖ Mask Decoderで6 layersに通したQueryを次のステップで使用。 ❖ Segmentationタスク用に更に6 layers通してSegmentationの結果を出している。 Perception: Map segmentation

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Motion Formerは本論文で新たに提案した手法
❖ エージェントあたり6つ予測を用意し、6秒分予測する。 ❖ Motion queryはシーンレベルのアンカー I s、エージェントレベルのアンカー、エージェントの現在の場所、1つ前のLayerで予測したゴール地点から計算する ❖ kmeansで出したエージェントレベルのアンカーをあらかじめ用意しておく。 UniADのパイプライン Motion prediction Queryの計算方法予め用意しておいたエージェントのアンカー

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Agent-Agent、Agent-Mapの相互作用は通常の
Cross Attentionで計算 ❖ Agent-Goalについては、予測された目標地点から4点サンプリングしたDeformable Cross Attentionを使用 ❖ Attention moduleの結果を結合し、次のステージや予測に使う。 Motion Formerの構造

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Occ Formerのモジュールも本論文で新たに提案したアーキテクチャ
❖ Pixel levelで物体が存在する確率を予測する。 ❖ 従来のRNNベースの手法はシーン全体が RNNのhidden stateに圧縮されており、お手製の後処理でエージェントごとのOccupancyを求めていた。提案手法ではシーンとエージェントの情報を持った Key、Valueをそれぞれうまく入れることで、いい感じにエージェントの情報を組み込み、後処理も軽くなった。 UniADのパイプライン Occupancy prediction

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 計算量を抑えるため、 BEV特徴量はCNNで1/4のサイズにして、
さらにDownscaleのところで1/8まで落としている。 ❖ Q X がMotion Formerが出したMotion query。それをシーンの情報を持っているQ A とエージェントポジションを表した P A と結合し、 MLP予測タイムスタンプtに対応したMLPにかける。 ❖ さらにもう一度MLPに通した特徴量とBEV特徴量をかけることで Maskを作成。このMaskはPixel-Agentの対応関係を制約として Cross Attentionに入れ込む。 ❖ インスタンスレベルで 1/1スケールのOccupancyを出すときにも、Maskをもう一段MLPに通したものを使用する。 UniADのパイプライン Occ Formerのアーキテクチャ

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 左折、右折、直進の情報を持たせた学習可能な Command
embeddingsを用意。 ❖ Motion FormerでEgo-vehicleに対応したQueryにCommand queryの情報を合わせたものを Plan Queryとする。 ❖ 推論時に、衝突を回避するために Occ Formerの予測結果のOccupancy mapを使い、予測した経路 τ^をニュートン法に基づいて最適化した τ*を算出する。 UniADのパイプライン Planning

CONFIDENTIAL COMPANY PROFILE 学習安定化の工夫 ❖ Perceptionを先に学習することで収束が速くなる。 ❖ Trackingのマッチング結果をPredictionでも使用することで収束が速くなり、さらに一貫したエージェントとして学習することができる。 Perception
stageとEnd-to-end stageの2段階学習 BEV Encoder 🔥 Perception 🔥 BEV Encoder ❄ Perception 🔥 Predictiono 🔥 Planning 🔥 Stage 1 Stage 2

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各タスクがお互いにうまく作用してそれぞれのタスクの精度が上昇している
❖ PlanningのタスクはModuleを足すことで最終的な経路の精度が向上している Moduleの有無によるAblation

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 最終的なPlanningの精度において、LiDARベースの手法を超える精度を達成している！
LiDARベースの手法超えた精度を実現

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各エージェントが別々の色で示されている。
可視化したときの解釈性が高い

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 歩行者の予測進路もバッチリ。
❖ Planning時のAttentionの結果を可視化しているのが一番右の図。重要なエージェント（歩行者）に Attentionがかかっているのがわかる。歩行者が横断歩道を渡っている難しいケース

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 停車もしっかり認識できている。
❖ 一番右のAttention mapを見ても、追い越し時に注目すべきところに Attentionがかかっている。停車している車を追い越す難しいケース

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 Next: Scene as
Occupancy ❖ どの中間表現を使うかは、どのモジュールを途中で使うかはこれからいろいろでてきそう。 ❖ Depth estimationやBehavior predictionなどまだまだ検討の余地はありそう。 BEV特徴を3次元に拡張したモデルも提案されてる（同じ Author）[11]

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。
★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることができるかもしれない！

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。
★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることができるかもしれない！これをTuringではやってます！車も作る！データも大量に集める！ GPUクラスターも作る！

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 参考文献 1. Liu,
Zhijian, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. 2022. “BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2205.13542. 2. Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. 3. Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. 4. Zeng, Fangao, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. 2021. “MOTR: End-to-End Multiple-Object Tracking with Transformer.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2105.03247. 5. Li, Zhiqi, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, and Tong Lu. 2021. “Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.03814. 6. CVPR23 Plenary Talk | [Best Paper] UniAD: Planning-oriented Autonomous Driving youtube 7. Gu, Junru, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, and Hang Zhao. 2022. “ViP3D: End-to-End Visual Trajectory Prediction via 3D Agent Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2208.01582. 8. Tesla AI Day 2021 youtube 9. Liang, Ming, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, and Raquel Urtasun. 2020. “PnPNet: End-to-End Perception and Prediction with Tracking in the Loop.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.14711. 10. Hu, Shengchao, Li Chen, Penghao Wu, Hongyang Li, Junchi Yan, and Dacheng Tao. 2022. “ST-P3: End-to-End Vision-Based Autonomous Driving via Spatial-Temporal Feature Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2207.07601. 11. Tong, Wenwen, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, et al. 2023. “Scene as Occupancy.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.02851. 12. UniAD: Planning-oriented Autonomous Driving 補⾜資料

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Au...

[CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

Inoichan

More Decks by Inoichan

Other Decks in Research

Featured

Transcript

CONFIDENTIAL COMPANY PROFILE UniAD: Planning-oriented Autonomous Driving 2023/7/23 いのうえゆういち

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 自己紹介 ❖ Inoue

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ➢ Paper:

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 1つのモデルにすべてのコンポーネントを積んだ

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 従来のモジュールベースの自動運転システム Perception Prediction

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 特徴量を共有できる

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD マルチタスク学習にはタスク同士が良くない影響を与えて精度が悪化する現象を

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ センサー情報から直接経路を予測

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ これまでのEnd-to-endのアプローチ

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Planningが最適化されるようにいい感じに調節したパイプライン

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ DETR3D[3]はマルチカメラの入力を使った

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ カメラやLiDARなどのセンサー情報を空間情報と結びつけて保持している

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ TrackerにはMOTR[4]を採用

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Map

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Motion Formerは本論文で新たに提案した手法

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Agent-Agent、Agent-Mapの相互作用は通常の

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Occ Formerのモジュールも本論文で新たに提案したアーキテクチャ

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 計算量を抑えるため、 BEV特徴量はCNNで1/4のサイズにして、

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 左折、右折、直進の情報を持たせた学習可能な Command

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各タスクがお互いにうまく作用してそれぞれのタスクの精度が上昇している

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 最終的なPlanningの精度において、LiDARベースの手法を超える精度を達成している！

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各エージェントが別々の色で示されている。

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 歩行者の予測進路もバッチリ。

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 停車もしっかり認識できている。

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 Next: Scene as

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 参考文献 1. Liu,