Slide 1

Slide 1 text

CONFIDENTIAL COMPANY PROFILE UniAD: Planning-oriented Autonomous Driving 2023/7/23 いのうえゆういち

Slide 2

Slide 2 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 自己紹介 ❖ Inoue Yuichi ❖ Turing Inc. Brain Research Team ❖ 京都大学 博士(薬学) ❖ Kaggle competition grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan

Slide 3

Slide 3 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ➢ Paper: link ➢ Github: https://github.com/OpenDriveLab/UniAD ➢ OpenDriveLabは上海AIラボのグループ ➢ カメラベースの自動運転や End-to-endのアプローチなど深層学習ベースのアプローチを研究 ➢ Teslaっぽいアプローチから初めて独自に進化してきている。 本論文の主張

Slide 4

Slide 4 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 1つのモデルにすべてのコンポーネントを積んだ End-to-endのフレームワーク ❖ 最終的に経路予測の部分が良くなるように中間タスクを組み込んだモデルを提案 本論文の主張

Slide 5

Slide 5 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 従来のモジュールベースの自動運転システム Perception Prediction Planning Bounding boxes Waypoints Steer Gas/Brake Trajactory ❖ モジュールごとに各タスクを最適化 ❖ 人が作ったインターフェースでモジュール間をやりとりしている。 ❖ モジュールごとにチーム作れるから開発しやすい。 ❖ この方法の欠点は、 ➢ 最初に入力されたセンサー情報がモジュールを通過するごとに情報が失われていく ➢ 誤差が蓄積していく ➢ 最適化するターゲットが各モジュールごとに設定されているので最終的な経路予測にとっていい感じ の特徴を保持できているかわからない

Slide 6

Slide 6 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ 特徴量を共有できる ❖ タスクを簡単に増やせる マルチタスク学習 Tesla AI Day 2021より[8]

Slide 7

Slide 7 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD マルチタスク学習にはタスク同士が良くない影響を 与えて精度が悪化する現象を Negative Transferとい う。 本論文ではPlanningを重要視するようにうまく設計し て精度が劣化しないようになっている。 [1]より引用 マルチタスク学習のデメリット: Negative Transfer

Slide 8

Slide 8 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ センサー情報から直接経路を予測 ❖ シミュレータや高速などのシーンでは良い結果も。 ❖ 解釈性が低く、複雑なコンテキストでは不十分 これまでのEnd-to-end。。。Deep de pon

Slide 9

Slide 9 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniAD ❖ これまでのEnd-to-endのアプローチ ❖ 解釈性が上がっている。 ❖ しかし、どのコンポーネントの重要性の検 証が不十分で課題が残っていた。 これまでのEnd-to-end ST-P3[10] PnPNet[9]

Slide 10

Slide 10 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Planningが最適化されるようにいい感じに調節したパイプライン ❖ 各モジュールで用意した QueryをCross Attentionで更新してタスクを解き、さらに各モジュールで作った Queryを新たなKey、Valueとして別モジュールに使用するデザイン。 モジュール間をつなぐクエリーベースのデザイン

Slide 11

Slide 11 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ DETR3D[3]はマルチカメラの入力を使った 3次元物体検出の手法 ❖ 画像から特徴を抽出した後、カメラパラメータやリファレンスポイントの予測を使って空間情報を考慮した特 徴ベクトルのサンプリングを行う ❖ タスクに特化したQueryをCross Attentionで更新(DETR3Dのタスクは3次元物体検出) 全タスクに共通するCross Attentionによるベクトル更新

Slide 12

Slide 12 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ カメラやLiDARなどのセンサー情報を空間情報と結びつけて保持している BEV型の特徴表現 ❖ 本論文ではBEVFormer[2]を使用しているが他のモデルでも OK ❖ BEVFormerは複数カメラの画像を CNNで獲得した特徴ベクトルを KeyとValueとし、空間情報を考慮した Cross AttentionでBEV Queryを更新していく。(後の棚橋さんの発表で詳細を説明!期待!) ベースとなるBird's Eye View特徴量(BEV特徴量)

Slide 13

Slide 13 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ TrackerにはMOTR[4]を採用 ❖ 物体に紐付いたTrack QueryをQuery Interaction Moduleで次のフレームで使用する Track Queryを判定 している。 ❖ 自車の情報を持った ego-vehicle queryも明示的に用意して Planningに使用。 Perception: Tracking

Slide 14

Slide 14 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Map segmentationにはPanoptic SegFormer[5]を採用 ❖ 車線、分割線、交差点を「 Thing Query」、走行可能エリアを「 Stuff Query」とする。 ❖ Mask Decoderで6 layersに通したQueryを次のステップで使用。 ❖ Segmentationタスク用に更に6 layers通してSegmentationの結果を出している。 Perception: Map segmentation

Slide 15

Slide 15 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Motion Formerは本論文で新たに提案した手法 ❖ エージェントあたり6つ予測を用意し、6秒分予測する。 ❖ Motion queryはシーンレベルのアンカー I s、エージェントレベルのアンカー 、エージェントの現在の場 所 、1つ前のLayerで予測したゴール地点から計算する ❖ kmeansで出したエージェントレベルのアンカーをあらかじめ用意しておく。 UniADのパイプライン Motion prediction Queryの計算方法 予め用意しておいたエージェントのアンカー

Slide 16

Slide 16 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 UniADのパイプライン ❖ Agent-Agent、Agent-Mapの相互作用は通常の Cross Attentionで計算 ❖ Agent-Goalについては、予測された目標地点か ら4点サンプリングしたDeformable Cross Attentionを使用 ❖ Attention moduleの結果を結合し、次のステージ や予測に使う。 Motion Formerの構造

Slide 17

Slide 17 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ Occ Formerのモジュールも本論文で新たに提案したアーキテクチャ ❖ Pixel levelで物体が存在する確率を予測する。 ❖ 従来のRNNベースの手法はシーン全体が RNNのhidden stateに圧縮されており、お手製の後処理でエージェン トごとのOccupancyを求めていた。提案手法ではシーンとエージェントの情報を持った Key、Valueをそれぞれう まく入れることで、いい感じにエージェントの情報を組み込み、後処理も軽くなった。 UniADのパイプライン Occupancy prediction

Slide 18

Slide 18 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 計算量を抑えるため、 BEV特徴量はCNNで1/4のサイズにして、 さらにDownscaleのところで1/8まで落としている。 ❖ Q X がMotion Formerが出したMotion query。それをシーンの情 報を持っているQ A とエージェントポジションを表した P A と結合し、 MLP予測タイムスタンプtに対応したMLPにかける。 ❖ さらにもう一度MLPに通した特徴量とBEV特徴量をかけることで Maskを作成。このMaskはPixel-Agentの対応関係を制約として Cross Attentionに入れ込む。 ❖ インスタンスレベルで 1/1スケールのOccupancyを出すときに も、Maskをもう一段MLPに通したものを使用する。 UniADのパイプライン Occ Formerのアーキテクチャ

Slide 19

Slide 19 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 ❖ 左折、右折、直進の情報を持たせた学習可能な Command embeddingsを用意。 ❖ Motion FormerでEgo-vehicleに対応したQueryにCommand queryの情報を合わせたものを Plan Queryと する。 ❖ 推論時に、衝突を回避するために Occ Formerの予測結果のOccupancy mapを使い、予測した経路 τ^を ニュートン法に基づいて最適化した τ*を算出する。 UniADのパイプライン Planning

Slide 20

Slide 20 text

CONFIDENTIAL COMPANY PROFILE 学習安定化の工夫 ❖ Perceptionを先に学習することで収束が速くなる。 ❖ Trackingのマッチング結果をPredictionでも使用することで収束が速くなり、さらに一貫したエージェントとし て学習することができる。 Perception stageとEnd-to-end stageの2段階学習 BEV Encoder 🔥 Perception 🔥 BEV Encoder ❄ Perception 🔥 Predictiono 🔥 Planning 🔥 Stage 1 Stage 2

Slide 21

Slide 21 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各タスクがお互いにうまく作用してそれぞれのタスクの精度が上昇している ❖ PlanningのタスクはModuleを足すことで最終的な経路の精度が向上している Moduleの有無によるAblation

Slide 22

Slide 22 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 最終的なPlanningの精度において、LiDARベースの手法を超える精度を達成している! LiDARベースの手法超えた精度を実現

Slide 23

Slide 23 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 各エージェントが別々の色で示されている。 可視化したときの解釈性が高い

Slide 24

Slide 24 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 歩行者の予測進路もバッチリ。 ❖ Planning時のAttentionの結果を可視化しているのが一番右の図。重要なエージェント(歩行者)に Attentionがかかっているのがわかる。 歩行者が横断歩道を渡っている難しいケース

Slide 25

Slide 25 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 結果 ❖ 停車もしっかり認識できている。 ❖ 一番右のAttention mapを見ても、追い越し時に注目すべきところに Attentionがかかっている。 停車している車を追い越す難しいケース

Slide 26

Slide 26 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 Next: Scene as Occupancy ❖ どの中間表現を使うかは、どのモジュールを途中で使うかはこれからいろいろでてきそう。 ❖ Depth estimationやBehavior predictionなどまだまだ検討の余地はありそう。 BEV特徴を3次元に拡張したモデルも提案されてる(同じ Author)[11]

Slide 27

Slide 27 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。 ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心 の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで きるかもしれない!

Slide 28

Slide 28 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 まとめ ★ Queryベースのデザインで各モジュールでいい感じに情報伝達が行われている。 ★ 最終的な経路予測を最適化するという思想が素晴らしく、 LiDARベースを超えているのはすごい。 ★ 推論も考えるとまだまだ最適化のやりがいは無限に残っていそう。 ★ nuScenesというとても小さいデータセットでいい感じの結果や可視化ができているので、 End-to-endの心 の強みを出せる膨大なデータで訓練したときに現在主流のモジュールベースの自動運転を超えることがで きるかもしれない! これをTuringではやってます!車も作る!データも大量に集める! GPUクラスターも作る!

Slide 29

Slide 29 text

CONFIDENTIAL COMPANY PROFILE Section 00 - 00 参考文献 1. Liu, Zhijian, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. 2022. “BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2205.13542. 2. Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. 3. Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. 4. Zeng, Fangao, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. 2021. “MOTR: End-to-End Multiple-Object Tracking with Transformer.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2105.03247. 5. Li, Zhiqi, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, and Tong Lu. 2021. “Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.03814. 6. CVPR23 Plenary Talk | [Best Paper] UniAD: Planning-oriented Autonomous Driving youtube 7. Gu, Junru, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, and Hang Zhao. 2022. “ViP3D: End-to-End Visual Trajectory Prediction via 3D Agent Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2208.01582. 8. Tesla AI Day 2021 youtube 9. Liang, Ming, Bin Yang, Wenyuan Zeng, Yun Chen, Rui Hu, Sergio Casas, and Raquel Urtasun. 2020. “PnPNet: End-to-End Perception and Prediction with Tracking in the Loop.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.14711. 10. Hu, Shengchao, Li Chen, Penghao Wu, Hongyang Li, Junchi Yan, and Dacheng Tao. 2022. “ST-P3: End-to-End Vision-Based Autonomous Driving via Spatial-Temporal Feature Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2207.07601. 11. Tong, Wenwen, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, et al. 2023. “Scene as Occupancy.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2306.02851. 12. UniAD: Planning-oriented Autonomous Driving 補⾜資料

Slide 30

Slide 30 text

No content