Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

Inoichan
April 30, 2023

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

CVPR2023に発表されたTri-Perspective View for Vision-Based 3D Semantic Occupancy Predictionをベースにマルチカメラを用いた自動運転の流れなどを紹介します。
Paper: Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
arXive: https://arxiv.org/abs/2302.07817
Github: https://github.com/wzzheng/TPVFormer

Inoichan

April 30, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. マルチカメラを用いた自動運転の
    3D Occupancy Prediction
    Turing Inc.
    Inoue Yuichi

    View Slide

  2. 自己紹介
    ❏ Inoue Yuichi
    Turing Inc.で自動運転開発
    京都大学 博士(薬学)
    Kaggle competition grandmaster
    Twitter: https://twitter.com/inoichan
    Github: https://github.com/Ino-Ichan
    Kaggle: https://www.kaggle.com/inoueu1
    Linkedin: https://www.linkedin.com/in/inoichan
    Google検索 「Turing 自動運転」

    View Slide

  3. Outline
    ● 3D occupancy predictionが自動運転で注目された背景
    ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    ● 関連研究の紹介

    View Slide

  4. Outline
    ● 3D occupancy predictionが自動運転で注目された背景
    ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    ● 関連研究の紹介

    View Slide

  5. 自動運転のVision-centric Occupancy Predictionのはじまり
    マルチカメラのOccupancy Predictionが初めて大々的に発表されたのが
    CVPR'22 WAD
    WorkshopでのTeslaのDirector of AutopilotのAshokによるKeynote。
    Youtube link

    View Slide

  6. 自動運転のVision-centric Occupancy Predictionのはじまり
    マルチカメラから抽出した特徴量を
    Cross Attentionで
    Occupancy Queryに組み込んでいく。
    Youtube link

    View Slide

  7. 自動運転のVision-centric Occupancy Predictionのはじまり
    もともとTeslaは鳥瞰図のSegmentationを行っていたが、それ
    を3DのOccupancyに拡張したようなモデル。
    参考: Teslaはカメラを使ってどのように世界を認識しているか
    Youtube link

    View Slide

  8. 自動運転のVision-centric Occupancy Predictionのはじまり
    2022年はマルチカメラの3D物体検出とBEVセグメンテーションが流
    行っていた。
    参考: Awesome BEV Perception from Multi-Cameras

    View Slide

  9. Outline
    ● 3D occupancy predictionが自動運転で注目された背景
    ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    ● 関連研究の紹介

    View Slide

  10. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    今日紹介する論文
    - Voxel表現の計算量が多い問題
    - 鳥瞰図(BEV)表現のz軸ない問題
    ➔ BEV planeにさらに2 plane加えたTri-Perspective View(TPV)表現を提案。
    TPVにより計算量を抑えてVoxel表現を実現。

    View Slide

  11. Tri-Perspective View(TPV)とは
    ● 3つの互いに直行した平面でセグメンテーションを行う。
    ● TPVからVoxelに変換するときは、双線形補間+和算で算出する。
    [TPVの定義]
    [TPVからVoxelへの変換]

    View Slide

  12. TPVFormer
    ● TPVをマルチカメラの入力から効率よく作成するための
    Transformerベースの手法を同時に提
    案している。
    ● 画像空間の特徴量をTPV空間のQueryとCross-AttentionをするImage Cross-Attentionと
    TPV空間の特徴同士でSelf-Attentionを行うCross-View Hybrid-Attentionを使用。

    View Slide

  13. Image Cross-Attention
    1. 各平面のQueryのピクセルが世界座標でどの位置に相当するかを計算
    2. そのQueryの世界座標での位置で、周囲Nref点をサンプリング
    (位置についてはDeformable Attentionを使用しているので学習対象)
    3. サンプリングしたNref個の点について透視投影を使って画像上のピクセル座標を計算
    4. 対応点がないものは取り除く
    5. これを各TPV平面、各カメラに対して行う。
    *BEVFormerのSpatial Cross-Attentionに近い。
    参考: BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

    View Slide

  14. Cross-View Hybrid-Attention
    TPV平面同士のCross-Attention
    計算量を考慮し、ここでもDeformable Cross-Attentionを使用
    例えばTop平面のある点をQueryとしたときサンプリングする点は、
    1. Top平面のその周囲の点からランダムにサンプリング
    2. Side、Front平面の重なる箇所から均一にサンプリング
    3. 各平面のすべての点で同じように
    Cross-Attention

    View Slide

  15. TPVFormer
    ● 最後にVoxel出力をするために軽量なMLPで各Voxelのクラスを予測している。
    [TPVからVoxelへの変換] (再掲)

    View Slide

  16. タスクについて
    1. 3D semantic occupancy prediction(nuScenes)
    LiDARのスパースなラベルを使って学習し、推論は
    Denseに行う。
    Denseな予測に関して本手法がベンチマークとなる。
    2. LiDAR segmentation(nuScenes)
    LiDARで認識したpointに対してのクラスを予測する。
    3. Semantic Scene Completion(Semantic KITTI)
    Voxelデータで学習し、推論を行う。
    *nuScenesもKITTIも有名な自動運転のデータセット

    View Slide

  17. nuScenesの結果

    View Slide

  18. nuScenesの結果
    LiDARのSoTAにはまだまだ届かないが、カメラのみを使った
    LiDARセグメンテーションのベンチマー
    クとしてはまずまず。

    View Slide

  19. Semantic KITTIの結果
    この分野で有名なMonoSceneを超えたし、パラメータサイズも軽量!
    (TPVFormer 6.0M vs MonoScene 15.7M)

    View Slide

  20. TeslaのOccupancy Networkとの比較
    現状、Tesla、強すぎ...😂

    View Slide

  21. Outline
    ● 3D occupancy predictionが自動運転で注目された背景
    ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    ● 関連研究の紹介

    View Slide

  22. Occupancyデータセット: SurroundOcc
    ● マルチカメラのOccupancy Datasetがないので作る研究
    ● LiDARのデータを静的な背景シーンと動的な移動物体に分けて時間を加味してス
    パースな空間を埋めていく。
    ● TPVFormerと同じラボの仕事

    View Slide

  23. Occupancyデータセット: OpenOccupancy
    ● LiDARから作ったVoxelアノテーションをベースに、モデル学習〜疑似ラベル付け
    を行い、最後に人の手でPurifyしている。
    ● Voxel解像度も従来よりも高く設定されている。

    View Slide

  24. 新しいモデルが次々と提案されている。
    SurroundOcc(2023.3) BEVFormer 3D拡張版(2023.3)
    BEVDet4Dの拡張版(2023.4)
    OccFormer(2023.4)
    VoxFormer(2023.2) 宮澤さんの資料を見てね

    View Slide

  25. CVPR’23 VCAD WorkshopでChallengeが開催中
    - VCAD Workshop: https://vcad.site/
    - Challenge page: https://opendrivelab.com/AD23Challenge.html#Track3
    - Devkit: https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction

    View Slide

  26. 3D Occupancyのその次
    ● 3D Occupancyで認識したVoxel空間の情報だけでなく、その手前の
    Occupancy
    Query特徴も活用してさまざまなタスクに取り組む。
    NeRFやレーングラフの推定にも
    使ってる。
    参考: Teslaにおけるコンピュータビジョン技術の調査 (2) link
    Youtube link

    View Slide

  27. Planning-oriented Autonomous Driving
    ● 自動運転のタスクをフルスタックで組み込んだフレームワーク
    ● BEVFormerのBEV特徴量をベースにAttentionをフル活用して自動運転を行う。
    ● CVPR 2023のAward Candidates

    View Slide

  28. まとめ
    ● 自動運転の認識タスクは3D Occupancyで行うトレンドがある。
    ● 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地が
    ありそう。
    ● 3D Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそ
    う。

    View Slide

  29. まとめ
    ● 自動運転の認識タスクは3D Occupancyで行うトレンドがある。
    ● 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地が
    ありそう。
    ● 3D Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそ
    う。
    今年もWAD Workshopで面白い発表がありそうなので要チェック → WAD Workshop

    View Slide

  30. 参考文献
    ● Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022.
    “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal
    Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270.
    ● Huang, Yuanhui, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. 2023. “Tri-Perspective View for
    Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07817.
    ● Mescheder, Lars, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. 2018.
    “Occupancy Networks: Learning 3D Reconstruction in Function Space.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/1812.03828.
    ● Wang, Xiaofeng, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, and
    Xingang Wang. 2023. “OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy
    Perception.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.03991.
    ● Wei, Yi, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, and Jiwen Lu. 2023. “SurroundOcc:
    Multi-Camera 3D Occupancy Prediction for Autonomous Driving.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2303.09551.
    ● Zhang, Yunpeng, Zheng Zhu, and Dalong Du. 2023. “OccFormer: Dual-Path Transformer for Vision-Based 3D
    Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2304.05316.
    ● Occupancy Dataset for nuScenes: https://github.com/FANG-MING/occupancy-for-nuscenes
    ● BEVDet4D: https://github.com/HuangJunJie2017/BEVDet#nuscenes-occupancy
    ● Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022.
    “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156.

    View Slide

  31. Thank you for listening!!

    View Slide

  32. View Slide