Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

Inoichan
April 30, 2023

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

CVPR2023に発表されたTri-Perspective View for Vision-Based 3D Semantic Occupancy Predictionをベースにマルチカメラを用いた自動運転の流れなどを紹介します。
Paper: Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
arXive: https://arxiv.org/abs/2302.07817
Github: https://github.com/wzzheng/TPVFormer

Inoichan

April 30, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. 自己紹介 ❏ Inoue Yuichi Turing Inc.で自動運転開発 京都大学 博士(薬学) Kaggle competition

    grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan Google検索 「Turing 自動運転」
  2. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 今日紹介する論文 -

    Voxel表現の計算量が多い問題 - 鳥瞰図(BEV)表現のz軸ない問題 ➔ BEV planeにさらに2 plane加えたTri-Perspective View(TPV)表現を提案。 TPVにより計算量を抑えてVoxel表現を実現。
  3. Image Cross-Attention 1. 各平面のQueryのピクセルが世界座標でどの位置に相当するかを計算 2. そのQueryの世界座標での位置で、周囲Nref点をサンプリング (位置についてはDeformable Attentionを使用しているので学習対象) 3. サンプリングしたNref個の点について透視投影を使って画像上のピクセル座標を計算

    4. 対応点がないものは取り除く 5. これを各TPV平面、各カメラに対して行う。 *BEVFormerのSpatial Cross-Attentionに近い。 参考: BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
  4. タスクについて 1. 3D semantic occupancy prediction(nuScenes) LiDARのスパースなラベルを使って学習し、推論は Denseに行う。 Denseな予測に関して本手法がベンチマークとなる。 2.

    LiDAR segmentation(nuScenes) LiDARで認識したpointに対してのクラスを予測する。 3. Semantic Scene Completion(Semantic KITTI) Voxelデータで学習し、推論を行う。 *nuScenesもKITTIも有名な自動運転のデータセット
  5. CVPR’23 VCAD WorkshopでChallengeが開催中 - VCAD Workshop: https://vcad.site/ - Challenge page:

    https://opendrivelab.com/AD23Challenge.html#Track3 - Devkit: https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction
  6. まとめ • 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 • 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地が ありそう。 • 3D

    Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそ う。 今年もWAD Workshopで面白い発表がありそうなので要チェック → WAD Workshop
  7. 参考文献 • Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie,

    Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. • Huang, Yuanhui, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. 2023. “Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07817. • Mescheder, Lars, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. 2018. “Occupancy Networks: Learning 3D Reconstruction in Function Space.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1812.03828. • Wang, Xiaofeng, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, and Xingang Wang. 2023. “OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.03991. • Wei, Yi, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, and Jiwen Lu. 2023. “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.09551. • Zhang, Yunpeng, Zheng Zhu, and Dalong Du. 2023. “OccFormer: Dual-Path Transformer for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2304.05316. • Occupancy Dataset for nuScenes: https://github.com/FANG-MING/occupancy-for-nuscenes • BEVDet4D: https://github.com/HuangJunJie2017/BEVDet#nuscenes-occupancy • Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022. “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156.