[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

マルチカメラを用いた自動運転の 3D Occupancy Prediction Turing Inc. Inoue Yuichi

自己紹介 ❏ Inoue Yuichi Turing Inc.で自動運転開発京都大学博士（薬学） Kaggle competition
grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan Google検索「Turing 自動運転」

Outline • 3D occupancy predictionが自動運転で注目された背景 • Tri-Perspective View for Vision-Based
3D Semantic Occupancy Prediction • 関連研究の紹介

自動運転のVision-centric Occupancy PredictionのはじまりマルチカメラのOccupancy Predictionが初めて大々的に発表されたのが CVPR'22 WAD WorkshopでのTeslaのDirector of AutopilotのAshokによるKeynote。
Youtube link

自動運転のVision-centric Occupancy Predictionのはじまりマルチカメラから抽出した特徴量を Cross Attentionで Occupancy Queryに組み込んでいく。 Youtube link

自動運転のVision-centric Occupancy PredictionのはじまりもともとTeslaは鳥瞰図のSegmentationを行っていたが、それを3DのOccupancyに拡張したようなモデル。参考: Teslaはカメラを使ってどのように世界を認識しているか Youtube link

自動運転のVision-centric Occupancy Predictionのはじまり 2022年はマルチカメラの3D物体検出とBEVセグメンテーションが流行っていた。参考: Awesome BEV Perception from
Multi-Cameras

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 今日紹介する論文 -
Voxel表現の計算量が多い問題 - 鳥瞰図(BEV)表現のz軸ない問題 ➔ BEV planeにさらに2 plane加えたTri-Perspective View（TPV）表現を提案。 TPVにより計算量を抑えてVoxel表現を実現。

Tri-Perspective View（TPV）とは • 3つの互いに直行した平面でセグメンテーションを行う。 • TPVからVoxelに変換するときは、双線形補間＋和算で算出する。 [TPVの定義] [TPVからVoxelへの変換]

TPVFormer • TPVをマルチカメラの入力から効率よく作成するための Transformerベースの手法を同時に提案している。 • 画像空間の特徴量をTPV空間のQueryとCross-AttentionをするImage Cross-Attentionと TPV空間の特徴同士でSelf-Attentionを行うCross-View Hybrid-Attentionを使用。

Image Cross-Attention 1. 各平面のQueryのピクセルが世界座標でどの位置に相当するかを計算 2. そのQueryの世界座標での位置で、周囲Nref点をサンプリング（位置についてはDeformable Attentionを使用しているので学習対象） 3. サンプリングしたNref個の点について透視投影を使って画像上のピクセル座標を計算
4. 対応点がないものは取り除く 5. これを各TPV平面、各カメラに対して行う。 *BEVFormerのSpatial Cross-Attentionに近い。参考: BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Cross-View Hybrid-Attention TPV平面同士のCross-Attention 計算量を考慮し、ここでもDeformable Cross-Attentionを使用例えばTop平面のある点をQueryとしたときサンプリングする点は、 1. Top平面のその周囲の点からランダムにサンプリング 2. Side、Front平面の重なる箇所から均一にサンプリング
3. 各平面のすべての点で同じように Cross-Attention

TPVFormer • 最後にVoxel出力をするために軽量なMLPで各Voxelのクラスを予測している。 [TPVからVoxelへの変換] (再掲)

タスクについて 1. 3D semantic occupancy prediction（nuScenes） LiDARのスパースなラベルを使って学習し、推論は Denseに行う。 Denseな予測に関して本手法がベンチマークとなる。 2.
LiDAR segmentation（nuScenes） LiDARで認識したpointに対してのクラスを予測する。 3. Semantic Scene Completion（Semantic KITTI） Voxelデータで学習し、推論を行う。 *nuScenesもKITTIも有名な自動運転のデータセット

nuScenesの結果

nuScenesの結果 LiDARのSoTAにはまだまだ届かないが、カメラのみを使った LiDARセグメンテーションのベンチマークとしてはまずまず。

Semantic KITTIの結果この分野で有名なMonoSceneを超えたし、パラメータサイズも軽量！（TPVFormer 6.0M vs MonoScene 15.7M）

TeslaのOccupancy Networkとの比較現状、Tesla、強すぎ...😂

Occupancyデータセット: SurroundOcc • マルチカメラのOccupancy Datasetがないので作る研究 • LiDARのデータを静的な背景シーンと動的な移動物体に分けて時間を加味してスパースな空間を埋めていく。 • TPVFormerと同じラボの仕事

Occupancyデータセット: OpenOccupancy • LiDARから作ったVoxelアノテーションをベースに、モデル学習〜疑似ラベル付けを行い、最後に人の手でPurifyしている。 • Voxel解像度も従来よりも高く設定されている。

新しいモデルが次々と提案されている。 SurroundOcc（2023.3） BEVFormer 3D拡張版（2023.3） BEVDet4Dの拡張版（2023.4） OccFormer（2023.4） VoxFormer（2023.2）宮澤さんの資料を見てね

CVPR’23 VCAD WorkshopでChallengeが開催中 - VCAD Workshop: https://vcad.site/ - Challenge page:
https://opendrivelab.com/AD23Challenge.html#Track3 - Devkit: https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction

3D Occupancyのその次 • 3D Occupancyで認識したVoxel空間の情報だけでなく、その手前の Occupancy Query特徴も活用してさまざまなタスクに取り組む。 NeRFやレーングラフの推定にも使ってる。参考:
Teslaにおけるコンピュータビジョン技術の調査 (2) link Youtube link

Planning-oriented Autonomous Driving • 自動運転のタスクをフルスタックで組み込んだフレームワーク • BEVFormerのBEV特徴量をベースにAttentionをフル活用して自動運転を行う。 • CVPR 2023のAward
Candidates

まとめ • 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 • 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地がありそう。 • 3D
Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそう。

まとめ • 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 • 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地がありそう。 • 3D
Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそう。今年もWAD Workshopで面白い発表がありそうなので要チェック → WAD Workshop

参考文献 • Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie,
Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. • Huang, Yuanhui, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. 2023. “Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07817. • Mescheder, Lars, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. 2018. “Occupancy Networks: Learning 3D Reconstruction in Function Space.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1812.03828. • Wang, Xiaofeng, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, and Xingang Wang. 2023. “OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.03991. • Wei, Yi, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, and Jiwen Lu. 2023. “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.09551. • Zhang, Yunpeng, Zheng Zhu, and Dalong Du. 2023. “OccFormer: Dual-Path Transformer for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2304.05316. • Occupancy Dataset for nuScenes: https://github.com/FANG-MING/occupancy-for-nuscenes • BEVDet4D: https://github.com/HuangJunJie2017/BEVDet#nuscenes-occupancy • Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022. “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156.

Thank you for listening!!

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupa...

[CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~

Inoichan

More Decks by Inoichan

Other Decks in Research

Featured

Transcript

マルチカメラを用いた自動運転の 3D Occupancy Prediction Turing Inc. Inoue Yuichi

自己紹介 ❏ Inoue Yuichi Turing Inc.で自動運転開発京都大学博士（薬学） Kaggle competition

Outline • 3D occupancy predictionが自動運転で注目された背景 • Tri-Perspective View for Vision-Based

Outline • 3D occupancy predictionが自動運転で注目された背景 • Tri-Perspective View for Vision-Based

自動運転のVision-centric Occupancy PredictionのはじまりマルチカメラのOccupancy Predictionが初めて大々的に発表されたのが CVPR'22 WAD WorkshopでのTeslaのDirector of AutopilotのAshokによるKeynote。

自動運転のVision-centric Occupancy Predictionのはじまりマルチカメラから抽出した特徴量を Cross Attentionで Occupancy Queryに組み込んでいく。 Youtube link

自動運転のVision-centric Occupancy PredictionのはじまりもともとTeslaは鳥瞰図のSegmentationを行っていたが、それを3DのOccupancyに拡張したようなモデル。参考: Teslaはカメラを使ってどのように世界を認識しているか Youtube link

自動運転のVision-centric Occupancy Predictionのはじまり 2022年はマルチカメラの3D物体検出とBEVセグメンテーションが流行っていた。参考: Awesome BEV Perception from

Outline • 3D occupancy predictionが自動運転で注目された背景 • Tri-Perspective View for Vision-Based

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 今日紹介する論文 -

Tri-Perspective View（TPV）とは • 3つの互いに直行した平面でセグメンテーションを行う。 • TPVからVoxelに変換するときは、双線形補間＋和算で算出する。 [TPVの定義] [TPVからVoxelへの変換]

TPVFormer • 最後にVoxel出力をするために軽量なMLPで各Voxelのクラスを予測している。 [TPVからVoxelへの変換] (再掲)

タスクについて 1. 3D semantic occupancy prediction（nuScenes） LiDARのスパースなラベルを使って学習し、推論は Denseに行う。 Denseな予測に関して本手法がベンチマークとなる。 2.

nuScenesの結果

nuScenesの結果 LiDARのSoTAにはまだまだ届かないが、カメラのみを使った LiDARセグメンテーションのベンチマークとしてはまずまず。

Semantic KITTIの結果この分野で有名なMonoSceneを超えたし、パラメータサイズも軽量！（TPVFormer 6.0M vs MonoScene 15.7M）

TeslaのOccupancy Networkとの比較現状、Tesla、強すぎ...😂

Outline • 3D occupancy predictionが自動運転で注目された背景 • Tri-Perspective View for Vision-Based

Occupancyデータセット: SurroundOcc • マルチカメラのOccupancy Datasetがないので作る研究 • LiDARのデータを静的な背景シーンと動的な移動物体に分けて時間を加味してスパースな空間を埋めていく。 • TPVFormerと同じラボの仕事

Occupancyデータセット: OpenOccupancy • LiDARから作ったVoxelアノテーションをベースに、モデル学習〜疑似ラベル付けを行い、最後に人の手でPurifyしている。 • Voxel解像度も従来よりも高く設定されている。

新しいモデルが次々と提案されている。 SurroundOcc（2023.3） BEVFormer 3D拡張版（2023.3） BEVDet4Dの拡張版（2023.4） OccFormer（2023.4） VoxFormer（2023.2）宮澤さんの資料を見てね

CVPR’23 VCAD WorkshopでChallengeが開催中 - VCAD Workshop: https://vcad.site/ - Challenge page:

3D Occupancyのその次 • 3D Occupancyで認識したVoxel空間の情報だけでなく、その手前の Occupancy Query特徴も活用してさまざまなタスクに取り組む。 NeRFやレーングラフの推定にも使ってる。参考:

Planning-oriented Autonomous Driving • 自動運転のタスクをフルスタックで組み込んだフレームワーク • BEVFormerのBEV特徴量をベースにAttentionをフル活用して自動運転を行う。 • CVPR 2023のAward

まとめ • 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 • 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地がありそう。 • 3D

まとめ • 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 • 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地がありそう。 • 3D

参考文献 • Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie,

Thank you for listening!!