Slide 1

Slide 1 text

マルチカメラを用いた自動運転の 3D Occupancy Prediction Turing Inc. Inoue Yuichi

Slide 2

Slide 2 text

自己紹介 ❏ Inoue Yuichi Turing Inc.で自動運転開発 京都大学 博士(薬学) Kaggle competition grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan Google検索 「Turing 自動運転」

Slide 3

Slide 3 text

Outline ● 3D occupancy predictionが自動運転で注目された背景 ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction ● 関連研究の紹介

Slide 4

Slide 4 text

Outline ● 3D occupancy predictionが自動運転で注目された背景 ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction ● 関連研究の紹介

Slide 5

Slide 5 text

自動運転のVision-centric Occupancy Predictionのはじまり マルチカメラのOccupancy Predictionが初めて大々的に発表されたのが CVPR'22 WAD WorkshopでのTeslaのDirector of AutopilotのAshokによるKeynote。 Youtube link

Slide 6

Slide 6 text

自動運転のVision-centric Occupancy Predictionのはじまり マルチカメラから抽出した特徴量を Cross Attentionで Occupancy Queryに組み込んでいく。 Youtube link

Slide 7

Slide 7 text

自動運転のVision-centric Occupancy Predictionのはじまり もともとTeslaは鳥瞰図のSegmentationを行っていたが、それ を3DのOccupancyに拡張したようなモデル。 参考: Teslaはカメラを使ってどのように世界を認識しているか Youtube link

Slide 8

Slide 8 text

自動運転のVision-centric Occupancy Predictionのはじまり 2022年はマルチカメラの3D物体検出とBEVセグメンテーションが流 行っていた。 参考: Awesome BEV Perception from Multi-Cameras

Slide 9

Slide 9 text

Outline ● 3D occupancy predictionが自動運転で注目された背景 ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction ● 関連研究の紹介

Slide 10

Slide 10 text

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 今日紹介する論文 - Voxel表現の計算量が多い問題 - 鳥瞰図(BEV)表現のz軸ない問題 ➔ BEV planeにさらに2 plane加えたTri-Perspective View(TPV)表現を提案。 TPVにより計算量を抑えてVoxel表現を実現。

Slide 11

Slide 11 text

Tri-Perspective View(TPV)とは ● 3つの互いに直行した平面でセグメンテーションを行う。 ● TPVからVoxelに変換するときは、双線形補間+和算で算出する。 [TPVの定義] [TPVからVoxelへの変換]

Slide 12

Slide 12 text

TPVFormer ● TPVをマルチカメラの入力から効率よく作成するための Transformerベースの手法を同時に提 案している。 ● 画像空間の特徴量をTPV空間のQueryとCross-AttentionをするImage Cross-Attentionと TPV空間の特徴同士でSelf-Attentionを行うCross-View Hybrid-Attentionを使用。

Slide 13

Slide 13 text

Image Cross-Attention 1. 各平面のQueryのピクセルが世界座標でどの位置に相当するかを計算 2. そのQueryの世界座標での位置で、周囲Nref点をサンプリング (位置についてはDeformable Attentionを使用しているので学習対象) 3. サンプリングしたNref個の点について透視投影を使って画像上のピクセル座標を計算 4. 対応点がないものは取り除く 5. これを各TPV平面、各カメラに対して行う。 *BEVFormerのSpatial Cross-Attentionに近い。 参考: BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Slide 14

Slide 14 text

Cross-View Hybrid-Attention TPV平面同士のCross-Attention 計算量を考慮し、ここでもDeformable Cross-Attentionを使用 例えばTop平面のある点をQueryとしたときサンプリングする点は、 1. Top平面のその周囲の点からランダムにサンプリング 2. Side、Front平面の重なる箇所から均一にサンプリング 3. 各平面のすべての点で同じように Cross-Attention

Slide 15

Slide 15 text

TPVFormer ● 最後にVoxel出力をするために軽量なMLPで各Voxelのクラスを予測している。 [TPVからVoxelへの変換] (再掲)

Slide 16

Slide 16 text

タスクについて 1. 3D semantic occupancy prediction(nuScenes) LiDARのスパースなラベルを使って学習し、推論は Denseに行う。 Denseな予測に関して本手法がベンチマークとなる。 2. LiDAR segmentation(nuScenes) LiDARで認識したpointに対してのクラスを予測する。 3. Semantic Scene Completion(Semantic KITTI) Voxelデータで学習し、推論を行う。 *nuScenesもKITTIも有名な自動運転のデータセット

Slide 17

Slide 17 text

nuScenesの結果

Slide 18

Slide 18 text

nuScenesの結果 LiDARのSoTAにはまだまだ届かないが、カメラのみを使った LiDARセグメンテーションのベンチマー クとしてはまずまず。

Slide 19

Slide 19 text

Semantic KITTIの結果 この分野で有名なMonoSceneを超えたし、パラメータサイズも軽量! (TPVFormer 6.0M vs MonoScene 15.7M)

Slide 20

Slide 20 text

TeslaのOccupancy Networkとの比較 現状、Tesla、強すぎ...😂

Slide 21

Slide 21 text

Outline ● 3D occupancy predictionが自動運転で注目された背景 ● Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction ● 関連研究の紹介

Slide 22

Slide 22 text

Occupancyデータセット: SurroundOcc ● マルチカメラのOccupancy Datasetがないので作る研究 ● LiDARのデータを静的な背景シーンと動的な移動物体に分けて時間を加味してス パースな空間を埋めていく。 ● TPVFormerと同じラボの仕事

Slide 23

Slide 23 text

Occupancyデータセット: OpenOccupancy ● LiDARから作ったVoxelアノテーションをベースに、モデル学習〜疑似ラベル付け を行い、最後に人の手でPurifyしている。 ● Voxel解像度も従来よりも高く設定されている。

Slide 24

Slide 24 text

新しいモデルが次々と提案されている。 SurroundOcc(2023.3) BEVFormer 3D拡張版(2023.3) BEVDet4Dの拡張版(2023.4) OccFormer(2023.4) VoxFormer(2023.2) 宮澤さんの資料を見てね

Slide 25

Slide 25 text

CVPR’23 VCAD WorkshopでChallengeが開催中 - VCAD Workshop: https://vcad.site/ - Challenge page: https://opendrivelab.com/AD23Challenge.html#Track3 - Devkit: https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction

Slide 26

Slide 26 text

3D Occupancyのその次 ● 3D Occupancyで認識したVoxel空間の情報だけでなく、その手前の Occupancy Query特徴も活用してさまざまなタスクに取り組む。 NeRFやレーングラフの推定にも 使ってる。 参考: Teslaにおけるコンピュータビジョン技術の調査 (2) link Youtube link

Slide 27

Slide 27 text

Planning-oriented Autonomous Driving ● 自動運転のタスクをフルスタックで組み込んだフレームワーク ● BEVFormerのBEV特徴量をベースにAttentionをフル活用して自動運転を行う。 ● CVPR 2023のAward Candidates

Slide 28

Slide 28 text

まとめ ● 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 ● 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地が ありそう。 ● 3D Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそ う。

Slide 29

Slide 29 text

まとめ ● 自動運転の認識タスクは3D Occupancyで行うトレンドがある。 ● 計算効率と3D Occupancy空間への情報伝達、データセットの作成に工夫の余地が ありそう。 ● 3D Occupancyで認識した後の自動運転へのつなぎこみが、今後重要になってきそ う。 今年もWAD Workshopで面白い発表がありそうなので要チェック → WAD Workshop

Slide 30

Slide 30 text

参考文献 ● Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, and Jifeng Dai. 2022. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.17270. ● Huang, Yuanhui, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. 2023. “Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07817. ● Mescheder, Lars, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. 2018. “Occupancy Networks: Learning 3D Reconstruction in Function Space.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1812.03828. ● Wang, Xiaofeng, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, and Xingang Wang. 2023. “OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.03991. ● Wei, Yi, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, and Jiwen Lu. 2023. “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2303.09551. ● Zhang, Yunpeng, Zheng Zhu, and Dalong Du. 2023. “OccFormer: Dual-Path Transformer for Vision-Based 3D Semantic Occupancy Prediction.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2304.05316. ● Occupancy Dataset for nuScenes: https://github.com/FANG-MING/occupancy-for-nuscenes ● BEVDet4D: https://github.com/HuangJunJie2017/BEVDet#nuscenes-occupancy ● Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022. “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156.

Slide 31

Slide 31 text

Thank you for listening!!

Slide 32

Slide 32 text

No content