VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

© GO Inc. ● Semantic Scene Completion (SSC)というタスクを初めて定義 ● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 ● 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 ● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止（原告側の訴えは却下） [参考] 5

Slide 6

Slide 6 text

© GO Inc. 関連研究 - SemanticKITTI - Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019. Semantic scene completion benchmarkでは不完全な入力（左）から完全なシーン（右）の生成を行う ● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与 ● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする SSCのベンチマークも提供 ● 屋外シーンの実データによるSSCベンチマークはこれが世界初 6

Slide 7

Slide 7 text

© GO Inc. 関連研究 - MonoScene - Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ● 2.5または3次元を入力とする従来手法に対し、 2次元入力（1枚のRGB画像）でSSCを実現 ● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力 ● FLoSPと3D CRPという新たなモジュールを提案 ○ FLoSP (Features Line of Sight Projection)：2次元特徴から3次元特徴を生成 ○ 3D CRP (3D Context Relation Prior)：ボクセル間の関係性（似ているかどうか）を陽に記述 https://astra-vision.github.io/MonoScene/ 7

Slide 8

Slide 8 text

© GO Inc. ● 3次元ボリュームの各ボクセルの中心座標を 2次元画像に投影し、投影位置に対応する 2次元特徴をマルチスケールでサンプリングして 3次元特徴を生成 ● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう ● これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8

Slide 9

Slide 9 text

© GO Inc. VoxFormerのモチベーション (1) reconstruction-before-hallucination: まず画像中の可視領域について 3次元情報を獲得し、次にそれらを起点として不可視領域を推測 (2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な 3次元ボリュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル特徴を獲得したうえで残りのボクセルを MAE (Masked Autoencoder)ライクに補完 9

Slide 10

Slide 10 text

© GO Inc. VoxFormerのアーキテクチャ ● Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候補クエリとして特定 ● Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボクセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 10

Slide 11

Slide 11 text

© GO Inc. ● Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候補クエリとして特定 ● Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボクセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 11

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

© GO Inc. 候補クエリ生成 ● 3次元点群から3次元ボリューム(occupancy map)を生成（点が存在するボクセルは 1、それ以外は0） ● LMSCNetを使って精度を上げると共に解像度をクエリ集合 Qと一致させる Depth Correction ↓ Query Proposal Z W H 3次元点群から生成された occupancy map M in 補正されたoccupancy map M out LMSCNet 14

Slide 15

Slide 15 text

© GO Inc. LMSCNet (Lightweight Multiscale Semantic Completion Network) Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. ● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法 ● 高さ方向の次元を特徴の次元とみなして大半を 2D CNNで構成することで計算量を削減 ● 最終出力を生成するためのヘッドにおいてのみ 3D CNNを使う 15

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

© GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● Attentionの計算範囲を局所領域に限定することで特徴マップ全体を使う通常のattentionにおける以下の課題を解決 ○ 特徴マップのサイズの二乗に比例して計算量が増大 ○ 収束が遅い ● 参照点とその近傍から特徴をサンプリング（近傍点数はハイパーパラメータ） ● 参照点にlearnableなオフセットを加えることでサンプリングに使う近傍点を決める Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる 19

Slide 20

Slide 20 text

© GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● VoxFormerにおいては、stage-1で生成した候補クエリを使い、その 3 次元座標を画像に投影した点が参照点となる ● 実際の入力は複数のRGB画像であるため、それぞれで計算した結果を平均化する（投影点が範囲外となる画像は無視） ● 実装では参照点の近傍8点を使ったDCAを3回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる Stage-1で生成した候補クエリ候補クエリの3 次元座標を画像に投影した 2次元点画像から抽出した特徴マップ 20

Slide 21

Slide 21 text

© GO Inc. 疎なボクセル特徴の補完 ● クエリ以外のボクセル（stage-1においてデプスが得られなかった領域）を MAE (Masked Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴を獲得 ● マスクトークンは全て共通のlearnableなベクトル ● 画像特徴の獲得時と同様、deformable attentionを用いる 21

Slide 22

Slide 22 text

© GO Inc. Masked Autoencoder (MAE) Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022. masked image MAE reconstruction ground truth ImageNet-1Kにおける精度比較 ● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによりそれらを復元する事前学習を行う ● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き換えてデコーダに入力 ● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い 22

Slide 23

Slide 23 text

© GO Inc. Deformable Self-Attention (DSA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● 候補クエリに選ばれなかったボクセルをマスクトークンで埋めることでボクセル特徴を補完 ● 候補クエリまたはマスクトークンの 3 次元座標を参照点とし、その近傍をボクセル特徴からサンプリングして attentionを計算することでボクセル特徴を更新 ● 実装では参照点の近傍8点を使ったDSAを2回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる DCAでアップデートした候補クエリまたはマスクトークン候補クエリまたはマスクトークンの3次元座標ボクセル特徴 23

Slide 24

Slide 24 text

Slide 25

Slide 25 text

© GO Inc. 学習 Occupancy mapの真値と比較 (binary cross-entropy) SSCの真値と比較 (cross-entropy) ● Stage-1とstage-2の学習はそれぞれ独立に行われる ● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用 ● 加えて、stage-2ではscene-class affinity lossも用いる 25

Slide 26

Slide 26 text

© GO Inc. 性能評価 6.4m 51.2m 51.2m ● SemanticKITTIのSSCベンチマークにより評価（RGB画像または疎なLiDARスキャンから完全な3 次元ボリュームをボクセルごとのラベルと共に復元） ● 車両の前方51.2m、左右51.2m、高さ6.4mが対象 ● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32 ● 2種類の尺度で評価 ○ IoU：クラスを無視した3次元ボリューム全体の IoU（補完性能の評価） ○ mIoU：クラスごとに計算した IoUの平均（セグメンテーション性能の評価） 26

Slide 27

Slide 27 text

© GO Inc. 実装入力はステレオ画像 ● 現時刻のフレームのみ：VoxFormer-S ● 現時刻＆直前4フレーム：VoxFormer-T 学習済みの MobileStereoNet [1] で生成 128 × 128 × 16 256 × 256 × 32 ステレオ画像の片方のみを利用し、 ResNet-50 + FPNで特徴抽出（128次元） LMSCNet [2]をスクラッチ学習 [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022 [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. x 3 x 2 27

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

© GO Inc. 所感 ● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い ● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的 ● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない MonoSceneを比較対象にするのはフェアでない気もする（実際、 VoxFormerからデプス推定を除くとMonoSceneに負ける） ● 使う側からすると、学習用にラベル付きの 3次元ボリュームを用意することはかなりしんどいので他カメラに対する汎化性能が気になるところ 31

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

© GO Inc. 34 Scene-Class Affinity Loss Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ボクセルiにおける真値ボクセルiにおけるクラスcの推論確率 Iverson括弧 → Precision → Recall → Specificity ● クラスごとのprecision、recall、specificityを直接的に最適化するロス ● ネットワークに対してグローバルな SSC性能を陽にフィードバックする