VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

© GO Inc. 2023年4月30日第58回コンピュータビジョン勉強会＠関東（深層学習＋ 3D論文読み会） VoxFormer: Sparse Voxel Transformer
for Camera-based 3D Semantic Scene Completion GO株式会社（旧: Mobility Technologies）宮澤一之　

© GO Inc. 2 自己紹介宮澤一之 GO株式会社（旧: Mobility Technologies）
AI技術開発部 AI研究開発第二グループグループマネージャー経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw

© GO Inc. 論文情報 • arXiv初出は2023年2月23日 • CVPR 2023 Highlights（採択論文の10%）
• 著者の所属は多いが、NVIDIAメインの研究と思われる（GitHubリポジトリもNVlabs） [paper] [code] 3

© GO Inc. 何ができるのか RGB画像からのSemantic Scene Completion (SSC) SSC =
完全な3次元ボリュームの復元＋セマンティックセグメンテーション https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif 4

© GO Inc. • Semantic Scene Completion (SSC)というタスクを初めて定義 • 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した
TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 • 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 • 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止（原告側の訴えは却下） [参考] 5

© GO Inc. 関連研究 - SemanticKITTI - Jens Behley et
al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019. Semantic scene completion benchmarkでは不完全な入力（左）から完全なシーン（右）の生成を行う • KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与 • セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする SSCのベンチマークも提供 • 屋外シーンの実データによるSSCベンチマークはこれが世界初 6

© GO Inc. 関連研究 - MonoScene - Anh-Quan Cao et
al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. • 2.5または3次元を入力とする従来手法に対し、 2次元入力（1枚のRGB画像）でSSCを実現 • 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力 • FLoSPと3D CRPという新たなモジュールを提案 ◦ FLoSP (Features Line of Sight Projection)：2次元特徴から3次元特徴を生成 ◦ 3D CRP (3D Context Relation Prior)：ボクセル間の関係性（似ているかどうか）を陽に記述 https://astra-vision.github.io/MonoScene/ 7

© GO Inc. • 3次元ボリュームの各ボクセルの中心座標を 2次元画像に投影し、投影位置に対応する 2次元特徴をマルチスケールでサンプリングして 3次元特徴を生成 •
オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう • これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8

© GO Inc. VoxFormerのモチベーション (1) reconstruction-before-hallucination: まず画像中の可視領域について 3次元情報を獲得し、次にそれらを起点として不可視領域を推測 (2)
sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な 3次元ボリュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル特徴を獲得したうえで残りのボクセルを MAE (Masked Autoencoder)ライクに補完 9

© GO Inc. VoxFormerのアーキテクチャ • Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候補クエリとして特定
• Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボクセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 10

© GO Inc. • Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候補クエリとして特定 •
Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボクセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 11

© GO Inc. 事前準備 • 入力は内部パラメータ既知のカメラから得られた連続 RGB画像（1枚でも可） • ボクセルクエリの集合Qとして大きさh ×
w × zの3次元ボリュームを用意 • 計算量削減とロバスト性向上のため、 Qの解像度は最終出力の3次元ボリュームよりも小さくする 12

© GO Inc. デプス推定 • Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ Zを生成 • 次式により画像の各ピクセル(u, v)を3次元点群(x,
y, z)に変換 c u , c v , f u , f v ：カメラ内部パラメータ 13

© GO Inc. 候補クエリ生成 • 3次元点群から3次元ボリューム(occupancy map)を生成（点が存在するボクセルは 1、それ以外は0） •
LMSCNetを使って精度を上げると共に解像度をクエリ集合 Qと一致させる Depth Correction ↓ Query Proposal Z W H 3次元点群から生成された occupancy map M in 補正されたoccupancy map M out LMSCNet 14

© GO Inc. LMSCNet (Lightweight Multiscale Semantic Completion Network) Luis
Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. • 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法 • 高さ方向の次元を特徴の次元とみなして大半を 2D CNNで構成することで計算量を削減 • 最終出力を生成するためのヘッドにおいてのみ 3D CNNを使う 15

© GO Inc. 候補クエリ生成 • Occupancy map M out において物体に占有されているボクセル座標からクエリを取り出す
• 取り出したクエリQ p を候補クエリとしてstage-2以降で利用 • 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善 Depth Correction ↓ Query Proposal 16

© GO Inc. • Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候補クエリとして特定 •
Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボクセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 17

© GO Inc. 候補クエリに対応する画像特徴の獲得 • 画像特徴はCNN (ResNet-50 + FPN)で抽出 •
候補クエリに対してlearnableなpositional embeddingを加算 • Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を獲得 18

© GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al.,
“Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • Attentionの計算範囲を局所領域に限定することで特徴マップ全体を使う通常のattentionにおける以下の課題を解決 ◦ 特徴マップのサイズの二乗に比例して計算量が増大 ◦ 収束が遅い • 参照点とその近傍から特徴をサンプリング（近傍点数はハイパーパラメータ） • 参照点にlearnableなオフセットを加えることでサンプリングに使う近傍点を決める Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる 19

© GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al.,
“Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • VoxFormerにおいては、stage-1で生成した候補クエリを使い、その 3 次元座標を画像に投影した点が参照点となる • 実際の入力は複数のRGB画像であるため、それぞれで計算した結果を平均化する（投影点が範囲外となる画像は無視） • 実装では参照点の近傍8点を使ったDCAを3回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる Stage-1で生成した候補クエリ候補クエリの3 次元座標を画像に投影した 2次元点画像から抽出した特徴マップ 20

© GO Inc. 疎なボクセル特徴の補完 • クエリ以外のボクセル（stage-1においてデプスが得られなかった領域）を MAE (Masked Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴を獲得
• マスクトークンは全て共通のlearnableなベクトル • 画像特徴の獲得時と同様、deformable attentionを用いる 21

© GO Inc. Masked Autoencoder (MAE) Kaiming He et al.,
“Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022. masked image MAE reconstruction ground truth ImageNet-1Kにおける精度比較 • ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによりそれらを復元する事前学習を行う • エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き換えてデコーダに入力 • モデルサイズが大きいほど他の事前学習手法に比べて効果が高い 22

© GO Inc. Deformable Self-Attention (DSA) Xizhou Zhu et al.,
“Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • 候補クエリに選ばれなかったボクセルをマスクトークンで埋めることでボクセル特徴を補完 • 候補クエリまたはマスクトークンの 3 次元座標を参照点とし、その近傍をボクセル特徴からサンプリングして attentionを計算することでボクセル特徴を更新 • 実装では参照点の近傍8点を使ったDSAを2回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる DCAでアップデートした候補クエリまたはマスクトークン候補クエリまたはマスクトークンの3次元座標ボクセル特徴 23

© GO Inc. 学習 Occupancy mapの真値と比較 (binary cross-entropy) SSCの真値と比較 (cross-entropy)
• Stage-1とstage-2の学習はそれぞれ独立に行われる • Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用 • 加えて、stage-2ではscene-class affinity lossも用いる 25

© GO Inc. 性能評価 6.4m 51.2m 51.2m • SemanticKITTIのSSCベンチマークにより評価（RGB画像または疎なLiDARスキャンから完全な3 次元ボリュームをボクセルごとのラベルと共に復元）
• 車両の前方51.2m、左右51.2m、高さ6.4mが対象 • ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32 • 2種類の尺度で評価 ◦ IoU：クラスを無視した3次元ボリューム全体の IoU（補完性能の評価） ◦ mIoU：クラスごとに計算した IoUの平均（セグメンテーション性能の評価） 26

© GO Inc. 実装入力はステレオ画像 • 現時刻のフレームのみ：VoxFormer-S • 現時刻＆直前4フレーム：VoxFormer-T 学習済みの
MobileStereoNet [1] で生成 128 × 128 × 16 256 × 256 × 32 ステレオ画像の片方のみを利用し、 ResNet-50 + FPNで特徴抽出（128次元） LMSCNet [2]をスクラッチ学習 [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022 [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. x 3 x 2 27

© GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6
× 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプスステレオ画像デプス 3つのレンジで評価 28

© GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6
× 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプスステレオ画像デプス LiDARスキャンを入力とする手法との比較 3つのレンジで評価 29

© GO Inc. Ablation Study ステレオ画像ではなく単眼画像だとどうか？候補クエリを全部 or ランダムにしたらどうか？未来のフレームも使ったらどうか？
どのアーキテクチャが効くか？ +N：現在のフレームから Nフレーム後 30

© GO Inc. 所感 • モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い • Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的 • 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない
MonoSceneを比較対象にするのはフェアでない気もする（実際、 VoxFormerからデプス推定を除くとMonoSceneに負ける） • 使う側からすると、学習用にラベル付きの 3次元ボリュームを用意することはかなりしんどいので他カメラに対する汎化性能が気になるところ 31

© GO Inc. We’re Hiring! https://hrmos.co/pages/goinc/jobs?category=1342449154655301632 • エンジニアはフルリモートOK！ • いつでもカジュアル面談OKなので
お気軽にお声がけください 32

© GO Inc. 34 Scene-Class Affinity Loss Anh-Quan Cao et
al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ボクセルiにおける真値ボクセルiにおけるクラスcの推論確率 Iverson括弧 → Precision → Recall → Specificity • クラスごとのprecision、recall、specificityを直接的に最適化するロス • ネットワークに対してグローバルな SSC性能を陽にフィードバックする

VoxFormer: Sparse Voxel Transformer for Camera-...

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Featured

Transcript