Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

2023年4月30日「第58回 コンピュータビジョン勉強会@関東」での発表資料です。"VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion"の紹介です。

Kazuyuki Miyazawa

April 30, 2023
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. © GO Inc. 2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+ 3D論文読み会) VoxFormer: Sparse Voxel Transformer

    for Camera-based 3D Semantic Scene Completion GO株式会社(旧: Mobility Technologies) 宮澤 一之 
  2. © GO Inc. 2 自己紹介 宮澤 一之 GO株式会社(旧: Mobility Technologies)

    AI技術開発部 AI研究開発第二グループ グループマネージャー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  3. © GO Inc. 論文情報 • arXiv初出は2023年2月23日 • CVPR 2023 Highlights(採択論文の10%)

    • 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs) [paper] [code] 3
  4. © GO Inc. 何ができるのか RGB画像からのSemantic Scene Completion (SSC) SSC =

    完全な3次元ボリュームの復元+セマンティックセグメンテーション https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif 4
  5. © GO Inc. • Semantic Scene Completion (SSC)というタスクを初めて定義 • 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した

    TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 • 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 • 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施 関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止(原告側の訴えは却下) [参考] 5
  6. © GO Inc. 関連研究 - SemanticKITTI - Jens Behley et

    al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019. Semantic scene completion benchmarkでは不完全な 入力(左)から完全なシーン(右)の生成を行う • KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与 • セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする SSCのベンチ マークも提供 • 屋外シーンの実データによるSSCベンチマークはこれが世界初 6
  7. © GO Inc. 関連研究 - MonoScene - Anh-Quan Cao et

    al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. • 2.5または3次元を入力とする従来手法に対し、 2次元入力(1枚のRGB画像)でSSCを実現 • 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力 • FLoSPと3D CRPという新たなモジュールを提案 ◦ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成 ◦ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述 https://astra-vision.github.io/MonoScene/ 7
  8. © GO Inc. • 3次元ボリュームの各ボクセルの中心座標を 2次元画像に投影し、投影位置に対応する 2次元特徴 をマルチスケールでサンプリングして 3次元特徴を生成 •

    オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体 が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう • これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導 入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8
  9. © GO Inc. VoxFormerのモチベーション (1) reconstruction-before-hallucination: まず画像中の可視領域について 3次元情報を獲得し、次に それらを起点として不可視領域を推測 (2)

    sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な 3次元ボ リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善 可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル 特徴を獲得したうえで残りのボクセルを MAE (Masked Autoencoder)ライクに補完 9
  10. © GO Inc. VoxFormerのアーキテクチャ • Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定

    • Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 10
  11. © GO Inc. • Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 •

    Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 11
  12. © GO Inc. 事前準備 • 入力は内部パラメータ既知のカメラから得られた連続 RGB画像(1枚でも可) • ボクセルクエリの集合Qとして大きさh ×

    w × zの3次元ボリュームを用意 • 計算量削減とロバスト性向上のため、 Qの解像度は最終出力の3次元ボリュームよりも小さくする 12
  13. © GO Inc. 候補クエリ生成 • 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは 1、それ以外 は0) •

    LMSCNetを使って精度を上げると共に解像度をクエリ集合 Qと一致させる Depth Correction ↓ Query Proposal Z W H 3次元点群から生成された occupancy map M in 補正されたoccupancy map M out LMSCNet 14
  14. © GO Inc. LMSCNet (Lightweight Multiscale Semantic Completion Network) Luis

    Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. • 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法 • 高さ方向の次元を特徴の次元とみなして大半を 2D CNNで構成することで計算量を削減 • 最終出力を生成するためのヘッドにおいてのみ 3D CNNを使う 15
  15. © GO Inc. 候補クエリ生成 • Occupancy map M out において物体に占有されているボクセル座標からクエリを取り出す

    • 取り出したクエリQ p を候補クエリとしてstage-2以降で利用 • 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善 Depth Correction ↓ Query Proposal 16
  16. © GO Inc. • Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 •

    Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 17
  17. © GO Inc. 候補クエリに対応する画像特徴の獲得 • 画像特徴はCNN (ResNet-50 + FPN)で抽出 •

    候補クエリに対してlearnableなpositional embeddingを加算 • Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を 獲得 18
  18. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al.,

    “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • Attentionの計算範囲を局所領域に 限定することで特徴マップ全体を使 う通常のattentionにおける以下の 課題を解決 ◦ 特徴マップのサイズの二乗に比 例して計算量が増大 ◦ 収束が遅い • 参照点とその近傍から特徴をサン プリング(近傍点数はハイパーパラ メータ) • 参照点にlearnableなオフセットを 加えることでサンプリングに使う近 傍点を決める Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる 19
  19. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al.,

    “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • VoxFormerにおいては、stage-1で 生成した候補クエリを使い、その 3 次元座標を画像に投影した点が参 照点となる • 実際の入力は複数のRGB画像で あるため、それぞれで計算した結果 を平均化する(投影点が範囲外とな る画像は無視) • 実装では参照点の近傍8点を使っ たDCAを3回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる Stage-1で生成した候補クエリ 候補クエリの3 次元座標を画 像に投影した 2次元点 画像から抽出した 特徴マップ 20
  20. © GO Inc. Masked Autoencoder (MAE) Kaiming He et al.,

    “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022. masked image MAE reconstruction ground truth ImageNet-1Kにおける精度比較 • ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ りそれらを復元する事前学習を行う • エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き 換えてデコーダに入力 • モデルサイズが大きいほど他の事前学習手法に比べて効果が高い 22
  21. © GO Inc. Deformable Self-Attention (DSA) Xizhou Zhu et al.,

    “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. • 候補クエリに選ばれなかったボクセ ルをマスクトークンで埋めることで ボクセル特徴を補完 • 候補クエリまたはマスクトークンの 3 次元座標を参照点とし、その近傍を ボクセル特徴からサンプリングして attentionを計算することでボクセル 特徴を更新 • 実装では参照点の近傍8点を使っ たDSAを2回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる DCAでアップデートした候補クエリまたはマスクトークン 候補クエリまたはマ スクトークンの3次 元座標 ボクセル特徴 23
  22. © GO Inc. 学習 Occupancy mapの真値と比較 (binary cross-entropy) SSCの真値と比較 (cross-entropy)

    • Stage-1とstage-2の学習はそれぞれ独立に行われる • Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用 • 加えて、stage-2ではscene-class affinity lossも用いる 25
  23. © GO Inc. 性能評価 6.4m 51.2m 51.2m • SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3 次元ボリュームをボクセルごとのラベルと共に復元)

    • 車両の前方51.2m、左右51.2m、高さ6.4mが対象 • ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32 • 2種類の尺度で評価 ◦ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価) ◦ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価) 26
  24. © GO Inc. 実装 入力はステレオ画像 • 現時刻のフレームのみ:VoxFormer-S • 現時刻&直前4フレーム:VoxFormer-T 学習済みの

    MobileStereoNet [1] で 生成 128 × 128 × 16 256 × 256 × 32 ステレオ画像の片方のみを利用し、 ResNet-50 + FPNで特徴抽出(128次元) LMSCNet [2]をスクラッチ学習 [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022 [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. x 3 x 2 27
  25. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6

    × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス 3つのレンジで評価 28
  26. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6

    × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス LiDARスキャンを入力とする手法との比較 3つのレンジで評価 29
  27. © GO Inc. 所感 • モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い • Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的 • 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない

    MonoSceneを比較対象にするのはフェアでない気もする(実際、 VoxFormerからデプス推定を除く とMonoSceneに負ける) • 使う側からすると、学習用にラベル付きの 3次元ボリュームを用意することはかなりしんどいので他 カメラに対する汎化性能が気になるところ 31
  28. © GO Inc. 34 Scene-Class Affinity Loss Anh-Quan Cao et

    al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ボクセルiにおける真値 ボクセルiにおけるクラスcの推論確率 Iverson括弧 → Precision → Recall → Specificity • クラスごとのprecision、recall、specificityを直接的に最適化するロス • ネットワークに対してグローバルな SSC性能を陽にフィードバックする