Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

2023年4月30日「第58回 コンピュータビジョン勉強会@関東」での発表資料です。"VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion"の紹介です。

Kazuyuki Miyazawa

April 30, 2023
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. © GO Inc.
    2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+
    3D論文読み会)
    VoxFormer: Sparse Voxel Transformer for
    Camera-based 3D Semantic Scene Completion
    GO株式会社(旧: Mobility Technologies)
    宮澤 一之 

    View Slide

  2. © GO Inc. 2
    自己紹介
    宮澤 一之
    GO株式会社(旧: Mobility Technologies)
    AI技術開発部 AI研究開発第二グループ
    グループマネージャー
    経歴
    April 2019 - March 2020
    AI研究開発エンジニア@DeNA
    April 2010 - March 2019
    研究員@三菱電機
    March 2010
    博士@東北大学
    @kzykmyzw

    View Slide

  3. © GO Inc.
    論文情報
    ● arXiv初出は2023年2月23日
    ● CVPR 2023 Highlights(採択論文の10%)
    ● 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs)
    [paper] [code]
    3

    View Slide

  4. © GO Inc.
    何ができるのか
    RGB画像からのSemantic Scene Completion (SSC)
    SSC = 完全な3次元ボリュームの復元+セマンティックセグメンテーション
    https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif
    4

    View Slide

  5. © GO Inc.
    ● Semantic Scene Completion (SSC)というタスクを初めて定義
    ● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した
    TSDF (Truncated
    Signed Distance Function)に変換し、3D CNNに入力
    ● 広い受容野で3次元空間のコンテキストを取得するため、
    dilated convを利用
    ● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施
    関連研究 - SSCNet -
    Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017.
    “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion)
    and object category (i.e., scene labeling) from a single depth image of a 3D scene”
    * データ盗用で訴えられ、公開を停止(原告側の訴えは却下)
    [参考]
    5

    View Slide

  6. © GO Inc.
    関連研究 - SemanticKITTI -
    Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019.
    Semantic scene completion benchmarkでは不完全な
    入力(左)から完全なシーン(右)の生成を行う
    ● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与
    ● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする
    SSCのベンチ
    マークも提供
    ● 屋外シーンの実データによるSSCベンチマークはこれが世界初
    6

    View Slide

  7. © GO Inc.
    関連研究 - MonoScene -
    Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
    ● 2.5または3次元を入力とする従来手法に対し、
    2次元入力(1枚のRGB画像)でSSCを実現
    ● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力
    ● FLoSPと3D CRPという新たなモジュールを提案
    ○ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成
    ○ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述
    https://astra-vision.github.io/MonoScene/
    7

    View Slide

  8. © GO Inc.
    ● 3次元ボリュームの各ボクセルの中心座標を
    2次元画像に投影し、投影位置に対応する
    2次元特徴
    をマルチスケールでサンプリングして
    3次元特徴を生成
    ● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば
    2つの物体
    が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう
    ● これを軽減するため、視錐台に含まれる
    3次元ボリュームのラベル分布を真値に近づけるロスを導
    入(Frustum Proportion Loss)
    FLoSP (Features Line of Sight Projection)
    Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
    FLoSP Frustum Proportion Loss
    8

    View Slide

  9. © GO Inc.
    VoxFormerのモチベーション
    (1) reconstruction-before-hallucination: まず画像中の可視領域について
    3次元情報を獲得し、次に
    それらを起点として不可視領域を推測
    (2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な
    3次元ボ
    リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善
    可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル
    特徴を獲得したうえで残りのボクセルを
    MAE (Masked Autoencoder)ライクに補完
    9

    View Slide

  10. © GO Inc.
    VoxFormerのアーキテクチャ
    ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
    補クエリとして特定
    ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
    クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
    10

    View Slide

  11. © GO Inc.
    ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
    補クエリとして特定
    ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
    クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
    VoxFormerのアーキテクチャ
    11

    View Slide

  12. © GO Inc.
    事前準備
    ● 入力は内部パラメータ既知のカメラから得られた連続
    RGB画像(1枚でも可)
    ● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意
    ● 計算量削減とロバスト性向上のため、
    Qの解像度は最終出力の3次元ボリュームよりも小さくする
    12

    View Slide

  13. © GO Inc.
    デプス推定
    ● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ
    Zを生成
    ● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換
    c
    u
    , c
    v
    , f
    u
    , f
    v
    :カメラ内部パラメータ
    13

    View Slide

  14. © GO Inc.
    候補クエリ生成
    ● 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは
    1、それ以外
    は0)
    ● LMSCNetを使って精度を上げると共に解像度をクエリ集合
    Qと一致させる
    Depth Correction

    Query Proposal
    Z
    W
    H
    3次元点群から生成された
    occupancy map
    M
    in
    補正されたoccupancy map
    M
    out
    LMSCNet
    14

    View Slide

  15. © GO Inc.
    LMSCNet (Lightweight Multiscale Semantic Completion Network)
    Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
    ● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法
    ● 高さ方向の次元を特徴の次元とみなして大半を
    2D CNNで構成することで計算量を削減
    ● 最終出力を生成するためのヘッドにおいてのみ
    3D CNNを使う
    15

    View Slide

  16. © GO Inc.
    候補クエリ生成
    ● Occupancy map M
    out
    において物体に占有されているボクセル座標からクエリを取り出す
    ● 取り出したクエリQ
    p
    を候補クエリとしてstage-2以降で利用
    ● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善
    Depth Correction

    Query Proposal
    16

    View Slide

  17. © GO Inc.
    ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
    補クエリとして特定
    ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
    クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
    VoxFormerのアーキテクチャ
    17

    View Slide

  18. © GO Inc.
    候補クエリに対応する画像特徴の獲得
    ● 画像特徴はCNN (ResNet-50 + FPN)で抽出
    ● 候補クエリに対してlearnableなpositional embeddingを加算
    ● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を
    獲得
    18

    View Slide

  19. © GO Inc.
    Deformable Cross-Attention (DCA)
    Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
    ● Attentionの計算範囲を局所領域に
    限定することで特徴マップ全体を使
    う通常のattentionにおける以下の
    課題を解決
    ○ 特徴マップのサイズの二乗に比
    例して計算量が増大
    ○ 収束が遅い
    ● 参照点とその近傍から特徴をサン
    プリング(近傍点数はハイパーパラ
    メータ)
    ● 参照点にlearnableなオフセットを
    加えることでサンプリングに使う近
    傍点を決める
    Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
    19

    View Slide

  20. © GO Inc.
    Deformable Cross-Attention (DCA)
    Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
    ● VoxFormerにおいては、stage-1で
    生成した候補クエリを使い、その
    3
    次元座標を画像に投影した点が参
    照点となる
    ● 実際の入力は複数のRGB画像で
    あるため、それぞれで計算した結果
    を平均化する(投影点が範囲外とな
    る画像は無視)
    ● 実装では参照点の近傍8点を使っ
    たDCAを3回繰り返す
    Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
    Stage-1で生成した候補クエリ
    候補クエリの3
    次元座標を画
    像に投影した
    2次元点
    画像から抽出した
    特徴マップ
    20

    View Slide

  21. © GO Inc.
    疎なボクセル特徴の補完
    ● クエリ以外のボクセル(stage-1においてデプスが得られなかった領域)を
    MAE (Masked
    Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴
    を獲得
    ● マスクトークンは全て共通のlearnableなベクトル
    ● 画像特徴の獲得時と同様、deformable attentionを用いる
    21

    View Slide

  22. © GO Inc.
    Masked Autoencoder (MAE)
    Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022.
    masked image MAE reconstruction ground truth
    ImageNet-1Kにおける精度比較
    ● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ
    りそれらを復元する事前学習を行う
    ● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き
    換えてデコーダに入力
    ● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い
    22

    View Slide

  23. © GO Inc.
    Deformable Self-Attention (DSA)
    Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
    ● 候補クエリに選ばれなかったボクセ
    ルをマスクトークンで埋めることで
    ボクセル特徴を補完
    ● 候補クエリまたはマスクトークンの
    3
    次元座標を参照点とし、その近傍を
    ボクセル特徴からサンプリングして
    attentionを計算することでボクセル
    特徴を更新
    ● 実装では参照点の近傍8点を使っ
    たDSAを2回繰り返す
    Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
    DCAでアップデートした候補クエリまたはマスクトークン
    候補クエリまたはマ
    スクトークンの3次
    元座標
    ボクセル特徴
    23

    View Slide

  24. © GO Inc.
    最終出力の生成
    ● DCAとDSAを経て更新されたボクセル特徴を
    FC層に入力し最終出力を得る
    ● FC層では空間方向の解像度を上げ、各ボクセルの次元数をラベル数に一致させる
    24

    View Slide

  25. © GO Inc.
    学習
    Occupancy mapの真値と比較
    (binary cross-entropy)
    SSCの真値と比較
    (cross-entropy)
    ● Stage-1とstage-2の学習はそれぞれ独立に行われる
    ● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用
    ● 加えて、stage-2ではscene-class affinity lossも用いる
    25

    View Slide

  26. © GO Inc.
    性能評価
    6.4m
    51.2m
    51.2m
    ● SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3
    次元ボリュームをボクセルごとのラベルと共に復元)
    ● 車両の前方51.2m、左右51.2m、高さ6.4mが対象
    ● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32
    ● 2種類の尺度で評価
    ○ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価)
    ○ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価)
    26

    View Slide

  27. © GO Inc.
    実装
    入力はステレオ画像
    ● 現時刻のフレームのみ:VoxFormer-S
    ● 現時刻&直前4フレーム:VoxFormer-T
    学習済みの
    MobileStereoNet [1] で
    生成
    128 × 128 × 16 256 × 256 × 32
    ステレオ画像の片方のみを利用し、
    ResNet-50 + FPNで特徴抽出(128次元)
    LMSCNet [2]をスクラッチ学習
    [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022
    [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
    x 3
    x 2
    27

    View Slide

  28. © GO Inc.
    評価結果
    12.8 × 12.8 × 6.4m3
    25.6 × 25.6 × 6.4m3
    51.2 × 51.2 × 6.4m3
    1st, 2nd, 3rd
    RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
    3つのレンジで評価
    28

    View Slide

  29. © GO Inc.
    評価結果
    12.8 × 12.8 × 6.4m3
    25.6 × 25.6 × 6.4m3
    51.2 × 51.2 × 6.4m3
    1st, 2nd, 3rd
    RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
    LiDARスキャンを入力とする手法との比較
    3つのレンジで評価
    29

    View Slide

  30. © GO Inc.
    Ablation Study
    ステレオ画像ではなく単眼画像だとどうか? 候補クエリを全部 or ランダムにしたらどうか?
    未来のフレームも使ったらどうか? どのアーキテクチャが効くか?
    +N:現在のフレームから
    Nフレーム後
    30

    View Slide

  31. © GO Inc.
    所感
    ● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い
    ● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的
    ● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない
    MonoSceneを比較対象にするのはフェアでない気もする(実際、
    VoxFormerからデプス推定を除く
    とMonoSceneに負ける)
    ● 使う側からすると、学習用にラベル付きの
    3次元ボリュームを用意することはかなりしんどいので他
    カメラに対する汎化性能が気になるところ
    31

    View Slide

  32. © GO Inc.
    We’re Hiring!
    https://hrmos.co/pages/goinc/jobs?category=1342449154655301632
    ● エンジニアはフルリモートOK!
    ● いつでもカジュアル面談OKなので
    お気軽にお声がけください
    32

    View Slide

  33. 文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。
    © GO Inc.

    View Slide

  34. © GO Inc. 34
    Scene-Class Affinity Loss
    Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
    ボクセルiにおける真値
    ボクセルiにおけるクラスcの推論確率
    Iverson括弧
    → Precision → Recall → Specificity
    ● クラスごとのprecision、recall、specificityを直接的に最適化するロス
    ● ネットワークに対してグローバルな
    SSC性能を陽にフィードバックする

    View Slide

  35. © GO Inc.
    主観評価
    35

    View Slide