Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 DISN: Deep Implicit Surface Network for Hi...

論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

2023年上期のメディアAI PJの内部勉強会で発表した資料です。SDFベースの3次元再構成手法を提案しているDISNについて調査しました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved. メディアAI PJ勉強会 DISN:

    Deep Implicit Surface Network for High- quality Single-view 3D Reconstruction 2023年6月7日 小林 和輝
  2. © NTT Communications Corporation All Rights Reserved. 2 論文概要 DISN:

    Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction[1] • 1枚の画像からニューラルネットワークで3次元形状を構築 • 2018, 19年頃に似たコンセプトの論文が発表 • Occupancy Networks[2] [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 [2]Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR, 2019
  3. © NTT Communications Corporation All Rights Reserved. 3 3次元再構成 •

    2次元画像から3次元形状を構築 • Computer Visionによる手法 • Structure from Motion • Image Matching • ☆機械学習による手法 • 形状表現までニューラルネットワークで行う 入力(画像) 3次元形状 処理
  4. © NTT Communications Corporation All Rights Reserved. 4 3Dモデル表現とニューラルネットワークでの扱い •

    ボクセル • 小立方体の集合で表現 • ニューラルネットワークで扱うのは用意だが、メモリ消費量が膨大になる • 解像度の3乗のオーダー • メッシュ • 物体の表面をポリゴン(多角形の面... 三角形が多い)の集合として表現 • テンプレートメッシュを変形することで形状構築 • テンプレートと異なるトポロジーを許容しない(穴が開くなど) • 点群 • 3次元空間上の点集合で表現 • 点と点の結合情報が欠如 → ニューラルネットワークでの扱いが難しい • ☆ Implicit Representation(陰関数) • 3次元空間上の座標値を入力 → 座標点が物体の内側/外側を表す関数で表現 • この関数をニューラルネットワークで表現する手法が成果を収める • 解像度の自由度が高い • 計算効率に優れる • 任意の形状を表現
  5. © NTT Communications Corporation All Rights Reserved. 5 Implicit Representation

    DISNではSDFをニューラルネットワークで表現 • 入力:3次元空間上の座標点 • 出力:3Dモデルの表面を境界とし物体の内側と外側のどちらに存在するか 表面からの符号付き距離 (Signed Distance) 𝒑 = 𝒙, 𝒚, 𝒛 ∈ 𝑹𝟑, 𝒔 ∈ 𝑹 ∶ 𝒔 = 𝑺𝑫𝑭 𝒑 𝒔𝟎 = {𝒑|𝑺𝑭𝑫 𝒑 = 𝟎} 𝑝 :3次元上の座標 𝑠 の絶対値は表面との最短距離 𝑠 の符号は物体の内部 (s<0) か外部 (s>0) 𝑠0 は3Dの表面 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 Signed Distance Function (SDF)
  6. © NTT Communications Corporation All Rights Reserved. 6 DISNの概要 •

    SDFによる3次元再構成手法 • 入力:画像、座標点 • 出力:座標点に対するSDFの値 • 2つのニューラルネットワークで構成 • カメラの姿勢推定ネットワーク • SDF推定ネットワーク
  7. © NTT Communications Corporation All Rights Reserved. 7 DISNの3次元再構成までの処理 1.

    画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1: Global+Point Features をMLP 2. S2: Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
  8. © NTT Communications Corporation All Rights Reserved. 8 DISNの3次元再構成までの処理 1.

    画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1: Global+Point Features をMLP 2. S2: Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
  9. © NTT Communications Corporation All Rights Reserved. 9 カメラのポーズ推定 •

    入力画像に対応する視点を推論 • 前提条件 • ShapeNet Core Datasetsで学習 • 全てのモデルが位置合わせされている • Ground Truthの3Dモデルは常に原点に位置する • このモデル空間をカメラパラメータの基準となるworld空間として使用
  10. © NTT Communications Corporation All Rights Reserved. 10 カメラのポーズ推定 •

    6Dの回転表現で回帰 𝒃 = 𝒃𝒙 , 𝒃𝒚 , 𝒃 ∈ 𝑹𝟔, 𝒃𝒙 , 𝒃𝒚 ∈ 𝑹𝟑 𝑹𝒙 = 𝑵 𝒃𝒙 , 𝑹𝒛 = 𝑵 𝑹𝒙 × 𝒃𝒚 , 𝑹𝒚 = 𝑹𝒛 × 𝑹𝒙 world空間からカメラ空間への移動 𝐭 ∈ 𝑹𝟑はネットワークから推定 𝒃 : 6D rotation representation 𝑹 = (𝑹𝒙 , 𝑹𝒚 ,𝑹𝒛 )𝑻∈ 𝑹𝟑×𝟑 :回転行列 𝑹𝒙 , 𝑹𝒚 ,𝑹𝒛 ∈ 𝑹𝟑, 𝑵(⋅):Normalization [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
  11. © NTT Communications Corporation All Rights Reserved. 11 カメラのポーズ推定 •

    Lossの計算 • 推論しカメラポーズでWorld座標系の点群をカメラ座標へ移動 • Ground Truthとの平均二乗誤差を計算 𝑳𝒄𝒂𝒎 = σ𝒑𝑤∈𝑷𝑪𝒘 𝑷𝑮 − (𝑹𝑷𝒘 + 𝒕) 𝟐 𝟐 σ 𝒑𝒘∈𝑷𝑪𝒘 𝟏 • 𝑷𝑪𝒘 ∈ 𝑹𝑵×𝟑:World空間での点群 • 𝑵: 𝐏𝐂𝐰 の点の数 • 𝑷𝒘 ∈ 𝑷𝑪𝒘 , 𝑷𝑮 :カメラ空間でのGT [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019
  12. © NTT Communications Corporation All Rights Reserved. 12 DISNの3次元再構成までの処理 1.

    画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝒑 を画像平面に投影 𝒑𝒊 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1: Global+Point Features をMLP 2. S2: Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
  13. © NTT Communications Corporation All Rights Reserved. 14 SDF推論 •

    Image Encoder:VGG-16 • 損失関数 𝑳𝑺𝑫𝑭 = σ𝒑 𝒎 𝒇 𝑰, 𝒑 − 𝑺𝑫𝑭𝑰 𝒑 , 𝒎 = ቊ 𝒎𝟏 , 𝒊𝒇 𝑺𝑫𝑭𝑰 𝒑 < 𝜹 𝒎𝟐 , 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 𝑰 : 入力画像 𝑆𝐷𝐹𝑰 : ground truth 𝑓(∙) : 推論のネットワーク 𝒑 ∈ 𝑹𝟑 : 3D点 𝒒 ∈ 𝑹𝟐 : 画像平面上の位置 𝒎 : 重み
  14. © NTT Communications Corporation All Rights Reserved. 15 DISNの3次元再構成までの処理 1.

    画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1: Global+Point Features をMLP 2. S2: Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
  15. © NTT Communications Corporation All Rights Reserved. 16 Surface Reconstruction

    • 密な3Dのグリッドを定義 → 各グリッドのSDFを推論 • Marching Cubes法 • 隣接する8つのグリッドに注目 • 等値面形成のための閾値 t (ex. t=0) • 今回の場合、物体の表面で0になるように学習していた... • 28 個の組み合わせ • 回転、反転を排除 → 15組 • 最適化計算 → メッシュを生成 [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes
  16. © NTT Communications Corporation All Rights Reserved. 17 実験 •

    カメラの姿勢推定とSDF推定を別々に学習 • データセット • ShapeNet Core の3Dメッシュ → 𝟐𝟓𝟔𝟑のSDFグリッド生成 • 13カテゴリ(chair, plane, table, sofa...) • レンダリングビュー • 24視点から撮影 • カメラ:常に原点向き、原点に配置 • 3次元空間上の座標点 • DISNは任意の解像度でSDFを得られるが等値面付近の点が重要 • モンテカルロサンプリングで2048個の格子点を選択し学習
  17. © NTT Communications Corporation All Rights Reserved. 18 評価指標 •

    Chamfer Distance (CD) • 𝐶𝐷 𝑃𝐶, 𝑃𝐶𝑇 = σ𝑝1∈𝑃𝐶 min 𝑝2∈𝑃𝐶𝑇 𝑝1 − 𝑝2 2 2 + σ𝑝2∈𝑃𝐶𝑇 min 𝑝1∈𝑃𝐶 𝑝1 − 𝑝2 2 2 • 𝑃𝐶, 𝑃𝐶𝑇 :予測したメッシュ、ground truthのメッシュからサンプリングした点 • Earth Mover’s Distance (EMD) • EMD 𝑃𝐶, 𝑃𝐶𝑇 = min 𝜙:𝑃𝐶 →𝑃𝐶𝑇 σ𝑝∈𝑃𝐶 𝑝 − 𝜙(𝑝) 2 • 𝜙: 𝑃𝐶 → PCT :全単射 • Intersection over Union (IoU) • 領域の重なり具合を評価
  18. © NTT Communications Corporation All Rights Reserved. 19 実験結果 [1]

    Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019
  19. © NTT Communications Corporation All Rights Reserved. 20 定性評価 [1]

    Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019
  20. © NTT Communications Corporation All Rights Reserved. 21 参考文献 •

    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 • [2] Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR, 2019 • [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes