Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

2023年上期のメディアAI PJの内部勉強会で発表した資料です。SDFベースの3次元再構成手法を提案しているDISNについて調査しました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved.
    メディアAI PJ勉強会
    DISN: Deep Implicit Surface Network for High-
    quality Single-view 3D Reconstruction
    2023年6月7日
    小林 和輝

    View full-size slide

  2. © NTT Communications Corporation All Rights Reserved. 2
    論文概要
    DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction[1]
    • 1枚の画像からニューラルネットワークで3次元形状を構築
    • 2018, 19年頃に似たコンセプトの論文が発表
    • Occupancy Networks[2]
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
    [2]Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR, 2019

    View full-size slide

  3. © NTT Communications Corporation All Rights Reserved. 3
    3次元再構成
    • 2次元画像から3次元形状を構築
    • Computer Visionによる手法
    • Structure from Motion
    • Image Matching
    • ☆機械学習による手法
    • 形状表現までニューラルネットワークで行う
    入力(画像) 3次元形状
    処理

    View full-size slide

  4. © NTT Communications Corporation All Rights Reserved. 4
    3Dモデル表現とニューラルネットワークでの扱い
    • ボクセル
    • 小立方体の集合で表現
    • ニューラルネットワークで扱うのは用意だが、メモリ消費量が膨大になる
    • 解像度の3乗のオーダー
    • メッシュ
    • 物体の表面をポリゴン(多角形の面... 三角形が多い)の集合として表現
    • テンプレートメッシュを変形することで形状構築
    • テンプレートと異なるトポロジーを許容しない(穴が開くなど)
    • 点群
    • 3次元空間上の点集合で表現
    • 点と点の結合情報が欠如 → ニューラルネットワークでの扱いが難しい
    • ☆ Implicit Representation(陰関数)
    • 3次元空間上の座標値を入力 → 座標点が物体の内側/外側を表す関数で表現
    • この関数をニューラルネットワークで表現する手法が成果を収める
    • 解像度の自由度が高い
    • 計算効率に優れる
    • 任意の形状を表現

    View full-size slide

  5. © NTT Communications Corporation All Rights Reserved. 5
    Implicit Representation
    DISNではSDFをニューラルネットワークで表現
    • 入力:3次元空間上の座標点
    • 出力:3Dモデルの表面を境界とし物体の内側と外側のどちらに存在するか
    表面からの符号付き距離 (Signed Distance)
    𝒑 = 𝒙, 𝒚, 𝒛 ∈ 𝑹𝟑, 𝒔 ∈ 𝑹 ∶ 𝒔 = 𝑺𝑫𝑭 𝒑
    𝒔𝟎
    = {𝒑|𝑺𝑭𝑫 𝒑 = 𝟎}
    𝑝 :3次元上の座標
    𝑠 の絶対値は表面との最短距離
    𝑠 の符号は物体の内部 (s<0) か外部 (s>0)
    𝑠0
    は3Dの表面
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
    Signed Distance Function (SDF)

    View full-size slide

  6. © NTT Communications Corporation All Rights Reserved. 6
    DISNの概要
    • SDFによる3次元再構成手法
    • 入力:画像、座標点
    • 出力:座標点に対するSDFの値
    • 2つのニューラルネットワークで構成
    • カメラの姿勢推定ネットワーク
    • SDF推定ネットワーク

    View full-size slide

  7. © NTT Communications Corporation All Rights Reserved. 7
    DISNの3次元再構成までの処理
    1. 画像、座標点入力
    2. カメラのポーズ推定
    3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖
    4. Encoder
    1. VGG-16 で画像の特徴抽出 → Global Features
    2. 𝑝𝑖
    付近の特徴量を抜き出す → Local Features
    3. 座標点 𝑝 をMLP特徴抽出→ Point Features
    5. Decoder
    1. S1: Global+Point Features をMLP
    2. S2: Local+Point FeaturesをMLP
    3. SDF = S1+S2
    6. マーチングキューブ法でメッシュ生成
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

    View full-size slide

  8. © NTT Communications Corporation All Rights Reserved. 8
    DISNの3次元再構成までの処理
    1. 画像、座標点入力
    2. カメラのポーズ推定
    3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖
    4. Encoder
    1. VGG-16 で画像の特徴抽出 → Global Features
    2. 𝑝𝑖
    付近の特徴量を抜き出す → Local Features
    3. 座標点 𝑝 をMLP特徴抽出→ Point Features
    5. Decoder
    1. S1: Global+Point Features をMLP
    2. S2: Local+Point FeaturesをMLP
    3. SDF = S1+S2
    6. マーチングキューブ法でメッシュ生成
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

    View full-size slide

  9. © NTT Communications Corporation All Rights Reserved. 9
    カメラのポーズ推定
    • 入力画像に対応する視点を推論
    • 前提条件
    • ShapeNet Core Datasetsで学習
    • 全てのモデルが位置合わせされている
    • Ground Truthの3Dモデルは常に原点に位置する
    • このモデル空間をカメラパラメータの基準となるworld空間として使用

    View full-size slide

  10. © NTT Communications Corporation All Rights Reserved. 10
    カメラのポーズ推定
    • 6Dの回転表現で回帰
    𝒃 = 𝒃𝒙
    , 𝒃𝒚
    , 𝒃 ∈ 𝑹𝟔, 𝒃𝒙
    , 𝒃𝒚
    ∈ 𝑹𝟑
    𝑹𝒙
    = 𝑵 𝒃𝒙
    , 𝑹𝒛
    = 𝑵 𝑹𝒙
    × 𝒃𝒚
    , 𝑹𝒚
    = 𝑹𝒛
    × 𝑹𝒙
    world空間からカメラ空間への移動 𝐭 ∈ 𝑹𝟑はネットワークから推定
    𝒃 : 6D rotation representation
    𝑹 = (𝑹𝒙
    , 𝑹𝒚
    ,𝑹𝒛
    )𝑻∈ 𝑹𝟑×𝟑 :回転行列
    𝑹𝒙
    , 𝑹𝒚
    ,𝑹𝒛
    ∈ 𝑹𝟑, 𝑵(⋅):Normalization
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

    View full-size slide

  11. © NTT Communications Corporation All Rights Reserved. 11
    カメラのポーズ推定
    • Lossの計算
    • 推論しカメラポーズでWorld座標系の点群をカメラ座標へ移動
    • Ground Truthとの平均二乗誤差を計算
    𝑳𝒄𝒂𝒎
    =
    σ𝒑𝑤∈𝑷𝑪𝒘
    𝑷𝑮
    − (𝑹𝑷𝒘
    + 𝒕) 𝟐
    𝟐
    σ
    𝒑𝒘∈𝑷𝑪𝒘
    𝟏
    • 𝑷𝑪𝒘
    ∈ 𝑹𝑵×𝟑:World空間での点群
    • 𝑵: 𝐏𝐂𝐰
    の点の数
    • 𝑷𝒘
    ∈ 𝑷𝑪𝒘
    , 𝑷𝑮
    :カメラ空間でのGT
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019

    View full-size slide

  12. © NTT Communications Corporation All Rights Reserved. 12
    DISNの3次元再構成までの処理
    1. 画像、座標点入力
    2. カメラのポーズ推定
    3. 3次元空間上の座標点 𝒑 を画像平面に投影 𝒑𝒊
    4. Encoder
    1. VGG-16 で画像の特徴抽出 → Global Features
    2. 𝑝𝑖
    付近の特徴量を抜き出す → Local Features
    3. 座標点 𝑝 をMLP特徴抽出→ Point Features
    5. Decoder
    1. S1: Global+Point Features をMLP
    2. S2: Local+Point FeaturesをMLP
    3. SDF = S1+S2
    6. マーチングキューブ法でメッシュ生成
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

    View full-size slide

  13. © NTT Communications Corporation All Rights Reserved. 14
    SDF推論
    • Image Encoder:VGG-16
    • 損失関数
    𝑳𝑺𝑫𝑭
    = σ𝒑
    𝒎 𝒇 𝑰, 𝒑 − 𝑺𝑫𝑭𝑰 𝒑 ,
    𝒎 = ቊ
    𝒎𝟏
    , 𝒊𝒇 𝑺𝑫𝑭𝑰 𝒑 < 𝜹
    𝒎𝟐
    , 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019
    𝑰 : 入力画像
    𝑆𝐷𝐹𝑰 : ground truth
    𝑓(∙) : 推論のネットワーク
    𝒑 ∈ 𝑹𝟑 : 3D点
    𝒒 ∈ 𝑹𝟐 : 画像平面上の位置
    𝒎 : 重み

    View full-size slide

  14. © NTT Communications Corporation All Rights Reserved. 15
    DISNの3次元再構成までの処理
    1. 画像、座標点入力
    2. カメラのポーズ推定
    3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖
    4. Encoder
    1. VGG-16 で画像の特徴抽出 → Global Features
    2. 𝑝𝑖
    付近の特徴量を抜き出す → Local Features
    3. 座標点 𝑝 をMLP特徴抽出→ Point Features
    5. Decoder
    1. S1: Global+Point Features をMLP
    2. S2: Local+Point FeaturesをMLP
    3. SDF = S1+S2
    6. マーチングキューブ法でメッシュ生成
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

    View full-size slide

  15. © NTT Communications Corporation All Rights Reserved. 16
    Surface Reconstruction
    • 密な3Dのグリッドを定義 → 各グリッドのSDFを推論
    • Marching Cubes法
    • 隣接する8つのグリッドに注目
    • 等値面形成のための閾値 t (ex. t=0)
    • 今回の場合、物体の表面で0になるように学習していた...
    • 28 個の組み合わせ
    • 回転、反転を排除 → 15組
    • 最適化計算 → メッシュを生成
    [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes

    View full-size slide

  16. © NTT Communications Corporation All Rights Reserved. 17
    実験
    • カメラの姿勢推定とSDF推定を別々に学習
    • データセット
    • ShapeNet Core の3Dメッシュ → 𝟐𝟓𝟔𝟑のSDFグリッド生成
    • 13カテゴリ(chair, plane, table, sofa...)
    • レンダリングビュー
    • 24視点から撮影
    • カメラ:常に原点向き、原点に配置
    • 3次元空間上の座標点
    • DISNは任意の解像度でSDFを得られるが等値面付近の点が重要
    • モンテカルロサンプリングで2048個の格子点を選択し学習

    View full-size slide

  17. © NTT Communications Corporation All Rights Reserved. 18
    評価指標
    • Chamfer Distance (CD)
    • 𝐶𝐷 𝑃𝐶, 𝑃𝐶𝑇
    = σ𝑝1∈𝑃𝐶
    min
    𝑝2∈𝑃𝐶𝑇
    𝑝1
    − 𝑝2 2
    2 + σ𝑝2∈𝑃𝐶𝑇
    min
    𝑝1∈𝑃𝐶
    𝑝1
    − 𝑝2 2
    2
    • 𝑃𝐶, 𝑃𝐶𝑇
    :予測したメッシュ、ground truthのメッシュからサンプリングした点
    • Earth Mover’s Distance (EMD)
    • EMD 𝑃𝐶, 𝑃𝐶𝑇
    = min
    𝜙:𝑃𝐶 →𝑃𝐶𝑇
    σ𝑝∈𝑃𝐶
    𝑝 − 𝜙(𝑝) 2
    • 𝜙: 𝑃𝐶 → PCT
    :全単射
    • Intersection over Union (IoU)
    • 領域の重なり具合を評価

    View full-size slide

  18. © NTT Communications Corporation All Rights Reserved. 19
    実験結果
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019

    View full-size slide

  19. © NTT Communications Corporation All Rights Reserved. 20
    定性評価
    [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019

    View full-size slide

  20. © NTT Communications Corporation All Rights Reserved. 21
    参考文献
    • [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D
    Reconstruction, NeurIPS, 2019
    • [2] Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR,
    2019
    • [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes

    View full-size slide