論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

© NTT Communications Corporation All Rights Reserved. メディアAI PJ勉強会 DISN:
Deep Implicit Surface Network for High- quality Single-view 3D Reconstruction 2023年6月7日小林和輝

© NTT Communications Corporation All Rights Reserved. 2 論文概要 DISN:
Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction[1] • １枚の画像からニューラルネットワークで3次元形状を構築 • 2018, 19年頃に似たコンセプトの論文が発表 • Occupancy Networks[2] [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 [2]Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR, 2019

© NTT Communications Corporation All Rights Reserved. 3 3次元再構成 •
2次元画像から3次元形状を構築 • Computer Visionによる手法 • Structure from Motion • Image Matching • ☆機械学習による手法 • 形状表現までニューラルネットワークで行う入力(画像) 3次元形状処理

© NTT Communications Corporation All Rights Reserved. 4 3Dモデル表現とニューラルネットワークでの扱い •
ボクセル • 小立方体の集合で表現 • ニューラルネットワークで扱うのは用意だが、メモリ消費量が膨大になる • 解像度の3乗のオーダー • メッシュ • 物体の表面をポリゴン（多角形の面... 三角形が多い）の集合として表現 • テンプレートメッシュを変形することで形状構築 • テンプレートと異なるトポロジーを許容しない（穴が開くなど） • 点群 • 3次元空間上の点集合で表現 • 点と点の結合情報が欠如 → ニューラルネットワークでの扱いが難しい • ☆ Implicit Representation（陰関数） • 3次元空間上の座標値を入力 → 座標点が物体の内側/外側を表す関数で表現 • この関数をニューラルネットワークで表現する手法が成果を収める • 解像度の自由度が高い • 計算効率に優れる • 任意の形状を表現

© NTT Communications Corporation All Rights Reserved. 5 Implicit Representation
DISNではSDFをニューラルネットワークで表現 • 入力：3次元空間上の座標点 • 出力：3Dモデルの表面を境界とし物体の内側と外側のどちらに存在するか表面からの符号付き距離 (Signed Distance) 𝒑 = 𝒙, 𝒚, 𝒛 ∈ 𝑹𝟑, 𝒔 ∈ 𝑹 ∶ 𝒔 = 𝑺𝑫𝑭 𝒑 𝒔𝟎 = {𝒑|𝑺𝑭𝑫 𝒑 = 𝟎} 𝑝 ：3次元上の座標 𝑠 の絶対値は表面との最短距離 𝑠 の符号は物体の内部 (s<0) か外部 (s>0) 𝑠0 は3Dの表面 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 Signed Distance Function (SDF)

© NTT Communications Corporation All Rights Reserved. 6 DISNの概要 •
SDFによる3次元再構成手法 • 入力：画像、座標点 • 出力：座標点に対するSDFの値 • 2つのニューラルネットワークで構成 • カメラの姿勢推定ネットワーク • SDF推定ネットワーク

© NTT Communications Corporation All Rights Reserved. 7 DISNの3次元再構成までの処理 1.
画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝑝 を画像平面に投影 𝑝𝑖 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1： Global+Point Features をMLP 2. S2： Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

© NTT Communications Corporation All Rights Reserved. 9 カメラのポーズ推定 •
入力画像に対応する視点を推論 • 前提条件 • ShapeNet Core Datasetsで学習 • 全てのモデルが位置合わせされている • Ground Truthの3Dモデルは常に原点に位置する • このモデル空間をカメラパラメータの基準となるworld空間として使用

6Dの回転表現で回帰 𝒃 = 𝒃𝒙 , 𝒃𝒚 , 𝒃 ∈ 𝑹𝟔, 𝒃𝒙 , 𝒃𝒚 ∈ 𝑹𝟑 𝑹𝒙 = 𝑵 𝒃𝒙 , 𝑹𝒛 = 𝑵 𝑹𝒙 × 𝒃𝒚 , 𝑹𝒚 = 𝑹𝒛 × 𝑹𝒙 world空間からカメラ空間への移動 𝐭 ∈ 𝑹𝟑はネットワークから推定 𝒃 ： 6D rotation representation 𝑹 = (𝑹𝒙 , 𝑹𝒚 ,𝑹𝒛 )𝑻∈ 𝑹𝟑×𝟑 ：回転行列 𝑹𝒙 , 𝑹𝒚 ,𝑹𝒛 ∈ 𝑹𝟑, 𝑵(⋅)：Normalization [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

Lossの計算 • 推論しカメラポーズでWorld座標系の点群をカメラ座標へ移動 • Ground Truthとの平均二乗誤差を計算 𝑳𝒄𝒂𝒎 = σ𝒑𝑤∈𝑷𝑪𝒘 𝑷𝑮 − (𝑹𝑷𝒘 + 𝒕) 𝟐 𝟐 σ 𝒑𝒘∈𝑷𝑪𝒘 𝟏 • 𝑷𝑪𝒘 ∈ 𝑹𝑵×𝟑：World空間での点群 • 𝑵： 𝐏𝐂𝐰 の点の数 • 𝑷𝒘 ∈ 𝑷𝑪𝒘 , 𝑷𝑮 ：カメラ空間でのGT [１] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS 2019, 2019

画像、座標点入力 2. カメラのポーズ推定 3. 3次元空間上の座標点 𝒑 を画像平面に投影 𝒑𝒊 4. Encoder 1. VGG-16 で画像の特徴抽出 → Global Features 2. 𝑝𝑖 付近の特徴量を抜き出す → Local Features 3. 座標点 𝑝 をMLP特徴抽出→ Point Features 5. Decoder 1. S1： Global+Point Features をMLP 2. S2： Local+Point FeaturesをMLP 3. SDF = S1+S2 6. マーチングキューブ法でメッシュ生成 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019

© NTT Communications Corporation All Rights Reserved. 14 SDF推論 •
Image Encoder：VGG-16 • 損失関数 𝑳𝑺𝑫𝑭 = σ𝒑 𝒎 𝒇 𝑰, 𝒑 − 𝑺𝑫𝑭𝑰 𝒑 , 𝒎 = ቊ 𝒎𝟏 , 𝒊𝒇 𝑺𝑫𝑭𝑰 𝒑 < 𝜹 𝒎𝟐 , 𝒐𝒕𝒉𝒆𝒓𝒘𝒊𝒔𝒆 [1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 𝑰 : 入力画像 𝑆𝐷𝐹𝑰 : ground truth 𝑓(∙) : 推論のネットワーク 𝒑 ∈ 𝑹𝟑 : 3D点 𝒒 ∈ 𝑹𝟐 : 画像平面上の位置 𝒎 : 重み

© NTT Communications Corporation All Rights Reserved. 16 Surface Reconstruction
• 密な3Dのグリッドを定義 → 各グリッドのSDFを推論 • Marching Cubes法 • 隣接する8つのグリッドに注目 • 等値面形成のための閾値 t (ex. t=0) • 今回の場合、物体の表面で0になるように学習していた... • 28 個の組み合わせ • 回転、反転を排除 → 15組 • 最適化計算 → メッシュを生成 [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes

© NTT Communications Corporation All Rights Reserved. 17 実験 •
カメラの姿勢推定とSDF推定を別々に学習 • データセット • ShapeNet Core の3Dメッシュ → 𝟐𝟓𝟔𝟑のSDFグリッド生成 • 13カテゴリ（chair, plane, table, sofa...） • レンダリングビュー • 24視点から撮影 • カメラ：常に原点向き、原点に配置 • 3次元空間上の座標点 • DISNは任意の解像度でSDFを得られるが等値面付近の点が重要 • モンテカルロサンプリングで2048個の格子点を選択し学習

© NTT Communications Corporation All Rights Reserved. 18 評価指標 •
Chamfer Distance (CD) • 𝐶𝐷 𝑃𝐶, 𝑃𝐶𝑇 = σ𝑝1∈𝑃𝐶 min 𝑝2∈𝑃𝐶𝑇 𝑝1 − 𝑝2 2 2 + σ𝑝2∈𝑃𝐶𝑇 min 𝑝1∈𝑃𝐶 𝑝1 − 𝑝2 2 2 • 𝑃𝐶, 𝑃𝐶𝑇 :予測したメッシュ、ground truthのメッシュからサンプリングした点 • Earth Mover’s Distance (EMD) • EMD 𝑃𝐶, 𝑃𝐶𝑇 = min 𝜙:𝑃𝐶 →𝑃𝐶𝑇 σ𝑝∈𝑃𝐶 𝑝 − 𝜙(𝑝) 2 • 𝜙: 𝑃𝐶 → PCT ：全単射 • Intersection over Union (IoU) • 領域の重なり具合を評価

© NTT Communications Corporation All Rights Reserved. 21 参考文献 •
[1] Weiyue Wang, et al., DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction, NeurIPS, 2019 • [2] Mescheder, et al., Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR, 2019 • [3] Marching Cube, Wikipedia, https://en.wikipedia.org/wiki/Marching_cubes

論文紹介 DISN: Deep Implicit Surface Network for Hi...

論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

NTT docomo Business

More Decks by NTT docomo Business

Other Decks in Research

Featured

Transcript

© NTT Communications Corporation All Rights Reserved. メディアAI PJ勉強会 DISN:

© NTT Communications Corporation All Rights Reserved. 2 論文概要 DISN:

© NTT Communications Corporation All Rights Reserved. 3 3次元再構成 •

© NTT Communications Corporation All Rights Reserved. 4 3Dモデル表現とニューラルネットワークでの扱い •

© NTT Communications Corporation All Rights Reserved. 5 Implicit Representation

© NTT Communications Corporation All Rights Reserved. 6 DISNの概要 •

© NTT Communications Corporation All Rights Reserved. 7 DISNの3次元再構成までの処理 1.

© NTT Communications Corporation All Rights Reserved. 8 DISNの3次元再構成までの処理 1.

© NTT Communications Corporation All Rights Reserved. 9 カメラのポーズ推定 •

© NTT Communications Corporation All Rights Reserved. 10 カメラのポーズ推定 •

© NTT Communications Corporation All Rights Reserved. 11 カメラのポーズ推定 •

© NTT Communications Corporation All Rights Reserved. 12 DISNの3次元再構成までの処理 1.

© NTT Communications Corporation All Rights Reserved. 14 SDF推論 •

© NTT Communications Corporation All Rights Reserved. 15 DISNの3次元再構成までの処理 1.

© NTT Communications Corporation All Rights Reserved. 16 Surface Reconstruction

© NTT Communications Corporation All Rights Reserved. 17 実験 •

© NTT Communications Corporation All Rights Reserved. 18 評価指標 •

© NTT Communications Corporation All Rights Reserved. 19 実験結果 [１]

© NTT Communications Corporation All Rights Reserved. 20 定性評価 [１]

© NTT Communications Corporation All Rights Reserved. 21 参考文献 •