DoubleField_CV勉強会_CVPR2022.pdf

2022/08/07 株式会社Live2D 澤田圭一 DoubleField: Bridging the Neural Surface and Radiance
Fields for High-fidelity Human Reconstruction and Rendering Ruizhi Shao, Hongwen Zhang, He Zhang, Mingjia Chen, Yan-Pei Cao, Tao Yu, Yebin Liu

自己紹介澤田圭一（twitter: @kano_sawa） • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view
stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用

論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現レンダリング結果（入力画像6枚）

論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現レンダリング結果（入力画像6枚） Radiance Field :
NeRF Surface Field : PIFu を扱う技術

説明の流れ • 従来手法 ◦ NeRF/PIFu ◦ PixelNeRF(NeRFとPIFuを合わせた従来技術) ◦ PixelNeRFの問題点 •
DoubleField ◦ 入力画像１枚 ◦ 複数視点への拡張 • 実験

従来手法

NeRF（Neural Radiance Field） • 複数画像からの任意視点合成、3D再構成 • 入力：3D位置X, 方向d → 出力：密度σ,
色c ・長所画像のみから学習可能、透過や光沢を扱いやすい・短所たくさんの画像と計算時間が必要（シーンごとに学習が必要、事前学習できない）ボリュームレンダリング “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, Ben Mildenhall, et al. (ECCV2020)

PIFu（Pixel Implicit Function） • 画像１枚から3D再構成 • 入力：3D位置X, 画素特徴 → 出力：内外判定(外は0,
内は1) 0 1 0.5 ・長所画像１枚から3D再構成が可能（大規模データセットから事前学習が可能）・短所学習に3Dデータが必要、ロバスト性が低い “PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization”, Shunsuke Saito, et al. (ICCV2019) 画素特徴

PixelNeRF • 画像１枚からRadiance Fieldを推論可能にした • 入力：3D位置X, 方向d, 画素特徴 → 出力：密度σ,
色c “pixelNeRF: Neural Radiance Fields from One or Few Images”, Alex Yu, et al. (CVPR2021) 新規視点入力画像 ※PIFu同様、大規模データセットから事前学習画素特徴

PixelNeRFの問題点 • レンダリング画像がボケてしまう（精度が低い） PixelNeRFのレンダリング画像（６視点の画像から生成）

DoubleField （入力画像１枚）

ネットワーク • NeRFネットワークの入力に画素特徴を追加し、出力に内外判定を追加 • 入力：3D位置X, 方向d, 画素特徴 → 出力：密度σ, 色c,
内外判定(0～1) NeRF PIFu 画素特徴 DoubleField Radiance Field Surface Field

数式で表すと？画素特徴 3D位置画像中間特徴量 3D位置のPE Geometryの推定 Appearanceの推定方向

二段階の学習フェーズ • 「大規模データセットによる事前学習」と「対象シーンに対するFine Tuning」という二段階の学習を行う（詳細は次頁）大規模データセットによる事前学習 https://khanhha.github.io/posts/3D-human-datasets/ 対象シーンに対する Fine Tuning

Loss関数内外判定の誤差法線の誤差画素値の誤差事前学習のみ事前学習＋ Fine Tuning 式
式の意味学習フェーズ final loss : Geometry Appearance

Loss関数内外判定の誤差法線の誤差画素値の誤差式式の意味 final loss : Geometry
Appearance PixelNeRF等と異なり、事前学習に3Dデータが必要事前学習のみ学習フェーズ対象シーンは画像だけでOK 事前学習＋ Fine Tuning

学習の工夫 • Surface-guided Sampling Strategy ◦ 表面付近（内外判定 s=0.5）を重点的にサンプリング ◦ NeRFにおけるHierarchical
Volume Samplingと同じ考え方

DoubleField （複数視点への拡張）

従来手法(PixelNeRFなど)における複数視点への拡張単一視点の式この画素特徴を複数視点の情報を使ってより良くしたい視点 i における画素特徴視点
i における方向 concat Average Pooling 複数視点の式視点間の関係性を無視して情報が混ぜられてしまう（新規視点からの近さなど）

従来手法(PixelNeRFなど)における複数視点への拡張この画素特徴を複数視点の情報を使ってより良くしたい視点 i における画素特徴視点 i
における方向 concat Average Pooling 複数視点の式 Attention(Transformer) 視点間の関係性を無視して情報が混ぜられてしまう単一視点の式（新規視点からの近さなど）

Transformerによる複数視点情報の統合(Encoder) https://deepsquare.jp/2020/07/transformer/ 各視点の画素特徴 Geometryは、この特徴から算出 Transformer原論文の図（参考）

Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用画素値 Encoderの出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図（参考）新規視点
入力視点

Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用画素値 Encoderの出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図（参考）新規視点
入力視点近い視点から見た画素値は参考になる

実験

実験条件 • データセット ◦ Twindom dataset, THuman2.0 • 比較対象論文 ◦
PIFu, PIFuHD ◦ PixelNeRF ◦ NeuralBody(SMPLを利用する手法)

主観評価（レンダリング画像）ボケてしまう SMPLベースなので人体以外の部分でエラー

主観評価（3D再構成） “Our Method(Ft)”が最も再構成結果が綺麗

客観評価（レンダリング画像）全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり

客観評価（3D再構成）ほぼ全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり単位は[cm]

Ablation Study Transformerなし RF/SFの共通特徴なし Color MLPなし Fine Tuningなし低解像度でFine Tuning
全ての要素が改善に寄与

まとめ • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現するDouble Fieldを紹介 • 入力：3D位置X, 方向d,
画素特徴→出力：密度σ, 色c, 内外判定(0～1) • 複数視点の情報をTransformerで統合 • 主観/客観評価共に、従来手法よりも良い結果

DoubleField_CV勉強会_CVPR2022.pdf

DoubleField_CV勉強会_CVPR2022.pdf

澤田圭一

More Decks by 澤田圭一

Other Decks in Research

Featured

Transcript

2022/08/07 株式会社Live2D 澤田圭一 DoubleField: Bridging the Neural Surface and Radiance

自己紹介澤田圭一（twitter: @kano_sawa） • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現レンダリング結果（入力画像6枚）

論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現レンダリング結果（入力画像6枚） Radiance Field :

説明の流れ • 従来手法 ◦ NeRF/PIFu ◦ PixelNeRF(NeRFとPIFuを合わせた従来技術) ◦ PixelNeRFの問題点 •

従来手法

NeRF（Neural Radiance Field） • 複数画像からの任意視点合成、3D再構成 • 入力：3D位置X, 方向d → 出力：密度σ,

PIFu（Pixel Implicit Function） • 画像１枚から3D再構成 • 入力：3D位置X, 画素特徴 → 出力：内外判定(外は0,

PixelNeRF • 画像１枚からRadiance Fieldを推論可能にした • 入力：3D位置X, 方向d, 画素特徴 → 出力：密度σ,

PixelNeRFの問題点 • レンダリング画像がボケてしまう（精度が低い） PixelNeRFのレンダリング画像（６視点の画像から生成）

DoubleField （入力画像１枚）

ネットワーク • NeRFネットワークの入力に画素特徴を追加し、出力に内外判定を追加 • 入力：3D位置X, 方向d, 画素特徴 → 出力：密度σ, 色c,

数式で表すと？画素特徴 3D位置画像中間特徴量 3D位置のPE Geometryの推定 Appearanceの推定方向

Loss関数内外判定の誤差法線の誤差画素値の誤差事前学習のみ事前学習＋ Fine Tuning 式

Loss関数内外判定の誤差法線の誤差画素値の誤差式式の意味 final loss : Geometry

学習の工夫 • Surface-guided Sampling Strategy ◦ 表面付近（内外判定 s=0.5）を重点的にサンプリング ◦ NeRFにおけるHierarchical

DoubleField （複数視点への拡張）

従来手法(PixelNeRFなど)における複数視点への拡張単一視点の式この画素特徴を複数視点の情報を使ってより良くしたい視点 i における画素特徴視点

従来手法(PixelNeRFなど)における複数視点への拡張この画素特徴を複数視点の情報を使ってより良くしたい視点 i における画素特徴視点 i

Transformerによる複数視点情報の統合(Encoder) https://deepsquare.jp/2020/07/transformer/ 各視点の画素特徴 Geometryは、この特徴から算出 Transformer原論文の図（参考）

Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用画素値 Encoderの出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図（参考）新規視点

Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用画素値 Encoderの出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図（参考）新規視点

実験

実験条件 • データセット ◦ Twindom dataset, THuman2.0 • 比較対象論文 ◦

主観評価（レンダリング画像）ボケてしまう SMPLベースなので人体以外の部分でエラー

主観評価（3D再構成） “Our Method(Ft)”が最も再構成結果が綺麗

客観評価（レンダリング画像）全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり

客観評価（3D再構成）ほぼ全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり単位は[cm]

Ablation Study Transformerなし RF/SFの共通特徴なし Color MLPなし Fine Tuningなし低解像度でFine Tuning

まとめ • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力画像から、高精度な人体の3D再構成やレンダリングを実現するDouble Fieldを紹介 • 入力：3D位置X, 方向d,