Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DoubleField_CV勉強会_CVPR2022.pdf

澤田圭一
August 07, 2022

 DoubleField_CV勉強会_CVPR2022.pdf

全日本コンピュータビジョン勉強会(2022/08/07)で発表した"DoubleField: Bridging the Neural Surface and Radiance Fields for High-Fidelity Human Reconstruction and Rendering"の紹介資料です。

澤田圭一

August 07, 2022
Tweet

Other Decks in Research

Transcript

  1. 2022/08/07 株式会社Live2D 澤田圭一 DoubleField: Bridging the Neural Surface and Radiance

    Fields for High-fidelity Human Reconstruction and Rendering Ruizhi Shao, Hongwen Zhang, He Zhang, Mingjia Chen, Yan-Pei Cao, Tao Yu, Yebin Liu
  2. 自己紹介 澤田 圭一(twitter: @kano_sawa) • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

    stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用
  3. 論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力 画像から、高精度な人体の3D再構成やレンダリングを実現 レンダリング結果(入力画像6枚)

  4. 論文の概要 • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力 画像から、高精度な人体の3D再構成やレンダリングを実現 レンダリング結果(入力画像6枚) Radiance Field :

    NeRF Surface Field : PIFu を扱う技術
  5. 説明の流れ • 従来手法 ◦ NeRF/PIFu ◦ PixelNeRF(NeRFとPIFuを合わせた従来技術) ◦ PixelNeRFの問題点 •

    DoubleField ◦ 入力画像1枚 ◦ 複数視点への拡張 • 実験
  6. 従来手法

  7. NeRF(Neural Radiance Field) • 複数画像からの任意視点合成、3D再構成 • 入力:3D位置X, 方向d → 出力:密度σ,

    色c ・長所 画像のみから学習可能、透過や光沢を扱いやすい ・短所 たくさんの画像と計算時間が必要 (シーンごとに学習が必要、事前学習できない) ボリューム レンダリング “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, Ben Mildenhall, et al. (ECCV2020)
  8. PIFu(Pixel Implicit Function) • 画像1枚から3D再構成 • 入力:3D位置X, 画素特徴 → 出力:内外判定(外は0,

    内は1) 0 1 0.5 ・長所 画像1枚から3D再構成が可能 (大規模データセットから事前学習が可能) ・短所 学習に3Dデータが必要、ロバスト性が低い “PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization”, Shunsuke Saito, et al. (ICCV2019) 画素特徴
  9. PixelNeRF • 画像1枚からRadiance Fieldを推論可能にした • 入力:3D位置X, 方向d, 画素特徴 → 出力:密度σ,

    色c “pixelNeRF: Neural Radiance Fields from One or Few Images”, Alex Yu, et al. (CVPR2021) 新規視点 入力画像 ※PIFu同様、大規模データセットから事前学習 画素特徴
  10. PixelNeRFの問題点 • レンダリング画像がボケてしまう(精度が低い) PixelNeRFのレンダリング画像 (6視点の画像から生成)

  11. DoubleField (入力画像1枚)

  12. ネットワーク • NeRFネットワークの入力に画素特徴を追加し、出力に内外判定を追加 • 入力:3D位置X, 方向d, 画素特徴 → 出力:密度σ, 色c,

    内外判定(0~1) NeRF PIFu 画素特徴 DoubleField Radiance Field Surface Field
  13. 数式で表すと? 画素特徴 3D位置 画像 中間特徴量 3D位置 のPE Geometryの推定 Appearanceの推定 方向

  14. 二段階の学習フェーズ • 「大規模データセットによる事前学習」と「対象シーンに対するFine Tuning」という二段階の学習を行う(詳細は次頁) 大規模データセット による事前学習 https://khanhha.github.io/posts/3D-human-datasets/ 対象シーンに対する Fine Tuning

  15. Loss関数 内外判定の誤差 法線の誤差 画素値の誤差 事前学習のみ 事前学習 + Fine Tuning 式

    式の意味 学習フェーズ final loss : Geometry Appearance
  16. Loss関数 内外判定の誤差 法線の誤差 画素値の誤差 式 式の意味 final loss : Geometry

    Appearance PixelNeRF等と異なり、 事前学習に3Dデータが必要 事前学習のみ 学習フェーズ 対象シーンは画像だけでOK 事前学習 + Fine Tuning
  17. 学習の工夫 • Surface-guided Sampling Strategy ◦ 表面付近(内外判定 s=0.5)を重点的にサンプリング ◦ NeRFにおけるHierarchical

    Volume Samplingと同じ考え方
  18. DoubleField (複数視点への拡張)

  19. 従来手法(PixelNeRFなど)における複数視点への拡張 単一視点の式 この画素特徴を 複数視点の情報を 使ってより良くしたい 視点 i における 画素特徴 視点

    i における 方向 concat Average Pooling 複数視点の式 視点間の関係性を無視して情報が混ぜられてしまう (新規視点からの近さなど)
  20. 従来手法(PixelNeRFなど)における複数視点への拡張 この画素特徴を 複数視点の情報を 使ってより良くしたい 視点 i における 画素特徴 視点 i

    における 方向 concat Average Pooling 複数視点の式 Attention(Transformer) 視点間の関係性を無視して情報が混ぜられてしまう 単一視点の式 (新規視点からの近さなど)
  21. Transformerによる複数視点情報の統合(Encoder) https://deepsquare.jp/2020/07/transformer/ 各視点の画素特徴 Geometryは、この特徴から算出 Transformer原論文の図(参考)

  22. Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用 画素値 Encoderの 出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図(参考) 新規視点

    入力視点
  23. Transformerによる複数視点情報の統合(Decoder) https://deepsquare.jp/2020/07/transformer/ 方向dをQueryとKey として利用 画素値 Encoderの 出力特徴 Appearanceは、この特徴から算出 Transformer原論文の図(参考) 新規視点

    入力視点 近い視点から 見た画素値は 参考になる
  24. 実験

  25. 実験条件 • データセット ◦ Twindom dataset, THuman2.0 • 比較対象論文 ◦

    PIFu, PIFuHD ◦ PixelNeRF ◦ NeuralBody(SMPLを利用する手法)
  26. 主観評価(レンダリング画像) ボケてしまう SMPLベースなので 人体以外の部分でエラー

  27. 主観評価(3D再構成) “Our Method(Ft)”が最も再構成結果が綺麗

  28. 客観評価(レンダリング画像) 全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり

  29. 客観評価(3D再構成) ほぼ全ての項目について、”Our Method”が最も良い結果 FineTuning なし FineTuning あり 単位は[cm]

  30. Ablation Study Transformerなし RF/SFの共通特徴なし Color MLPなし Fine Tuningなし 低解像度でFine Tuning

    全ての要素が改善に寄与
  31. まとめ • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力 画像から、高精度な人体の3D再構成やレンダリングを実現するDouble Fieldを紹介 • 入力:3D位置X, 方向d,

    画素特徴→出力:密度σ, 色c, 内外判定(0~1) • 複数視点の情報をTransformerで統合 • 主観/客観評価共に、従来手法よりも良い結果