Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DoubleField_CV勉強会_CVPR2022.pdf

澤田圭一
August 07, 2022

 DoubleField_CV勉強会_CVPR2022.pdf

全日本コンピュータビジョン勉強会(2022/08/07)で発表した"DoubleField: Bridging the Neural Surface and Radiance Fields for High-Fidelity Human Reconstruction and Rendering"の紹介資料です。

澤田圭一

August 07, 2022
Tweet

More Decks by 澤田圭一

Other Decks in Research

Transcript

  1. 2022/08/07 株式会社Live2D 澤田圭一 DoubleField: Bridging the Neural Surface and Radiance

    Fields for High-fidelity Human Reconstruction and Rendering Ruizhi Shao, Hongwen Zhang, He Zhang, Mingjia Chen, Yan-Pei Cao, Tao Yu, Yebin Liu
  2. 自己紹介 澤田 圭一(twitter: @kano_sawa) • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

    stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用
  3. NeRF(Neural Radiance Field) • 複数画像からの任意視点合成、3D再構成 • 入力:3D位置X, 方向d → 出力:密度σ,

    色c ・長所 画像のみから学習可能、透過や光沢を扱いやすい ・短所 たくさんの画像と計算時間が必要 (シーンごとに学習が必要、事前学習できない) ボリューム レンダリング “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, Ben Mildenhall, et al. (ECCV2020)
  4. PIFu(Pixel Implicit Function) • 画像1枚から3D再構成 • 入力:3D位置X, 画素特徴 → 出力:内外判定(外は0,

    内は1) 0 1 0.5 ・長所 画像1枚から3D再構成が可能 (大規模データセットから事前学習が可能) ・短所 学習に3Dデータが必要、ロバスト性が低い “PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization”, Shunsuke Saito, et al. (ICCV2019) 画素特徴
  5. PixelNeRF • 画像1枚からRadiance Fieldを推論可能にした • 入力:3D位置X, 方向d, 画素特徴 → 出力:密度σ,

    色c “pixelNeRF: Neural Radiance Fields from One or Few Images”, Alex Yu, et al. (CVPR2021) 新規視点 入力画像 ※PIFu同様、大規模データセットから事前学習 画素特徴
  6. Loss関数 内外判定の誤差 法線の誤差 画素値の誤差 式 式の意味 final loss : Geometry

    Appearance PixelNeRF等と異なり、 事前学習に3Dデータが必要 事前学習のみ 学習フェーズ 対象シーンは画像だけでOK 事前学習 + Fine Tuning
  7. 従来手法(PixelNeRFなど)における複数視点への拡張 単一視点の式 この画素特徴を 複数視点の情報を 使ってより良くしたい 視点 i における 画素特徴 視点

    i における 方向 concat Average Pooling 複数視点の式 視点間の関係性を無視して情報が混ぜられてしまう (新規視点からの近さなど)
  8. 従来手法(PixelNeRFなど)における複数視点への拡張 この画素特徴を 複数視点の情報を 使ってより良くしたい 視点 i における 画素特徴 視点 i

    における 方向 concat Average Pooling 複数視点の式 Attention(Transformer) 視点間の関係性を無視して情報が混ぜられてしまう 単一視点の式 (新規視点からの近さなど)
  9. 実験条件 • データセット ◦ Twindom dataset, THuman2.0 • 比較対象論文 ◦

    PIFu, PIFuHD ◦ PixelNeRF ◦ NeuralBody(SMPLを利用する手法)
  10. まとめ • Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力 画像から、高精度な人体の3D再構成やレンダリングを実現するDouble Fieldを紹介 • 入力:3D位置X, 方向d,

    画素特徴→出力:密度σ, 色c, 内外判定(0~1) • 複数視点の情報をTransformerで統合 • 主観/客観評価共に、従来手法よりも良い結果