Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DoubleField_CV勉強会_CVPR2022.pdf

澤田圭一
August 07, 2022

 DoubleField_CV勉強会_CVPR2022.pdf

全日本コンピュータビジョン勉強会(2022/08/07)で発表した"DoubleField: Bridging the Neural Surface and Radiance Fields for High-Fidelity Human Reconstruction and Rendering"の紹介資料です。

澤田圭一

August 07, 2022
Tweet

More Decks by 澤田圭一

Other Decks in Research

Transcript

  1. 2022/08/07
    株式会社Live2D
    澤田圭一
    DoubleField:
    Bridging the Neural Surface and Radiance Fields for
    High-fidelity Human Reconstruction and Rendering
    Ruizhi Shao, Hongwen Zhang, He Zhang, Mingjia Chen, Yan-Pei Cao, Tao Yu, Yebin Liu

    View Slide

  2. 自己紹介
    澤田 圭一(twitter: @kano_sawa)
    ● 2009-2017年
    ○ カメラメーカー
    ○ ビデオシースルー型HMDの製品開発、Multi-view stereo
    ● 2017-2020年
    ○ 自動車メーカー
    ○ ロボットビジョン
    ● 2020年/2月-
    ○ 株式会社Live2D
    ○ Live2Dモデルやイラストに対するCV/ML応用

    View Slide

  3. 論文の概要
    ● Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力
    画像から、高精度な人体の3D再構成やレンダリングを実現
    レンダリング結果(入力画像6枚)

    View Slide

  4. 論文の概要
    ● Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力
    画像から、高精度な人体の3D再構成やレンダリングを実現
    レンダリング結果(入力画像6枚)
    Radiance Field : NeRF
    Surface Field : PIFu
    を扱う技術

    View Slide

  5. 説明の流れ
    ● 従来手法
    ○ NeRF/PIFu
    ○ PixelNeRF(NeRFとPIFuを合わせた従来技術)
    ○ PixelNeRFの問題点
    ● DoubleField
    ○ 入力画像1枚
    ○ 複数視点への拡張
    ● 実験

    View Slide

  6. 従来手法

    View Slide

  7. NeRF(Neural Radiance Field)
    ● 複数画像からの任意視点合成、3D再構成
    ● 入力:3D位置X, 方向d → 出力:密度σ, 色c
    ・長所
    画像のみから学習可能、透過や光沢を扱いやすい
    ・短所
    たくさんの画像と計算時間が必要
    (シーンごとに学習が必要、事前学習できない)
    ボリューム
    レンダリング
    “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, Ben Mildenhall, et al. (ECCV2020)

    View Slide

  8. PIFu(Pixel Implicit Function)
    ● 画像1枚から3D再構成
    ● 入力:3D位置X, 画素特徴 → 出力:内外判定(外は0, 内は1)
    0
    1
    0.5
    ・長所
    画像1枚から3D再構成が可能
    (大規模データセットから事前学習が可能)
    ・短所
    学習に3Dデータが必要、ロバスト性が低い
    “PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization”, Shunsuke Saito, et al. (ICCV2019)
    画素特徴

    View Slide

  9. PixelNeRF
    ● 画像1枚からRadiance Fieldを推論可能にした
    ● 入力:3D位置X, 方向d, 画素特徴 → 出力:密度σ, 色c
    “pixelNeRF: Neural Radiance Fields from One or Few Images”, Alex Yu, et al. (CVPR2021)
    新規視点
    入力画像
    ※PIFu同様、大規模データセットから事前学習
    画素特徴

    View Slide

  10. PixelNeRFの問題点
    ● レンダリング画像がボケてしまう(精度が低い)
    PixelNeRFのレンダリング画像
    (6視点の画像から生成)

    View Slide

  11. DoubleField
    (入力画像1枚)

    View Slide

  12. ネットワーク
    ● NeRFネットワークの入力に画素特徴を追加し、出力に内外判定を追加
    ● 入力:3D位置X, 方向d, 画素特徴 → 出力:密度σ, 色c, 内外判定(0~1)
    NeRF
    PIFu
    画素特徴
    DoubleField
    Radiance Field Surface Field

    View Slide

  13. 数式で表すと?
    画素特徴
    3D位置 画像
    中間特徴量 3D位置
    のPE
    Geometryの推定 Appearanceの推定
    方向

    View Slide

  14. 二段階の学習フェーズ
    ● 「大規模データセットによる事前学習」と「対象シーンに対するFine
    Tuning」という二段階の学習を行う(詳細は次頁)
    大規模データセット
    による事前学習
    https://khanhha.github.io/posts/3D-human-datasets/
    対象シーンに対する
    Fine Tuning

    View Slide

  15. Loss関数
    内外判定の誤差
    法線の誤差
    画素値の誤差
    事前学習のみ
    事前学習

    Fine Tuning
    式 式の意味 学習フェーズ
    final loss :
    Geometry
    Appearance

    View Slide

  16. Loss関数
    内外判定の誤差
    法線の誤差
    画素値の誤差
    式 式の意味
    final loss :
    Geometry
    Appearance
    PixelNeRF等と異なり、
    事前学習に3Dデータが必要
    事前学習のみ
    学習フェーズ
    対象シーンは画像だけでOK
    事前学習

    Fine Tuning

    View Slide

  17. 学習の工夫
    ● Surface-guided Sampling Strategy
    ○ 表面付近(内外判定 s=0.5)を重点的にサンプリング
    ○ NeRFにおけるHierarchical Volume Samplingと同じ考え方

    View Slide

  18. DoubleField
    (複数視点への拡張)

    View Slide

  19. 従来手法(PixelNeRFなど)における複数視点への拡張
    単一視点の式
    この画素特徴を
    複数視点の情報を
    使ってより良くしたい
    視点 i における
    画素特徴
    視点 i における
    方向
    concat
    Average Pooling
    複数視点の式
    視点間の関係性を無視して情報が混ぜられてしまう
    (新規視点からの近さなど)

    View Slide

  20. 従来手法(PixelNeRFなど)における複数視点への拡張
    この画素特徴を
    複数視点の情報を
    使ってより良くしたい
    視点 i における
    画素特徴
    視点 i における
    方向
    concat
    Average Pooling
    複数視点の式
    Attention(Transformer)
    視点間の関係性を無視して情報が混ぜられてしまう
    単一視点の式
    (新規視点からの近さなど)

    View Slide

  21. Transformerによる複数視点情報の統合(Encoder)
    https://deepsquare.jp/2020/07/transformer/
    各視点の画素特徴
    Geometryは、この特徴から算出
    Transformer原論文の図(参考)

    View Slide

  22. Transformerによる複数視点情報の統合(Decoder)
    https://deepsquare.jp/2020/07/transformer/
    方向dをQueryとKey
    として利用
    画素値
    Encoderの
    出力特徴
    Appearanceは、この特徴から算出
    Transformer原論文の図(参考)
    新規視点
    入力視点

    View Slide

  23. Transformerによる複数視点情報の統合(Decoder)
    https://deepsquare.jp/2020/07/transformer/
    方向dをQueryとKey
    として利用
    画素値
    Encoderの
    出力特徴
    Appearanceは、この特徴から算出
    Transformer原論文の図(参考)
    新規視点
    入力視点
    近い視点から
    見た画素値は
    参考になる

    View Slide

  24. 実験

    View Slide

  25. 実験条件
    ● データセット
    ○ Twindom dataset, THuman2.0
    ● 比較対象論文
    ○ PIFu, PIFuHD
    ○ PixelNeRF
    ○ NeuralBody(SMPLを利用する手法)

    View Slide

  26. 主観評価(レンダリング画像)
    ボケてしまう
    SMPLベースなので
    人体以外の部分でエラー

    View Slide

  27. 主観評価(3D再構成)
    “Our Method(Ft)”が最も再構成結果が綺麗

    View Slide

  28. 客観評価(レンダリング画像)
    全ての項目について、”Our Method”が最も良い結果
    FineTuning
    なし
    FineTuning
    あり

    View Slide

  29. 客観評価(3D再構成)
    ほぼ全ての項目について、”Our Method”が最も良い結果
    FineTuning
    なし
    FineTuning
    あり
    単位は[cm]

    View Slide

  30. Ablation Study
    Transformerなし
    RF/SFの共通特徴なし
    Color MLPなし
    Fine Tuningなし
    低解像度でFine Tuning
    全ての要素が改善に寄与

    View Slide

  31. まとめ
    ● Radiance FieldとSurface Fieldの両方の利点を生かして、少ない入力
    画像から、高精度な人体の3D再構成やレンダリングを実現するDouble
    Fieldを紹介
    ● 入力:3D位置X, 方向d, 画素特徴→出力:密度σ, 色c, 内外判定(0~1)
    ● 複数視点の情報をTransformerで統合
    ● 主観/客観評価共に、従来手法よりも良い結果

    View Slide