Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Generative Multiplane Images: Making a 2D GAN 3D-Aware

澤田圭一
October 22, 2022

Generative Multiplane Images: Making a 2D GAN 3D-Aware

第57回コンピュータビジョン勉強会@関東(ECCV2022読み会)で発表した"Generative Multiplane Images: Making a 2D GAN 3D-Aware"の紹介資料です。

澤田圭一

October 22, 2022
Tweet

More Decks by 澤田圭一

Other Decks in Research

Transcript

  1. 2022/10/22 株式会社Live2D 澤田圭一 Generative Multiplane Images: Making a 2D GAN

    3D-Aware Xiaoming Zhao, Fangchang Ma, David Guera, Zhile Ren, Alexander G. Schwing, Alex Colburn
  2. 自己紹介 澤田 圭一(twitter: @kano_sawa) • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

    stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用
  3. 論文年表 2017 2018 2019 2020 2021-2022 2D GAN Style Transfer

    Novel View Synthesis PGGAN AdaIN Multiplane Images NeRF StyleGAN StyleGAN2 HoloGAN 3D Aware GAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE EG3D
  4. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  5. AdaIN(Adaptive Instance Normalization) affine parameterを変えると、 画像のスタイルが変化する! “Arbitrary Style Transfer in

    Real-time with Adaptive Instance Normalization”, Xun Huang, Serge Belongie(2017) スタイル画像yから affine parameterを抽出 Feed-forward networkによる高速で高精度なStyle Transferが実現
  6. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  7. StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”, Tero

    Karras, Samuli Laine, Timo Aila (2018) • PGGAN + AdaIN + 構造の工夫 PGGAN StyleGAN 精度向上だけでなく、Style Mixingなどが 可能になり、デファクトスタンダードに。
  8. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN ネットワーク構造 の改良 (詳細は省略) GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  9. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  10. HoloGAN “HoloGAN: Unsupervised Learning of 3D Representations From Natural Images”,

    Thu Nguyen-Phuoc, et. al (2019) • StyleGANを3D特徴を出力するよう改造→剛体変換+3D→2Dマッピング 3D特徴を 剛体変換 3D→2D 3D入力→4D入力 Conv2D→Conv3D 欠点:高解像度化が困難 (3D→2Dマッピングを高解像度のビュー間で 一貫性を保つように学習させることが困難)
  11. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  12. GRAF(Generative Radiance Fields) “GRAF: Generative Radiance Fields for 3D-Aware Image

    Synthesis”, Xun Huang, Serge Belongie(2018) • Radiance Fieldsの仕組みをGANの枠組みに組み込む 欠点:高解像度化が困難 (Radiance Fieldsの学習効率が悪い) ポーズ
  13. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN NeRFベース手法 の効率化 GRAF StyleNeRF EG3D GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images 2021-2022
  14. EG3D(512×512における精度がSOTA) “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan

    Chan, et. al(2021) • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現
  15. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022
  16. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022
  17. Generative Multiplane Images(GMPI) • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

    MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力
  18. Generative Multiplane Images(GMPI) • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

    MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力 一度MPIを生成してしまえば、その後は レンダリング処理のみで画像生成を行える!
  19. 【詳細】Shading-guided Training デプスマップ 法線 光源方向 拡散光係数 環境光係数 Shading無しの 画素値 •

    シェーディング処理した画像をDiscriminatorに入力することで、推定 されるアルファマップ(3D形状)の曖昧さを減らす
  20. データセット • Flickr-Faces-HQ Dataset(FFHQ) • 実写顔、70000枚、1024×1024 • Animal Faces-HQ v2(AFHQv2)

    • 動物顔(猫のみ利用)、5065枚、512×512 • MetFaces • 人物画の顔、1336枚、1024×1024 FFHQ AFHQ MetFaces
  21. 定量評価指標 • Inception Distance(FID, KID) <↓> • 実画像と生成画像の分布の差 • Identity

    Similarity(ID) <↑> • 異なるカメラ姿勢から生成した画像間の類似度(ArcFace) • Depth <↓> • 生成画像に対する従来のFace Reconstructionの結果と、生成デプスの差 • Pose <↓> • 生成画像に対する従来の顔姿勢推定の結果と、指定した顔姿勢の差 ※ ↓↑は高低どちらが良いか
  22. Ablation Study(1/2) DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用(※)

    Shading: Shading Guided Training StyleGAN2 3D-awareにするのに 重要なのはDPC。 Fα は補助的な役割 DPCを入れると FIDは悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する
  23. Ablation Study(2/2) DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用

    Shading: Shading Guided Training StyleGAN2 Shading Guided Training によってDepthが少し改善 FIDはさらに悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する
  24. まとめ・感想 • まとめ • Multiplane Images(MPI)を応用することで、「3D的な一貫性」を持つ「高解像度」 画像を「高速」に生成できるGenerative Multiplane Images(GMPI)を紹介した •

    感想 • MPIを応用した初めての3D-aware GAN手法であり、改善の余地はまだありそう。 • 顔に限定すればNeRFベース手法が有望そうではあるが、(拡散モデルで生成されるよ うな)多種多様な画像生成を3D-awareにすることを考えると、MPIのようなリーズナ ブルな表現の利用は今後も模索されていくのではないか。