Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Generative Multiplane Images: Making a 2D GAN 3D-Aware

澤田圭一
October 22, 2022

Generative Multiplane Images: Making a 2D GAN 3D-Aware

第57回コンピュータビジョン勉強会@関東(ECCV2022読み会)で発表した"Generative Multiplane Images: Making a 2D GAN 3D-Aware"の紹介資料です。

澤田圭一

October 22, 2022
Tweet

More Decks by 澤田圭一

Other Decks in Research

Transcript

  1. 2022/10/22 株式会社Live2D 澤田圭一 Generative Multiplane Images: Making a 2D GAN

    3D-Aware Xiaoming Zhao, Fangchang Ma, David Guera, Zhile Ren, Alexander G. Schwing, Alex Colburn
  2. 自己紹介 澤田 圭一(twitter: @kano_sawa) • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

    stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用
  3. 論文紹介の前に • Live2D社では「0からイラストを生成する研究は行わない」と 22年4月発表のAI研究ポリシー(※)で明言しています。 • あくまでも個人の勉強のための論文紹介です。 ※https://docs.nizima.com/ai-research-policy/

  4. 論文の概要 • 3D的な一貫性を持つ画像生成をMultiplane Imagesを応用し て実現 生成画像

  5. 課題 • 「3D的な一貫性」を持つ「高解像度」画像を「高速」に生成 したい まずは、周辺研究の歴史を振り返りながら、 上記の課題について理解を共有する ・綱島さん資料 StyleNeRF : https://speakerdeck.com/maguro27/di-9hui-quan-ri-ben-konpiyutabiziyonmian-qiang-hui-stylenerf-a-style-based-3d-aware-generator-for-

    high-resolution-image-synthesis-fa-biao-zi-liao スキルアップAIキャンプ GAN編 : https://speakerdeck.com/maguro27/sukiruatupuaikiyanpu-di-79hui-sheng-cheng-moderuhamadamadajin-hua- siteiru-gan-noyan-jiu-dong-xiang-shao-jie
  6. 論文年表 2017 2018 2019 2020 2021-2022 2D GAN Style Transfer

    Novel View Synthesis PGGAN AdaIN Multiplane Images NeRF StyleGAN StyleGAN2 HoloGAN 3D Aware GAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE EG3D
  7. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  8. AdaIN(Adaptive Instance Normalization) affine parameterを変えると、 画像のスタイルが変化する! “Arbitrary Style Transfer in

    Real-time with Adaptive Instance Normalization”, Xun Huang, Serge Belongie(2017) スタイル画像yから affine parameterを抽出 Feed-forward networkによる高速で高精度なStyle Transferが実現
  9. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  10. StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”, Tero

    Karras, Samuli Laine, Timo Aila (2018) • PGGAN + AdaIN + 構造の工夫 PGGAN StyleGAN 精度向上だけでなく、Style Mixingなどが 可能になり、デファクトスタンダードに。
  11. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN ネットワーク構造 の改良 (詳細は省略) GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  12. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  13. HoloGAN “HoloGAN: Unsupervised Learning of 3D Representations From Natural Images”,

    Thu Nguyen-Phuoc, et. al (2019) • StyleGANを3D特徴を出力するよう改造→剛体変換+3D→2Dマッピング 3D特徴を 剛体変換 3D→2D 3D入力→4D入力 Conv2D→Conv3D 欠点:高解像度化が困難 (3D→2Dマッピングを高解像度のビュー間で 一貫性を保つように学習させることが困難)
  14. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022
  15. GRAF(Generative Radiance Fields) “GRAF: Generative Radiance Fields for 3D-Aware Image

    Synthesis”, Xun Huang, Serge Belongie(2018) • Radiance Fieldsの仕組みをGANの枠組みに組み込む 欠点:高解像度化が困難 (Radiance Fieldsの学習効率が悪い) ポーズ
  16. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN NeRFベース手法 の効率化 GRAF StyleNeRF EG3D GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images 2021-2022
  17. EG3D(512×512における精度がSOTA) “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan

    Chan, et. al(2021) • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現
  18. EG3D(512×512における精度がSOTA) • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現

    →高速に生成できるようにしたい! “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan Chan, et. al(2021)
  19. 論文紹介 Generative Multiplane Images: Making a 2D GAN 3D-Aware

  20. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022
  21. Multiplane Images(MPI) • シーンを「複数の離散的な距離における画像の合成」として復元し、任 意視点合成を行う MPIの概念図 合成結果(ステレオ画像の視差拡大) “Stereo Magnification: Learning

    view synthesis using multiplane images”, Tinghui Zhou. et. al(2018)
  22. 論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

    View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022
  23. Generative Multiplane Images(GMPI) • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

    MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力
  24. Generative Multiplane Images(GMPI) • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

    MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力 一度MPIを生成してしまえば、その後は レンダリング処理のみで画像生成を行える!
  25. 【詳細】Alpha Maps推定ブランチ StyleGAN2の中間特徴 (解像度ごと) • 各デプスd i について、それぞれAlpha Mapを推定する

  26. 【詳細】Discriminator Pose Conditioning • StyleGAN2のDiscriminatorで算出した特徴量をカメラ姿勢で条件付け StyleGAN2の Discriminator 特徴量(R16) カメラ姿勢の Embedding(

    R16 ) GMPIのDiscriminator出力
  27. 【詳細】Shading-guided Training デプスマップ 法線 光源方向 拡散光係数 環境光係数 Shading無しの 画素値 •

    シェーディング処理した画像をDiscriminatorに入力することで、推定 されるアルファマップ(3D形状)の曖昧さを減らす
  28. データセット • Flickr-Faces-HQ Dataset(FFHQ) • 実写顔、70000枚、1024×1024 • Animal Faces-HQ v2(AFHQv2)

    • 動物顔(猫のみ利用)、5065枚、512×512 • MetFaces • 人物画の顔、1336枚、1024×1024 FFHQ AFHQ MetFaces
  29. 評価

  30. 画像生成時間 • どの解像度においても、従来手法より画像生成が高速 ※GMPIはinference時間ではなく、レンダリング時間を記載 学習時間も短い

  31. 定量評価指標 • Inception Distance(FID, KID) <↓> • 実画像と生成画像の分布の差 • Identity

    Similarity(ID) <↑> • 異なるカメラ姿勢から生成した画像間の類似度(ArcFace) • Depth <↓> • 生成画像に対する従来のFace Reconstructionの結果と、生成デプスの差 • Pose <↓> • 生成画像に対する従来の顔姿勢推定の結果と、指定した顔姿勢の差 ※ ↓↑は高低どちらが良いか
  32. 定量評価結果 • EG3Dなどconcurrent workには劣るが、それ以前の研究に対しては勝 っている • ただし、EG3Dは1024×1024に非対応(原理的に拡張は可能そうだが、精度がどうな るかは不明)であり、1024×1024のFIDでは本手法がSOTA 解 像

  33. Ablation Study(1/2) DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用(※)

    Shading: Shading Guided Training StyleGAN2 3D-awareにするのに 重要なのはDPC。 Fα は補助的な役割 DPCを入れると FIDは悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する
  34. Ablation Study(2/2) DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用

    Shading: Shading Guided Training StyleGAN2 Shading Guided Training によってDepthが少し改善 FIDはさらに悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する
  35. まとめ・感想 • まとめ • Multiplane Images(MPI)を応用することで、「3D的な一貫性」を持つ「高解像度」 画像を「高速」に生成できるGenerative Multiplane Images(GMPI)を紹介した •

    感想 • MPIを応用した初めての3D-aware GAN手法であり、改善の余地はまだありそう。 • 顔に限定すればNeRFベース手法が有望そうではあるが、(拡散モデルで生成されるよ うな)多種多様な画像生成を3D-awareにすることを考えると、MPIのようなリーズナ ブルな表現の利用は今後も模索されていくのではないか。