Generative Multiplane Images: Making a 2D GAN 3D-Aware

2022/10/22 株式会社Live2D 澤田圭一 Generative Multiplane Images: Making a 2D GAN
3D-Aware Xiaoming Zhao, Fangchang Ma, David Guera, Zhile Ren, Alexander G. Schwing, Alex Colburn

自己紹介澤田圭一（twitter: @kano_sawa） • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view
stereo • 2017-2020年 ◦ 自動車メーカー ◦ ロボットビジョン • 2020年/2月- ◦ 株式会社Live2D ◦ Live2Dモデルやイラストに対するCV/ML応用

論文紹介の前に • Live2D社では「０からイラストを生成する研究は行わない」と 22年4月発表のAI研究ポリシー(※)で明言しています。 • あくまでも個人の勉強のための論文紹介です。 ※https://docs.nizima.com/ai-research-policy/

論文の概要 • 3D的な一貫性を持つ画像生成をMultiplane Imagesを応用して実現生成画像

課題 • 「3D的な一貫性」を持つ「高解像度」画像を「高速」に生成したいまずは、周辺研究の歴史を振り返りながら、上記の課題について理解を共有する・綱島さん資料 StyleNeRF : https://speakerdeck.com/maguro27/di-9hui-quan-ri-ben-konpiyutabiziyonmian-qiang-hui-stylenerf-a-style-based-3d-aware-generator-for-
high-resolution-image-synthesis-fa-biao-zi-liao スキルアップAIキャンプ GAN編 : https://speakerdeck.com/maguro27/sukiruatupuaikiyanpu-di-79hui-sheng-cheng-moderuhamadamadajin-hua- siteiru-gan-noyan-jiu-dong-xiang-shao-jie

論文年表 2017 2018 2019 2020 2021-2022 2D GAN Style Transfer
Novel View Synthesis PGGAN AdaIN Multiplane Images NeRF StyleGAN StyleGAN2 HoloGAN 3D Aware GAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE EG3D

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel
View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022

AdaIN（Adaptive Instance Normalization） affine parameterを変えると、画像のスタイルが変化する！ “Arbitrary Style Transfer in
Real-time with Adaptive Instance Normalization”, Xun Huang, Serge Belongie(2017) スタイル画像yから affine parameterを抽出 Feed-forward networkによる高速で高精度なStyle Transferが実現

StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”, Tero
Karras, Samuli Laine, Timo Aila (2018) • PGGAN + AdaIN + 構造の工夫 PGGAN StyleGAN 精度向上だけでなく、Style Mixingなどが可能になり、デファクトスタンダードに。

View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN ネットワーク構造の改良（詳細は省略） GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN EG3D Multiplane Images 2021-2022

HoloGAN “HoloGAN: Unsupervised Learning of 3D Representations From Natural Images”,
Thu Nguyen-Phuoc, et. al (2019) • StyleGANを3D特徴を出力するよう改造→剛体変換＋3D→2Dマッピング 3D特徴を剛体変換 3D→2D 3D入力→4D入力 Conv2D→Conv3D 欠点：高解像度化が困難（3D→2Dマッピングを高解像度のビュー間で一貫性を保つように学習させることが困難）

GRAF（Generative Radiance Fields） “GRAF: Generative Radiance Fields for 3D-Aware Image
Synthesis”, Xun Huang, Serge Belongie(2018) • Radiance Fieldsの仕組みをGANの枠組みに組み込む欠点：高解像度化が困難（Radiance Fieldsの学習効率が悪い）ポーズ

View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN NeRFベース手法の効率化 GRAF StyleNeRF EG3D GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images 2021-2022

EG3D（512×512における精度がSOTA） “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan
Chan, et. al(2021) • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現

EG3D（512×512における精度がSOTA） • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現
→高速に生成できるようにしたい！ “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan Chan, et. al(2021)

論文紹介 Generative Multiplane Images: Making a 2D GAN 3D-Aware

View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022

Multiplane Images（MPI） • シーンを「複数の離散的な距離における画像の合成」として復元し、任意視点合成を行う MPIの概念図合成結果（ステレオ画像の視差拡大） “Stereo Magnification: Learning
view synthesis using multiplane images”, Tinghui Zhou. et. al(2018)

View Synthesis PGGAN AdaIN NeRF StyleGAN StyleGAN2 HoloGAN GRAF StyleNeRF GMPI(本論文) π-GAN GIRAFFE 3D Aware GAN Multiplane Images EG3D 2021-2022

Generative Multiplane Images（GMPI） • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •
MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力

Generative Multiplane Images（GMPI） • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •
MPIを指定したカメラ姿勢と光源方向に基づいてレンダリング • レンダリング画像をDiscrimatorに入力一度MPIを生成してしまえば、その後はレンダリング処理のみで画像生成を行える！

【詳細】Alpha Maps推定ブランチ StyleGAN2の中間特徴（解像度ごと） • 各デプスd i について、それぞれAlpha Mapを推定する

【詳細】Discriminator Pose Conditioning • StyleGAN2のDiscriminatorで算出した特徴量をカメラ姿勢で条件付け StyleGAN2の Discriminator 特徴量（R16）カメラ姿勢の Embedding（
R16 ） GMPIのDiscriminator出力

【詳細】Shading-guided Training デプスマップ法線光源方向拡散光係数環境光係数 Shading無しの画素値 •
シェーディング処理した画像をDiscriminatorに入力することで、推定されるアルファマップ（３D形状）の曖昧さを減らす

データセット • Flickr-Faces-HQ Dataset（FFHQ） • 実写顔、70000枚、1024×1024 • Animal Faces-HQ v2（AFHQv2）
• 動物顔（猫のみ利用）、5065枚、512×512 • MetFaces • 人物画の顔、1336枚、1024×1024 FFHQ AFHQ MetFaces

評価

画像生成時間 • どの解像度においても、従来手法より画像生成が高速 ※GMPIはinference時間ではなく、レンダリング時間を記載学習時間も短い

定量評価指標 • Inception Distance(FID, KID) <↓> • 実画像と生成画像の分布の差 • Identity
Similarity(ID) <↑> • 異なるカメラ姿勢から生成した画像間の類似度（ArcFace） • Depth <↓> • 生成画像に対する従来のFace Reconstructionの結果と、生成デプスの差 • Pose <↓> • 生成画像に対する従来の顔姿勢推定の結果と、指定した顔姿勢の差 ※ ↓↑は高低どちらが良いか

定量評価結果 • EG3Dなどconcurrent workには劣るが、それ以前の研究に対しては勝っている • ただし、EG3Dは1024×1024に非対応（原理的に拡張は可能そうだが、精度がどうなるかは不明）であり、1024×1024のFIDでは本手法がSOTA 解像
度

Ablation Study（1/2） DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用（※）
Shading: Shading Guided Training StyleGAN2 3D-awareにするのに重要なのはDPC。 Fα は補助的な役割 DPCを入れると FIDは悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する

Ablation Study（2/2） DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用
Shading: Shading Guided Training StyleGAN2 Shading Guided Training によってDepthが少し改善 FIDはさらに悪化 ※ Fα にチェックが無い場合、StyleGAN2の中間特徴を直接アルファマップ推定に利用する

まとめ・感想 • まとめ • Multiplane Images(MPI)を応用することで、「3D的な一貫性」を持つ「高解像度」画像を「高速」に生成できるGenerative Multiplane Images(GMPI)を紹介した •
感想 • MPIを応用した初めての3D-aware GAN手法であり、改善の余地はまだありそう。 • 顔に限定すればNeRFベース手法が有望そうではあるが、（拡散モデルで生成されるような）多種多様な画像生成を3D-awareにすることを考えると、MPIのようなリーズナブルな表現の利用は今後も模索されていくのではないか。

Generative Multiplane Images: Making a 2D GAN 3...

Generative Multiplane Images: Making a 2D GAN 3D-Aware

澤田圭一

More Decks by 澤田圭一

Other Decks in Research

Featured

Transcript

2022/10/22 株式会社Live2D 澤田圭一 Generative Multiplane Images: Making a 2D GAN

自己紹介澤田圭一（twitter: @kano_sawa） • 2009-2017年 ◦ カメラメーカー ◦ ビデオシースルー型HMDの製品開発、Multi-view

論文紹介の前に • Live2D社では「０からイラストを生成する研究は行わない」と 22年4月発表のAI研究ポリシー(※)で明言しています。 • あくまでも個人の勉強のための論文紹介です。 ※https://docs.nizima.com/ai-research-policy/

論文の概要 • 3D的な一貫性を持つ画像生成をMultiplane Imagesを応用して実現生成画像

論文年表 2017 2018 2019 2020 2021-2022 2D GAN Style Transfer

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

AdaIN（Adaptive Instance Normalization） affine parameterを変えると、画像のスタイルが変化する！ “Arbitrary Style Transfer in

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”, Tero

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

HoloGAN “HoloGAN: Unsupervised Learning of 3D Representations From Natural Images”,

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

GRAF（Generative Radiance Fields） “GRAF: Generative Radiance Fields for 3D-Aware Image

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

EG3D（512×512における精度がSOTA） “EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks”, Eric Ryan

EG3D（512×512における精度がSOTA） • Radiance FieldsをTri-planesとして扱う • 128×128の解像度で生成した後、512×512にsuper resolution 学習の効率化により、高解像度の 3D-aware GANを実現

論文紹介 Generative Multiplane Images: Making a 2D GAN 3D-Aware

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

Multiplane Images（MPI） • シーンを「複数の離散的な距離における画像の合成」として復元し、任意視点合成を行う MPIの概念図合成結果（ステレオ画像の視差拡大） “Stereo Magnification: Learning

論文年表 2017 2018 2019 2020 2D GAN Style Transfer Novel

Generative Multiplane Images（GMPI） • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

Generative Multiplane Images（GMPI） • StyleGAN2にAlpha Mapsを推定するブランチを追加 • 生成したRGB画像とAlpha MapsからMPIを復元 •

【詳細】Alpha Maps推定ブランチ StyleGAN2の中間特徴（解像度ごと） • 各デプスd i について、それぞれAlpha Mapを推定する

【詳細】Discriminator Pose Conditioning • StyleGAN2のDiscriminatorで算出した特徴量をカメラ姿勢で条件付け StyleGAN2の Discriminator 特徴量（R16）カメラ姿勢の Embedding（

【詳細】Shading-guided Training デプスマップ法線光源方向拡散光係数環境光係数 Shading無しの画素値 •

データセット • Flickr-Faces-HQ Dataset（FFHQ） • 実写顔、70000枚、1024×1024 • Animal Faces-HQ v2（AFHQv2）

評価

画像生成時間 • どの解像度においても、従来手法より画像生成が高速 ※GMPIはinference時間ではなく、レンダリング時間を記載学習時間も短い

定量評価指標 • Inception Distance(FID, KID) <↓> • 実画像と生成画像の分布の差 • Identity

Ablation Study（1/2） DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用（※）

Ablation Study（2/2） DPC: Discriminator Pose Conditioning Fα : Alpha Maps特徴量の利用

まとめ・感想 • まとめ • Multiplane Images(MPI)を応用することで、「3D的な一貫性」を持つ「高解像度」画像を「高速」に生成できるGenerative Multiplane Images(GMPI)を紹介した •