2022年版・深層学習による写実的画像合成の最新動向

2022年版・深層学習による写実的画像合成の最新動向筑波大学システム情報系金森由博 ([email protected])

1 自己紹介 • 2009 年に (当時) 東大の西田友是先生の指導下で博士号取得 • 学生時代から CG
関連の研究に従事 – 学生時代 (～2009): (リアルタイム) 3DCG – 筑波大 (2009～): 画像を入力とした CG – ETH Zurich (2014 ～ 2016): アニメの研究 – 2016～: 深層学習の CG/CV 応用噴水の高速描画 (EG’08) LDR HDR 低階調画像の高階調化 (SIGA’17) 人物画像の照明変更 (SIGA’18) 景観画像からの動画生成 (SIGA’19)

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 2 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用ニューラルネットワークによる自由視点画像生成 (NeRF) 自然言語による写実的画像合成デジタルヒューマン関連技術
敵対的生成ネットワークの逆算に基づく手法

• Generative Adversarial Network (GAN): 敵対的生成ネットワーク – 偽物を生成する生成器 (Generator) と、本物と偽物を見分ける
識別器 (Discriminator) を相互に学習させる – 画像に限らず、定義しづらい「本物らしさ」を扱うのに広く利用される 3 GAN について簡単なおさらい画像の出典: https://sites.google.com/site/aidysft/generativeadversialnetwork

• 2014 年の登場から急速に高品質化 4 GAN によるリアルな画像生成の略史画像の出典: https://twitter.com/goodfellow_ian/status/1084973596236144640 64×64 or
128×128 1024×1024 (!) 2019/1/15 のツイート

• 大域的特徴 (顔の姿勢や概形など) から局所的特徴 (色) まで制御可能 5 代表的アーキテクチャ: StyleGAN [Karras+2018]
A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019)

• 潜在変数 z とノイズ (乱数) でスケールごとに細かく制御可能 6 StyleGAN のアーキテクチャ A
Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019) 従来のネットワーク StyleGAN 生成器出力画像のスタイルを制御出力画像の多様性を担保

• ☺ 高解像度の高品質画像を生成可能 – 改良版 StyleGAN2 [Karras+2019], StyleGAN3 [Karras+2021] も有名
• ☺ 学習済みモデルがネットで取得可能 – “Awesome Pretrained StyleGAN2” • ☹ 学習は大変 – FFHQ データセット (7 万枚, 10242) で GPU として Tesla V100 1 枚だと 41 日！ (最初の StyleGAN の場合) • ☹ 所望の画像を作りづらい – 乱数を入力して画像生成…狙い通りの乱数を入力？？ 7 StyleGAN について様々な画像で訓練した StyleGAN の出力学習済み StyleGAN を活用したい！

• もし拾ってきた画像を StyleGAN の枠組みに組み込めれば大域～局所特徴をいろいろ編集できるはず… • GAN inversion (最適化ベース) 8
GAN の潜在変数の逆算 (GAN inversion) 出力が所望の画像になるよう潜在変数 z (or w) を逆算学習済み StyleGAN 生成器 (重み固定) ？出力画像潜在変数 z (または z から得られる w) 拾ってきた画像これを最適化！両者が近づくように… 画像の出典: Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020

• もし拾ってきた画像を StyleGAN の枠組みに組み込めれば大域～局所特徴をいろいろ編集できるはず… • GAN inversion (最適化ベース) 9
GAN の潜在変数の逆算 (GAN inversion) 出力が所望の画像になるよう潜在変数 z (or w) を逆算学習済み StyleGAN 生成器 (重み固定) ？出力画像潜在変数 z (または z から得られる w) 拾ってきた画像 ☺ StyleGANの枠組みに持っていければ(= 潜在空間への射影ができれば) 様々な編集が可能！老化サングラス装着男性化姿勢変更表情変更画像の出典: Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020

• 最適化は遅い、局所解に陥りやすい → 入力画像をよく近似する潜在変数をすぐ出力できるようなネットワーク (エンコーダ) を学習 … pSp [Richardson+2021], e4e
[Tov+2021] • 人間が意図するような編集操作をしづらい → 姿勢、性別、表情など、人間が解釈しやすい方向に潜在空間を探索 (「もつれ」をほどく…”disentanglement”) … InterFaceGAN [Shen+2020] • GAN inversion の復元精度が低い → StyleGAN の学習済みパラメータを補正 … HyperStyle [Alaluf+2022] → GAN 以外にも後述の拡散モデル (diffusion model) も要注目！ 10 GAN inversion の課題とその対策画像の出典: https://colab.research.google.com/github/ml4a/ml4a/blob/master/examples/models/idinvert.ipynb 元画像復元画像誰…？

• GAN Inversion による写実的画像生成の制御 • GAN Inversion: A Survey •
Awesome Pretrained StyleGAN2 • [Karras+2018] A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019) • [Karras+2019] Analyzing and Improving the Image Quality of StyleGAN, arXiv 2019 (CVPR 2020) • [Karras+2021] Alias-Free Generative Adversarial Networks, NeurIPS 2021 • [Richardson+2021] Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation, CVPR 2021 • [Tov+2021] Designing an Encoder for StyleGAN Image Manipulation, SIGGRAPH 2021 • [Shen+2020] Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020 • [Alaluf+2022] HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing, CVPR 2022 11 参考文献リスト

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 12 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用ニューラルネットワークによる自由視点画像生成 (NeRF) デジタルヒューマン関連技術敵対的生成ネットワークの逆算に基づく手法
自然言語による写実的画像合成

• 今年 4 月に OpenAI から発表された DALL･E 2 が話題に 13
「自然言語からの画像合成」って？ “An astronaut riding a horse in a photorealistic style” (馬に乗った宇宙飛行士、写実的に) 画像の出典: https://openai.com/dall-e-2/

• 拡散モデル (diffusion model): GAN に代わる (?) 生成モデル • CLIP
(Contrastive Language-Image Pre-Training) [Radford+2021] – 入力テキストから、対応する画像の特徴量と同様な特徴量を抽出 14 キーとなる 2 つの要素技術

• 画像から徐々にホワイトノイズにする処理とその逆の処理からなる – 確率的な拡散方程式に基づく →「拡散モデル」 15 拡散モデル (Diffusion Model) 画像の出典:
https://cvpr2022-tutorial-diffusion-models.github.io/ X0 X1 X2 XT XT-1 … XT-2 時刻 t とその時刻の画像からノイズの減った画像を反復予測 ☺メリット • 画質が GAN 同等以上、多様性あり • ネットワーク構造が単純で済む ☹デメリット • 反復処理なので訓練も推論も遅い • 高解像度 (10242 以上) はまだ苦手

• StyleGAN ベースの inversion に比べ復元性能が高い – 画像編集タスクに使える • 高速化の試み –
従来のネットワークは入力画像のサイズのまま学習・推論 – 入力画像をオートエンコーダで次元削減し低次元で学習 [Rombach+2022] 16 拡散モデル (Diffusion Model) 画像の出典: DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation, CVPR 2022 元画像 StyleGAN ベースの復元画像 Diffusion ベースの復元画像日焼け水彩画風

• 拡散モデル (diffusion model): GAN に代わる (?) 生成モデル • CLIP
(Contrastive Language-Image Pre-Training) [Radford+2021] – 入力テキストから、対応する画像の特徴量と同様な特徴量を抽出 17 キーとなる 2 つの要素技術テキストと画像の大量のペアから両者が同様な特徴量を持つよう学習 (コサイン類似度で評価) 未知の種類の入力画像に対しても、ネット上の膨大なテキスト情報から画像特徴が得られる！

• 4 月: DALL･E 2 (OpenAI) • 5 月: Imagen
(Google) • 6 月 (以前？): Midjourney – 8 月に米国コロラド州で開催された絵画コンテストで優勝 • 8 月: Stable Diffusion (Stability AI) • 8 月末: ERNIE-ViLG (Baidu) – アニメ・イラスト画像生成が得意 18 今年 (!) に自然言語からの画像生成技術が続々登場絵画コンテストで優勝した作品画像の出典: https://news.yahoo.co.jp/articles/5a1b97d7aba6bc2b66558f9558d48b312661bdb7

• Stable Diffusion がオープンソース化、学習済みモデル提供 (要申請) – https://stability.ai/blog/stable-diffusion-public-release • Windows GUI
アプリが登場 – https://grisk.itch.io/stable-diffusion-gui • 二次元イラストに特化したバージョンが登場 – https://github.com/harubaru/waifu-diffusion/ • 有名ソフトウェアのプラグインが登場 – Photoshop https://christiancantrell.com/#ai-ml – Blender https://carlosedubarreto.gumroad.com/l/ceb_sd – CLIP STUDIO PAINT https://github.com/mika-f/nekodraw – Figma https://ando.studio/ 19 Stable Diffusion が急速に普及

Figma プラグインによる製品デザインのデモ 20 動画の出典: https://twitter.com/RemitNotPaucity/status/1562319004563173376

• まだ画像生成に時間がかかる – 拡散モデルの高速化に期待 • 所望の画像を得るためのテキストの指定が難しい – 試行錯誤して得られた「呪文」が各所で紹介されている • 著作権に関する社会的・倫理的論争
– 生成された絵の著作権は？既存の絵と酷似していたら？ – 特にイラスト関係について、学習用に著作権のある画像を使うのは日本では合法だとしても、絵師の立場はどうなる？ • 自然言語からの画像生成ではないものの、特定の絵師の画風を真似る mimic という国産サービスが炎上・休止 – 国内で著作権について揉めている間に、著作権をあまり気にしない海外勢力が (例えば YouTube のように) 席巻してしまうのでは？ 21 自然言語からの画像生成の課題

• Tutorial on Denoising Diffusion-based Generative Modeling: Foundations and Applications,
CVPR 2022 • 【学会聴講報告】CVPR2022におけるDiffusion Model 関連論文紹介 • [Radford+2021] Learning Transferable Visual Models From Natural Language Supervision, ICML 2021 • [Rombach+2022] High-Resolution Image Synthesis with Latent Diffusion Models, arXiv 2021 22 参考文献リスト

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 23 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用デジタルヒューマン関連技術敵対的生成ネットワークの逆算に基づく手法自然言語による写実的画像合成ニューラルネットワークによる自由視点画像生成
(NeRF)

• 疎な画像群とカメラパラメータから自由視点映像を生成できる – 2020 年発表なのにすでに現在引用数 1432 件！ 24 Neural Radiance
Field (NeRF) 入力画像群各画像のカメラ位置・方向レイに沿って画素値を出力 (ボリュームレンダリング) 未知視点での描画結果学習データ NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020

• 動画を撮影すればいいのでは？ – 動画だと、撮影時のカメラの軌跡を変更できない (当たり前) – NeRF なら、撮影後にカメラを自由に動かして映像が作れる！ • 3D
復元 (Photogrammetry, 多視点ステレオ) してメッシュにすれば？ – ちなみに NeRF でも Photogrammetry ツール (COLMAP) でカメラパラメータを推定してはいる – Photogrammetry だと、反射特性として扱えるのは拡散反射のみ – NeRF なら、鏡面反射・光沢・屈折・半透明なんでもござれ 26 …何がすごいの？

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 27 ① レイに沿って空間をサンプリング

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 28 ②各サンプル点で色と密度を推定

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 29 ③ レイごとに推定した色を累積 (ボリュームレンダリング)

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 30 ④正解(= 入力画像) と
比較してMLP を学習

• カメラパラメータが必要 → カメラパラメータも一緒に推定 … CAMPARI [Niemeyer & Geigar 2021]
• 1 シーンごとに学習が必要 → VAE と組み合わせて新しいシーンを生成 … NeRF-VAE [Kosiorek+2021] • 被写体が動かないことが前提 → 動く被写体を扱えるよう拡張 … ST-NeRF [Zhang+2021] • 照明や反射特性が固定 → 照明や反射特性を分解して再照明可能に … NeRFactor [Zhang+2021] • 小規模なシーンが対象 → モデルを組み合わせて大規模シーンに拡張 … BungeeNeRF [Xiangli+2022] • などなど… 31 NeRF の課題とその対策

32 異なる照明条件下での描画 (再照明) • 法線、BRDF、照明情報に分解して条件を変えて再レンダリング可能 NeRFactor: Neural Factorization of Shape
and Reflectance Under an Unknown Illumination, SIGGRAPH Asia 2021

33 大規模シーンへの拡張 BungeeNeRF: Progressive Neural Radiance Field for Extreme Multi-scale
Scene Rendering, ECCV 2022

• Neural Fields in Visual Computing and Beyond, Eurographics 2022
State-of-the-art Report • Advances in Neural Rendering, Eurographics 2022 State-of-the-art Report • NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020 • [Niemeyer & Geigar 2021] CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields, 3DV 2021 • [Kosiorek+2021] NeRF-VAE: A Geometry Aware 3D Scene Generative Model, ICML 2021 • [Zhang+2021] Editable Free-viewpoint Video Using a Layered Neural Representation, SIGGRAPH 2021 • [Zhang+2021] NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination, SIGGRAPH Asia 2021 • [Xiangli+2022] BungeeNeRF: Progressive Neural Radiance Field for Extreme Multi-scale Scene Rendering, ECCV 2022 34 参考文献リスト

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 35 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用敵対的生成ネットワークの逆算に基づく手法自然言語による写実的画像合成ニューラルネットワークによる自由視点画像生成 (NeRF)
デジタルヒューマン関連技術

• 人間を扱った CG 関連技術の総称 • 元々、映画制作でリアルな CG 人物を作るために開発 • 最近は「メタバース」を睨んで
企業の研究が盛ん – 特に Meta (旧: Facebook) • デジタルヒューマンは最新技術の見本市 • 本日のトピックからいくつか紹介 36 「デジタルヒューマン」って？画像の出典: https://www.gamespark.jp/article/img/2021/02/11/105991/462524.html Epic Games 社の MetaHuman Creator

• 品質はまだ低いものの、コンセプトとしては将来性がありそう 37 テキストからの 3D アバターとアニメーション生成 AvatarCLIP: Zero-Shot Text-Driven Generation
and Animation of 3D Avatars, SIGGRAPH 2022 A tall and skinny female soldier that is arguing. A skinny ninja that is raising both arms. An overweight sumo wrestler that is sitting.

• バリエーションが多すぎるので立ちポーズ限定、inversion も可能 38 人物全身画像の StyleGAN StyleGAN-Human: A Data-Centric Odyssey
of Human Generation, ECCV 2022

• CLIP を利用して StyleGAN の inversion 39 テキストによる画像操作 StyleCLIP: Text-Driven
Manipulation of StyleGAN Imagery, ICCV 2021

• 入力は動いている人物の動画、出力は静止した NeRF モデル 40 動画からの人物全身 NeRF モデル生成 HumanNeRF: Free-viewpoint
Rendering of Moving People from Monocular Video, CVPR 2022

41 単視点動画からの動的頭部 NeRF モデル生成 NerFACE: Dynamic Neural Radiance Fields for
Monocular 4D Facial Avatar Reconstruction, CVPR 2021

• 4 つのトピックについて概観 – 敵対的生成ネットワーク (GAN) の逆算に基づく手法 (GAN inversion) –
自然言語による写実的画像合成 – ニューラルネットワークによる自由視点画像生成 (NeRF) – デジタルヒューマン関連技術 • 今後は？ – 拡散モデルによる GAN の置き換えが進みそう – 「自然言語による◦◦生成」がますます流行りそう … 音楽とかも？ – ただ、自然言語だけでは痒いところに手が届かないので (画像の方が情報量が多い … “A picture is worth a thousand words”) 別の種類の入力 (例えばスケッチ) を併用するのも流行るかも 42 まとめ

• いい GPU を使いましょう！ (GDEP さんお世話になっております！) 43 最後に… NVIDIA DGX
A100 NVIDIA DGX Station A100 NVIDIA A100 Tensor Core GPU NVIDIA Quadro GV100 NVIDIA RTX A6000 NVIDIA RTX A5000 NVIDIA RTX A4500 NVIDIA RTX A4000 NVIDIA V100S Tensor Core GPU （旧名：NVIDIA Tesla V100）

2022年版・深層学習による写実的画像合成の最新動向

2022年版・深層学習による写実的画像合成の最新動向

More Decks by Yoshihiro Kanamori

Other Decks in Research

Featured

Transcript