Slide 1

Slide 1 text

2022年版・深層学習による写実的画像合成の 最新動向 筑波大学 システム情報系 金森 由博 ([email protected])

Slide 2

Slide 2 text

1 自己紹介 • 2009 年に (当時) 東大の西田友是先生の指導下で博士号取得 • 学生時代から CG 関連の研究に従事 – 学生時代 (~2009): (リアルタイム) 3DCG – 筑波大 (2009~): 画像を入力とした CG – ETH Zurich (2014 ~ 2016): アニメの研究 – 2016~: 深層学習の CG/CV 応用 噴水の高速描画 (EG’08) LDR HDR 低階調画像の高階調化 (SIGA’17) 人物画像の照明変更 (SIGA’18) 景観画像からの動画生成 (SIGA’19)

Slide 3

Slide 3 text

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 2 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用 ニューラルネットワークによる 自由視点画像生成 (NeRF) 自然言語による写実的画像合成 デジタルヒューマン関連技術 敵対的生成ネットワークの逆算に基づく手法

Slide 4

Slide 4 text

• Generative Adversarial Network (GAN): 敵対的生成ネットワーク – 偽物を生成する生成器 (Generator) と、本物と偽物を見分ける 識別器 (Discriminator) を相互に学習させる – 画像に限らず、定義しづらい「本物らしさ」を扱うのに広く利用される 3 GAN について簡単なおさらい 画像の出典: https://sites.google.com/site/aidysft/generativeadversialnetwork

Slide 5

Slide 5 text

• 2014 年の登場から急速に高品質化 4 GAN によるリアルな画像生成の略史 画像の出典: https://twitter.com/goodfellow_ian/status/1084973596236144640 64×64 or 128×128 1024×1024 (!) 2019/1/15 のツイート

Slide 6

Slide 6 text

• 大域的特徴 (顔の姿勢や概形など) から局所的特徴 (色) まで制御可能 5 代表的アーキテクチャ: StyleGAN [Karras+2018] A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019)

Slide 7

Slide 7 text

• 潜在変数 z とノイズ (乱数) でスケールごとに細かく制御可能 6 StyleGAN のアーキテクチャ A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019) 従来のネットワーク StyleGAN 生成器 出力画像のスタイルを制御 出力画像の多様性を担保

Slide 8

Slide 8 text

• ☺ 高解像度の高品質画像を生成可能 – 改良版 StyleGAN2 [Karras+2019], StyleGAN3 [Karras+2021] も有名 • ☺ 学習済みモデルがネットで取得可能 – “Awesome Pretrained StyleGAN2” • ☹ 学習は大変 – FFHQ データセット (7 万枚, 10242) で GPU として Tesla V100 1 枚だと 41 日! (最初の StyleGAN の場合) • ☹ 所望の画像を作りづらい – 乱数を入力して画像生成…狙い通りの乱数を入力?? 7 StyleGAN について 様々な画像で訓練した StyleGAN の出力 学習済み StyleGAN を活用したい!

Slide 9

Slide 9 text

• もし拾ってきた画像を StyleGAN の枠組みに組み込めれば 大域~局所特徴をいろいろ編集できるはず… • GAN inversion (最適化ベース) 8 GAN の潜在変数の逆算 (GAN inversion) 出力が所望の画像になるよう潜在変数 z (or w) を逆算 学習済み StyleGAN 生成器 (重み固定) ? 出力画像 潜在変数 z (または z から 得られる w) 拾ってきた画像 これを最適化! 両者が近づくように… 画像の出典: Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020

Slide 10

Slide 10 text

• もし拾ってきた画像を StyleGAN の枠組みに組み込めれば 大域~局所特徴をいろいろ編集できるはず… • GAN inversion (最適化ベース) 9 GAN の潜在変数の逆算 (GAN inversion) 出力が所望の画像になるよう潜在変数 z (or w) を逆算 学習済み StyleGAN 生成器 (重み固定) ? 出力画像 潜在変数 z (または z から 得られる w) 拾ってきた画像 ☺ StyleGANの枠組みに持っていければ(= 潜在空間への射影ができれば) 様々な編集が可能! 老化 サングラス装着 男性化 姿勢変更 表情変更 画像の出典: Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020

Slide 11

Slide 11 text

• 最適化は遅い、局所解に陥りやすい → 入力画像をよく近似する潜在変数をすぐ出力できるようなネットワーク (エンコーダ) を学習 … pSp [Richardson+2021], e4e [Tov+2021] • 人間が意図するような編集操作をしづらい → 姿勢、性別、表情など、人間が解釈しやすい方向に潜在空間を探索 (「もつれ」をほどく…”disentanglement”) … InterFaceGAN [Shen+2020] • GAN inversion の復元精度が低い → StyleGAN の学習済みパラメータを 補正 … HyperStyle [Alaluf+2022] → GAN 以外にも後述の拡散モデル (diffusion model) も要注目! 10 GAN inversion の課題とその対策 画像の出典: https://colab.research.google.com/github/ml4a/ml4a/blob/master/examples/models/idinvert.ipynb 元画像 復元画像 誰…?

Slide 12

Slide 12 text

• GAN Inversion による写実的画像生成の制御 • GAN Inversion: A Survey • Awesome Pretrained StyleGAN2 • [Karras+2018] A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2018 (CVPR 2019) • [Karras+2019] Analyzing and Improving the Image Quality of StyleGAN, arXiv 2019 (CVPR 2020) • [Karras+2021] Alias-Free Generative Adversarial Networks, NeurIPS 2021 • [Richardson+2021] Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation, CVPR 2021 • [Tov+2021] Designing an Encoder for StyleGAN Image Manipulation, SIGGRAPH 2021 • [Shen+2020] Interpreting the Latent Space of GANs for Semantic Face Editing, CVPR 2020 • [Alaluf+2022] HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing, CVPR 2022 11 参考文献リスト

Slide 13

Slide 13 text

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 12 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用 ニューラルネットワークによる 自由視点画像生成 (NeRF) デジタルヒューマン関連技術 敵対的生成ネットワークの逆算に基づく手法 自然言語による写実的画像合成

Slide 14

Slide 14 text

• 今年 4 月に OpenAI から発表された DALL・E 2 が話題に 13 「自然言語からの画像合成」って? “An astronaut riding a horse in a photorealistic style” (馬に乗った宇宙飛行士、写実的に) 画像の出典: https://openai.com/dall-e-2/

Slide 15

Slide 15 text

• 拡散モデル (diffusion model): GAN に代わる (?) 生成モデル • CLIP (Contrastive Language-Image Pre-Training) [Radford+2021] – 入力テキストから、対応する画像の 特徴量と同様な特徴量を抽出 14 キーとなる 2 つの要素技術

Slide 16

Slide 16 text

• 画像から徐々にホワイトノイズにする処理とその逆の処理からなる – 確率的な拡散方程式に基づく →「拡散モデル」 15 拡散モデル (Diffusion Model) 画像の出典: https://cvpr2022-tutorial-diffusion-models.github.io/ X0 X1 X2 XT XT-1 … XT-2 時刻 t とその時刻の画像から ノイズの減った画像を反復予測 ☺メリット • 画質が GAN 同等以上、多様性あり • ネットワーク構造が単純で済む ☹デメリット • 反復処理なので訓練も推論も遅い • 高解像度 (10242 以上) はまだ苦手

Slide 17

Slide 17 text

• StyleGAN ベースの inversion に比べ復元性能が高い – 画像編集タスクに使える • 高速化の試み – 従来のネットワークは入力画像のサイズのまま学習・推論 – 入力画像をオートエンコーダで次元削減し低次元で学習 [Rombach+2022] 16 拡散モデル (Diffusion Model) 画像の出典: DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation, CVPR 2022 元画像 StyleGAN ベースの 復元画像 Diffusion ベースの 復元画像 日焼け 水彩画風

Slide 18

Slide 18 text

• 拡散モデル (diffusion model): GAN に代わる (?) 生成モデル • CLIP (Contrastive Language-Image Pre-Training) [Radford+2021] – 入力テキストから、対応する画像の 特徴量と同様な特徴量を抽出 17 キーとなる 2 つの要素技術 テキストと画像の大量のペアから 両者が同様な特徴量を持つよう学習 (コサイン類似度で評価) 未知の種類の入力画像に対しても、ネット上の 膨大なテキスト情報から画像特徴が得られる!

Slide 19

Slide 19 text

• 4 月: DALL・E 2 (OpenAI) • 5 月: Imagen (Google) • 6 月 (以前?): Midjourney – 8 月に米国コロラド州で開催された 絵画コンテストで優勝 • 8 月: Stable Diffusion (Stability AI) • 8 月末: ERNIE-ViLG (Baidu) – アニメ・イラスト画像生成が得意 18 今年 (!) に自然言語からの画像生成技術が続々登場 絵画コンテストで優勝した作品 画像の出典: https://news.yahoo.co.jp/articles/5a1b97d7aba6bc2b66558f9558d48b312661bdb7

Slide 20

Slide 20 text

• Stable Diffusion がオープンソース化、学習済みモデル提供 (要申請) – https://stability.ai/blog/stable-diffusion-public-release • Windows GUI アプリが登場 – https://grisk.itch.io/stable-diffusion-gui • 二次元イラストに特化したバージョンが登場 – https://github.com/harubaru/waifu-diffusion/ • 有名ソフトウェアのプラグインが登場 – Photoshop https://christiancantrell.com/#ai-ml – Blender https://carlosedubarreto.gumroad.com/l/ceb_sd – CLIP STUDIO PAINT https://github.com/mika-f/nekodraw – Figma https://ando.studio/ 19 Stable Diffusion が急速に普及

Slide 21

Slide 21 text

Figma プラグインによる製品デザインのデモ 20 動画の出典: https://twitter.com/RemitNotPaucity/status/1562319004563173376

Slide 22

Slide 22 text

• まだ画像生成に時間がかかる – 拡散モデルの高速化に期待 • 所望の画像を得るためのテキストの指定が難しい – 試行錯誤して得られた「呪文」が各所で紹介されている • 著作権に関する社会的・倫理的論争 – 生成された絵の著作権は? 既存の絵と酷似していたら? – 特にイラスト関係について、学習用に著作権のある画像を使うのは 日本では合法だとしても、絵師の立場はどうなる? • 自然言語からの画像生成ではないものの、特定の絵師の画風を 真似る mimic という国産サービスが炎上・休止 – 国内で著作権について揉めている間に、著作権をあまり気にしない 海外勢力が (例えば YouTube のように) 席巻してしまうのでは? 21 自然言語からの画像生成の課題

Slide 23

Slide 23 text

• Tutorial on Denoising Diffusion-based Generative Modeling: Foundations and Applications, CVPR 2022 • 【学会聴講報告】CVPR2022におけるDiffusion Model 関連論文紹介 • [Radford+2021] Learning Transferable Visual Models From Natural Language Supervision, ICML 2021 • [Rombach+2022] High-Resolution Image Synthesis with Latent Diffusion Models, arXiv 2021 22 参考文献リスト

Slide 24

Slide 24 text

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 23 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用 デジタルヒューマン関連技術 敵対的生成ネットワークの逆算に基づく手法 自然言語による写実的画像合成 ニューラルネットワークによる 自由視点画像生成 (NeRF)

Slide 25

Slide 25 text

• 疎な画像群とカメラパラメータから自由視点映像を生成できる – 2020 年発表なのにすでに現在引用数 1432 件! 24 Neural Radiance Field (NeRF) 入力画像群 各画像のカメラ位置・方向 レイに沿って 画素値を出力 (ボリューム レンダリング) 未知視点での描画結果 学習データ NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020

Slide 26

Slide 26 text

25

Slide 27

Slide 27 text

• 動画を撮影すればいいのでは? – 動画だと、撮影時のカメラの軌跡を変更できない (当たり前) – NeRF なら、撮影後にカメラを自由に動かして映像が作れる! • 3D 復元 (Photogrammetry, 多視点ステレオ) してメッシュにすれば? – ちなみに NeRF でも Photogrammetry ツール (COLMAP) で カメラパラメータを推定してはいる – Photogrammetry だと、反射特性として扱えるのは拡散反射のみ – NeRF なら、鏡面反射・光沢・屈折・半透明なんでもござれ 26 …何がすごいの?

Slide 28

Slide 28 text

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 27 ① レイに沿って 空間をサンプリング

Slide 29

Slide 29 text

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 28 ②各サンプル点で 色と密度を推定

Slide 30

Slide 30 text

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 29 ③ レイごとに推定した色を累積 (ボリュームレンダリング)

Slide 31

Slide 31 text

• レイに沿ってサンプリングしたときの色を MLP で学習 NeRF の仕組み 30 ④正解(= 入力画像) と 比較してMLP を学習

Slide 32

Slide 32 text

• カメラパラメータが必要 → カメラパラメータも一緒に推定 … CAMPARI [Niemeyer & Geigar 2021] • 1 シーンごとに学習が必要 → VAE と組み合わせて新しいシーンを生成 … NeRF-VAE [Kosiorek+2021] • 被写体が動かないことが前提 → 動く被写体を扱えるよう拡張 … ST-NeRF [Zhang+2021] • 照明や反射特性が固定 → 照明や反射特性を分解して再照明可能に … NeRFactor [Zhang+2021] • 小規模なシーンが対象 → モデルを組み合わせて大規模シーンに拡張 … BungeeNeRF [Xiangli+2022] • などなど… 31 NeRF の課題とその対策

Slide 33

Slide 33 text

32 異なる照明条件下での描画 (再照明) • 法線、BRDF、照明情報に分解して条件を変えて再レンダリング可能 NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination, SIGGRAPH Asia 2021

Slide 34

Slide 34 text

33 大規模シーンへの拡張 BungeeNeRF: Progressive Neural Radiance Field for Extreme Multi-scale Scene Rendering, ECCV 2022

Slide 35

Slide 35 text

• Neural Fields in Visual Computing and Beyond, Eurographics 2022 State-of-the-art Report • Advances in Neural Rendering, Eurographics 2022 State-of-the-art Report • NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020 • [Niemeyer & Geigar 2021] CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields, 3DV 2021 • [Kosiorek+2021] NeRF-VAE: A Geometry Aware 3D Scene Generative Model, ICML 2021 • [Zhang+2021] Editable Free-viewpoint Video Using a Layered Neural Representation, SIGGRAPH 2021 • [Zhang+2021] NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination, SIGGRAPH Asia 2021 • [Xiangli+2022] BungeeNeRF: Progressive Neural Radiance Field for Extreme Multi-scale Scene Rendering, ECCV 2022 34 参考文献リスト

Slide 36

Slide 36 text

• 現時点での「深層学習による写実的画像合成の最新動向」を概観 35 この講演の内容 ※画像や動画の出典について断りがない場合は論文からの引用 敵対的生成ネットワークの逆算に基づく手法 自然言語による写実的画像合成 ニューラルネットワークによる 自由視点画像生成 (NeRF) デジタルヒューマン関連技術

Slide 37

Slide 37 text

• 人間を扱った CG 関連技術の総称 • 元々、映画制作でリアルな CG 人物を作るために開発 • 最近は「メタバース」を睨んで 企業の研究が盛ん – 特に Meta (旧: Facebook) • デジタルヒューマンは最新技術の 見本市 • 本日のトピックからいくつか紹介 36 「デジタルヒューマン」って? 画像の出典: https://www.gamespark.jp/article/img/2021/02/11/105991/462524.html Epic Games 社の MetaHuman Creator

Slide 38

Slide 38 text

• 品質はまだ低いものの、コンセプトとしては将来性がありそう 37 テキストからの 3D アバターとアニメーション生成 AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars, SIGGRAPH 2022 A tall and skinny female soldier that is arguing. A skinny ninja that is raising both arms. An overweight sumo wrestler that is sitting.

Slide 39

Slide 39 text

• バリエーションが多すぎるので立ちポーズ限定、inversion も可能 38 人物全身画像の StyleGAN StyleGAN-Human: A Data-Centric Odyssey of Human Generation, ECCV 2022

Slide 40

Slide 40 text

• CLIP を利用して StyleGAN の inversion 39 テキストによる画像操作 StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery, ICCV 2021

Slide 41

Slide 41 text

• 入力は動いている人物の動画、出力は静止した NeRF モデル 40 動画からの人物全身 NeRF モデル生成 HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video, CVPR 2022

Slide 42

Slide 42 text

41 単視点動画からの動的頭部 NeRF モデル生成 NerFACE: Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction, CVPR 2021

Slide 43

Slide 43 text

• 4 つのトピックについて概観 – 敵対的生成ネットワーク (GAN) の逆算に基づく手法 (GAN inversion) – 自然言語による写実的画像合成 – ニューラルネットワークによる自由視点画像生成 (NeRF) – デジタルヒューマン関連技術 • 今後は? – 拡散モデルによる GAN の置き換えが進みそう – 「自然言語による○○生成」がますます流行りそう … 音楽とかも? – ただ、自然言語だけでは痒いところに手が届かないので (画像の方が情報量が多い … “A picture is worth a thousand words”) 別の種類の入力 (例えばスケッチ) を併用するのも流行るかも 42 まとめ

Slide 44

Slide 44 text

• いい GPU を使いましょう! (GDEP さんお世話になっております!) 43 最後に… NVIDIA DGX A100 NVIDIA DGX Station A100 NVIDIA A100 Tensor Core GPU NVIDIA Quadro GV100 NVIDIA RTX A6000 NVIDIA RTX A5000 NVIDIA RTX A4500 NVIDIA RTX A4000 NVIDIA V100S Tensor Core GPU (旧名:NVIDIA Tesla V100)