Slide 1

Slide 1 text

スキルアップAIキャンプ GAN編

Slide 2

Slide 2 text

⾃⼰紹介 綱島 秀樹 n 所属 早稲⽥⼤学 博⼠3年-森島繁⽣研究室 スキルアップAI 講師(GAN講座監修) n 研究テーマ 修⼠課程︓深層画像⽣成モデルの計算量・パラメータ削減 博⼠課程1年︓複数物体を対象とした教師無し前景背景分解 博⼠課程2年〜︓常識獲得 産総研(元)︓服と⼈のペアデータを必要としない仮想試着 n 趣味 筋トレ、アメフト、ゲーム(FPS、⾳ゲー、レーシングゲーム)、サボテン育成

Slide 3

Slide 3 text

⽬次 n GAN とは n GAN のブレイクスルー「StyleGAN」までの発展 n GAN + 3D 表現 n 次世代の深層⽣成モデル「拡散確率モデル」 n 今後の深層⽣成モデルの発展

Slide 4

Slide 4 text

GANとは 4

Slide 5

Slide 5 text

GANの仕組み 贋作家(Generator)が鑑定師(Discriminator)を騙せるような出⼒を学習 贋作家 偽画像 実画像 鑑定師 偽物︖ 本物︖ 出典︓FFHQ dataset 出典︓StyleGAN2

Slide 6

Slide 6 text

なぜGANにフォーカスを当てたか ⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良いため 出典︓StyleGAN2 出典︓DeepFill v2 出典︓CycleGAN 出典︓DALL-E

Slide 7

Slide 7 text

⽣成モデルとは ⼤きく分けて機械学習には識別モデルと⽣成モデルが存在 n 識別モデル ⼊⼒出⼒ペアデータ(観測データ)を⽤いた教師あり学習により、未知の⼊⼒ データから出⼒を予測するモデル(例︓回帰、分類) n ⽣成モデル 観測データを⽣成する確率分布を予測するモデル ⽣成分布が予測できれば、思うままに観測データ点を⽣成できる ⽣成モデルは識別モデルも包含している

Slide 8

Slide 8 text

深層⽣成モデル 現実問題、観測データの⽣成分布を厳密に予測することは困難 そこで、様々な近似と⾮線形関数(ニューラルネットワーク)を⽤いて⽣成分布を 予測しようとしたのが深層⽣成モデル

Slide 9

Slide 9 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

Slide 10

Slide 10 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性 画像の⽣成品質

Slide 11

Slide 11 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性 ⽣成画像の多様さ

Slide 12

Slide 12 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性 訓練済みモデルでの 画像⽣成速度

Slide 13

Slide 13 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性 ネットワーク設計の 柔軟さ

Slide 14

Slide 14 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n Variational AutoEncoder(VAE) n Auto Regressive Models n Normalizing Flow n Energy-based Models(EBM) n Score-based Models 品質 速度 多様性 柔軟性

Slide 15

Slide 15 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n n n n n 品質 速度 多様性 柔軟性

Slide 16

Slide 16 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n n n Score-based Models 品質 速度 多様性 柔軟性

Slide 17

Slide 17 text

本章のまとめ n GANは⽣成器と識別器で敵対的に学習を進める n GANは⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良い n 機械学習には⼤きく分けて識別モデルと⽣成モデルが存在 n 深層⽣成モデルは⼤きく分けて6種類に分けられ、⽣成品質・多様性・速度・ 柔軟性の4つの特徴に分けられる n GANは品質と速度が優秀だが、多様性に⽋ける

Slide 18

Slide 18 text

GAN のブレイクスルー「StyleGAN」までの発展 18 n GANの主流の発展 n GANの応⽤

Slide 19

Slide 19 text

GAN のブレイクスルー「StyleGAN」までの発展 19 n GANの主流の発展 n

Slide 20

Slide 20 text

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017 2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3

Slide 21

Slide 21 text

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017 2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3

Slide 22

Slide 22 text

Conditional GAN(cGAN) クラスラベルを条件とした条件付き画像⽣成の最初のモデル なんと、この論⽂⾃体は会議や論⽂誌に出ておらず、arXiv 論⽂のみ 贋作家 偽画像 実画像 鑑定師 偽物︖ 本物︖ 出典︓AFHQ dataset 出典︓Projected GAN ⽝ 猫 クラス情報 クラス情報 ⽝ クラス情報

Slide 23

Slide 23 text

Conditional GAN(cGAN) クラスラベルを条件とした条件付き画像⽣成の最初のモデル n ⼿書き数字 dataset の MNIST での条件付き⽣成(0〜9 の数字) この頃はまだまだ⽣成品質はいまいち 出典︓cGAN

Slide 24

Slide 24 text

Deep Convolutional GAN(DCGAN) 畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて⾼解像度の実世界データでの画像⽣成が可能となり、流⾏のきっかけに 出典︓DCGAN

Slide 25

Slide 25 text

Deep Convolutional GAN(DCGAN) 畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて実世界データでの画像⽣成が可能となり、GANが流⾏(解像度 64x64) 出典︓DCGAN

Slide 26

Slide 26 text

Deep Convolutional GAN(DCGAN) <余談> 転置畳み込みは現在 Deconvolution と呼ばれるが、当時は Fractionally-strided Convolution と呼ばれていた というのも、当時 Deconvolution というと転置畳み込みという意味では捉えられ なかったため、Deconv. と Fractionally-strided Conv. で呼び分けがされていた 現在ではいつの間にか Deconv. が受け⼊れられており、主要ライブラリでは Deconvolution として呼ばれている

Slide 27

Slide 27 text

Wasserstein GAN(WGAN) 実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN 元々の GAN の敵対的学習では Jensen-Shannon ダイバージェンスという分布間 擬距離で学習を⾏うが、識別器が予測する実データ分布と⽣成器のデータ分布が 近づきすぎた場合に識別器の勾配が消失して学習が破綻する ⼀⽅、Wasserstein 損失は識別器の勾配消失が起こらず学習ができる

Slide 28

Slide 28 text

Wasserstein GAN(WGAN) 実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN ⽣成品質はやや DCGAN に劣る 出典︓WGAN

Slide 29

Slide 29 text

WGAN with Gradient Penalty(WGAN-GP) WGAN は 1-Lipschitz 性という識別器の勾配が 1 未満の条件を満たす必要がある WGAN では weight clipping という重みをある値以下に制限する⽅法を採⽤ しかしながら、weight clipping を⾏うと制限した範囲の端っこに重みが偏り、 学習がうまくいかない問題が存在(図は±0.01の範囲で制限) 出典︓WGAN-GP

Slide 30

Slide 30 text

WGAN with Gradient Penalty(WGAN-GP) WGAN-GPでは、識別器の出⼒の勾配を1に近づける勾配罰則を追加 ただ、⽣成画像のみ、実画像のみといった勾配罰則を加えると、正則化効果が 強すぎるので、⽣成画像と実画像を混ぜ合わせた画像の識別器の出⼒の勾配を 1 に近づける勾配罰則を採⽤ 出典︓WGAN-GP

Slide 31

Slide 31 text

WGAN with Gradient Penalty(WGAN-GP) WGAN-GPは⾮常に強⼒な⼿法で、128x128 の実データでも⽣成が可能 以後は Wasserstein 損失 + 勾配罰則がデファクトスタンダードに 出典︓WGAN-GP

Slide 32

Slide 32 text

PGGAN、またはProgressive GAN 低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を 進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に 出典︓PGGAN

Slide 33

Slide 33 text

PGGAN、またはProgressive GAN 低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を 進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に 出典︓PGGAN

Slide 34

Slide 34 text

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017 2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3

Slide 35

Slide 35 text

Self-Attention GAN(SAGAN) Self-Attention という画像内での相関を計算するモジュールを採⽤ 画像内の離れた画素の関係性も考慮できるため、品質が向上 画像は左にある点と相関がある画素を可視化したもの 出典︓SAGAN

Slide 36

Slide 36 text

Self-Attention GAN(SAGAN) Self-Attention という画像内での相関を計算するモジュールを採⽤ 画像内の離れた画素の関係性も考慮できるため、品質が向上 出典︓SAGAN

Slide 37

Slide 37 text

BigGAN SAGAN をベースとして、バッチサイズの⼤幅な増加、チャンネル数の増加により、 品質の向上が可能であることを⽰した論⽂ その他様々な GAN の知⾒を集結させた集⼤成的な論⽂ 出典︓BigGAN

Slide 38

Slide 38 text

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017 2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3

Slide 39

Slide 39 text

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017 2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3 GANの主流の発展は StyleGAN2までで本⽇は StyleGAN3は割愛

Slide 40

Slide 40 text

StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案

Slide 41

Slide 41 text

StyleGAN n ⼊⼒をノイズではなく学習可能パラメータに変更 n ⼊⼒ノイズは 2 種類 • 8 層の全結合層に通したノイズを⽤いて解像度ごとにスタイルを制御 • ノイズをスタイル制御の直前に⼊⼒して多様性を担保 出典︓StyleGAN スタイル制御 多様性担保

Slide 42

Slide 42 text

StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案 出典︓StyleGAN

Slide 43

Slide 43 text

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定 の要素が固定される問題を解決 出典︓StyleGAN2

Slide 44

Slide 44 text

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制 することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 出典︓StyleGAN2

Slide 45

Slide 45 text

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定 の要素が固定される問題を解決 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制 することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 n 勾配罰則の更新頻度を16回に1回にすることで学習速度向上 n 潜在空間中の変化を視覚的に⾃然にする正則化を提案し、⽣成品質が向上

Slide 46

Slide 46 text

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 ここまできたら顔画像⽣成では、実画像とほとんど⾒分けがつかない画像ばかり 出典︓StyleGAN2

Slide 47

Slide 47 text

GAN のブレイクスルー「StyleGAN」までの発展 47 n n GANの応⽤

Slide 48

Slide 48 text

GANの応⽤ GAN は様々な分野に応⽤されており、本⽇はその⼀部を紹介 詳細は GAN 講座で触れていますので、ご興味がある⽅は是⾮︕ ⾃然⾔語処理 画像変換 画像補完 画像編集 データ拡張 超解像 txt2im モデル圧縮 仮想試着

Slide 49

Slide 49 text

画像変換(Image-to-Image Translation、I2I) n CycleGAN ドメインAとドメインBを相互に⾏き来するネットワークにより、ペアデータを ⽤意すること無く画像変換が可能 出典︓CycleGAN

Slide 50

Slide 50 text

画像変換(Image-to-Image Translation、I2I) n GauGAN セマンティックマスク(上のような塗りつぶしのクラスごとのマスク)を⽤いて 様々なスタイルを反映した画像⽣成が可能 鍵は SPADE と呼ばれるチャンネルを跨がない画素空間での正規化 出典︓GauGAN

Slide 51

Slide 51 text

画像補完(Image Inpainting) n DeepFill v2(Contextual Attention + Gated Convolution) 切り抜かれた領域と外側の関係性を考慮する Contextual Attention と⾃由な 形のマスクを扱える Gated Convolution により⾼品質で⾃由な画像補完が可能 出典︓DeepFill v2

Slide 52

Slide 52 text

画像編集、GAN Inversion n Image2StyleGAN ターゲットの画像に StyleGAN の⽣成結果が近くなるように 8 層の全結合層の 後の潜在空間のベクトルを直接最適化する⼿法(GAN Inversion) 出典︓Image2StyleGAN ターゲット画像 ⽣成画像

Slide 53

Slide 53 text

画像編集、GAN Inversion n Image2StyleGAN GAN Inversion によって得たベクトル同⼠を StyleGAN の⽣成器の層で分けて ⼊⼒することでスタイル変換等の画像編集が可能 出典︓Image2StyleGAN

Slide 54

Slide 54 text

データ拡張 n ADA(Adaptive Discriminator Augmentation) 画像⽣成では学習データ数が少ない場合にうまく学習できない 学習データにデータ拡張を施すことで、少ない学習データでうまく学習が可能 出典︓ADA 画像の切り抜き 画像の回転 画像の⾊変更

Slide 55

Slide 55 text

超解像 n SRGAN GAN は⽣成画像が鮮明になりやすいという特性を活かした超解像(⾼解像度化) 出典︓SRGAN

Slide 56

Slide 56 text

txt2im n DALL-E 潜在空間のベクトルを離散化した VQGAN とテキスト画像ペアの潜在空間を 学習した CLIP を⽤いて⼤量の画像で学習することで⾼品質な txt2im を実現 出典︓DALL-E

Slide 57

Slide 57 text

⾃然⾔語処理 n SeqGAN テキスト⽣成において、強化学習と GAN を⽤いることで⾼品質な⾃然⾔語⽂ ⽣成を可能にした⼿法 出典︓SeqGAN

Slide 58

Slide 58 text

モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) 出典︓AKDG

Slide 59

Slide 59 text

モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) 出典︓AKDG

Slide 60

Slide 60 text

モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) n WebDB Forum 2019 最優秀学⽣ポスター発表賞 n ISAT-18 Excellent Oral Paper Presentation Award n ICPR2020 Poster

Slide 61

Slide 61 text

仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった 出典︓HiFU-VIRT

Slide 62

Slide 62 text

仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった ⾮ペアで学習可能な⼿法は品質が⾮常に悪い 出典︓HiFU-VIRT

Slide 63

Slide 63 text

仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な 仮想試着を実現(発表者綱島が MIRU2022 で発表した研究) 出典︓HiFU-VIRT

Slide 64

Slide 64 text

仮想試着 n HiFU-VIRT ベースラインの教師あり⼿法を超える性能 出典︓HiFU-VIRT

Slide 65

Slide 65 text

仮想試着 n HiFU-VIRT ⾮ペアデータセット(メルカリ)では他⼿法を圧倒 出典︓HiFU-VIRT

Slide 66

Slide 66 text

仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な 仮想試着を実現(発表者綱島が MIRU2022 で発表した研究) n Sensors 2020 (Impact Factor: 3.576) n MIRU2021 学⽣優秀賞(Student Best Paper Award) n MIRU2022 MIRUインタラクティブセッション賞(Outstanding Poster Award)

Slide 67

Slide 67 text

本章のまとめ n GANはDCGANを⽪切りとして、WGAN-GP、StyleGANへと発展 n GANの応⽤分野を9つ紹介(その他応⽤分野は幅広い)

Slide 68

Slide 68 text

GAN + 3D 表現 68

Slide 69

Slide 69 text

GAN + 3D 表現 画像⽣成は 2 次元画像だが、内部物体は 3 次元的整合性が取れていたほうが良い そこで、明⽰的に中間層で 3 次元表現を扱おうという研究がある ⼤きく分けて NeRF 登場以前、NeRF 登場以降の研究が存在 (本⽇はキーとなる研究をいくつか紹介)

Slide 70

Slide 70 text

NeRF(Neural Radiance Fields) NeRF は各視点から⾒たときの 3 次元座標の輝度(RGB)と密度(α値︓透明度) を学習することで、学習後に任意視点でのレンダリング(描画)が可能になる⼿法 出典︓NeRF

Slide 71

Slide 71 text

HoloGAN(NeRF登場以前) StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング することで 3D の整合性が取れた画像を⽣成することが可能 出典︓HoloGAN 3D変形 レンダリング

Slide 72

Slide 72 text

HoloGAN(NeRF登場以前) StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング することで 3D の整合性が取れた画像を⽣成することが可能 出典︓HoloGAN

Slide 73

Slide 73 text

BlockGAN(NeRF登場以前) HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに 独⽴した 3D 操作をしての画像⽣成が可能 出典︓BlockGAN

Slide 74

Slide 74 text

BlockGAN(NeRF登場以前) HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに 独⽴した 3D 操作をしての画像⽣成が可能 出典︓BlockGAN 回転 平⾏移動 背景遷移 前景遷移

Slide 75

Slide 75 text

GAN + 3D 表現 ここから NeRF 登場

Slide 76

Slide 76 text

GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能 出典︓GIRAFFE NeRF表現

Slide 77

Slide 77 text

GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能 出典︓GIRAFFE

Slide 78

Slide 78 text

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 出典︓StyleNeRF 低解像度のNeRF表現

Slide 79

Slide 79 text

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 NeRF 表現は 3D なので、辺の3乗の計算コストがかかるため、⾼解像度ほど 計算コストが跳ね上がる 出典︓StyleNeRF

Slide 80

Slide 80 text

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 より詳細な解説は発表者綱島の解説資料をご参照ください StyleNeRF わりかし徹底解説

Slide 81

Slide 81 text

EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究 空間を平⾯で扱い、存在しない点は内挿することで取得 出典︓EG3D

Slide 82

Slide 82 text

EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究 しかしながら、EG3D は 1024x1024 の⽣成はできない 出典︓EG3D

Slide 83

Slide 83 text

本章のまとめ n GAN の⽣成画像は 3D の整合性が取れていたほうが良いため、中間表現で 3D 表現を扱う研究がブーム n NeRF 登場後、⾶躍的に 3D の整合性が取れた GAN の研究が進展 n 今後は⾼解像度⽣成・⾼速・⾼解像度 3D 表現の三拍⼦揃った⼿法が期待される

Slide 84

Slide 84 text

次世代の深層⽣成モデル「拡散確率モデル」 84 n 拡散確率モデル n 直近で話題の拡散確率モデル

Slide 85

Slide 85 text

次世代の深層⽣成モデル「拡散確率モデル」 85 n 拡散確率モデル n

Slide 86

Slide 86 text

拡散確率モデル ここ数ヶ⽉で DALL-E 2、Midjourney、Stable Diffusion などとんでもなく ⾼クオリティの txt2im が出現し、⼀⼤ブームとなっている これらの⼿法は近年密かにブームとなっていた拡散確率モデルが背景にある

Slide 87

Slide 87 text

深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n n n Score-based Models 品質 速度 多様性 柔軟性

Slide 88

Slide 88 text

拡散確率モデル 拡散確率モデルは冒頭で触れた Score-based Models の⼀種であり、DDPM が GAN に匹敵する⽣成品質を叩き出したことで⼀躍世に広まった 出典︓DDPM

Slide 89

Slide 89 text

拡散確率モデル 拡散確率モデルは簡潔に表現すると、実データからノイズの順過程、ノイズから 実データの逆過程の拡散過程を学習することで、ノイズから実データ⽣成が可能に 出典︓Understanding Diffusion Models: A Unified Perspective 実データ 完全な ノイズ 逆過程 順過程

Slide 90

Slide 90 text

拡散確率モデル 拡散過程の学習には、実データにタイムステップに応じたノイズを載せ、 載せたノイズをノイズ付き実データから推定 ニューラル ネットワーク タイムステップ 𝑇 実データ 𝑥! ノイズ ノイズ付き画像 𝑥" 推定ノイズ ⼆乗誤差最⼩化 (後述のDDPMで説明) 図の参考︓【Deep Learning研修(発展)】データ⽣成・変換のための 機械学習 第7回前編「Diffusion models」

Slide 91

Slide 91 text

DDPM(Denoising Diffusion Probabilistic Model) 拡散確率モデルが世に広まるきっかけとなった論⽂ 拡散過程の学習を簡潔な⼆乗誤差の形で定式化 (その他様々な⼯夫が存在)

Slide 92

Slide 92 text

DDPM(Denoising Diffusion Probabilistic Model) ⽣成品質は GAN に匹敵し、世間の注⽬は⼤いに集まったものの、爆発的なブーム にはまだならず GAN が優勢であった ターニングポイントは、本⽇は割愛しますが ADM という GAN に勝る⽣成品質を 叩き出した⼿法になります 出典︓DDPM

Slide 93

Slide 93 text

次世代の深層⽣成モデル「拡散確率モデル」 93 n n 直近で話題の拡散確率モデル

Slide 94

Slide 94 text

DALL-E 2 潜在空間でテキストと画像の類似度を測れる CLIP を⽤いて、テキストから画像を ⽣成するモデル 出典︓DALL-E 2で綱島が⽣成 出典︓DALL-E 2

Slide 95

Slide 95 text

DALL-E 2 潜在空間中で操作を⾏うため、逆に画像を潜在空間に埋め込んで、内挿や 違うバリエーションの画像を⽣成することも可能 出典︓DALL-E 2 出典︓DALL-E 2

Slide 96

Slide 96 text

Midjourney Midjourney 研究室が作成した Discord で利⽤可能な深層⽣成モデル 詳細は明らかにされていないが、⽣成過程が存在するため、恐らく拡散確率モデル 出典︓Midjourneyで綱島が⽣成

Slide 97

Slide 97 text

Stable Diffusion 潜在空間で拡散過程を学習することで、画素空間で拡散過程を学習するよりも 計算コストを削減しながらも⾼品質な画像⽣成 出典︓Stable Diffusion

Slide 98

Slide 98 text

Stable Diffusion Stable Diffusion がなぜ話題になっているかというと、GitHub リポジトリから 学習済みのパラメータとコードをダウンロードすることで、ローカルの環境で txt2im が可能ということ 出典︓Stable Diffusionで綱島が⽣成

Slide 99

Slide 99 text

mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない) 出典︓mimic

Slide 100

Slide 100 text

mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない) しかしながら、他⼈のデータで追加学習を⾏い、悪⽤される危険などについて SNS 等での論争は熾烈を極め、β版のサービス停⽌となってしまった※ もう⼈類はAI倫理について逃げることが許されない世界線に辿り着いてしまった ※ 公開講座での講演後にmimicについて進展があったので、次スライドで説明

Slide 101

Slide 101 text

mimic 2022 年 9 ⽉ 14 ⽇に不正利⽤防⽌策を提⽰しており、今後のこのガイドラインに 沿ってサービス再開に向けて取り組んでいかれるとのことです 主にアップロードした画像が本⼈が描いたものかどうかを厳しく審査することで、 不正にアップロードされた画像による悪⽤を防ぐというものです まだ、こちらについては SNS で賛否両論がありますが、今⽇本で最も注⽬度が ⾼い AI サービスであることは間違いありません 綱島も今後の⾏⽅を⾮常に注⽬しているサービスです

Slide 102

Slide 102 text

本章のまとめ n Score-based Models の⼀種の拡散過程を学習する拡散確率モデル n 拡散確率モデルブームのきっかけとなったDDPM n 最新の txt2im の拡散確率モデルの DALL-E 2、Midjourney、Stable Diffusion n AIの倫理的問題がついに浮き彫りになり始めた

Slide 103

Slide 103 text

今後の深層⽣成モデルの発展 103

Slide 104

Slide 104 text

今後の深層⽣成モデルの発展 もう既に数年前では考えられないくらいの⽣成品質の深層画像⽣成モデル 今後の発展の鍵として考えられるのは n GPT-4 • GPT-3という巨⼤⾔語⽣成モデルの後続の研究が近いうちに出るはず n パラメータ数の超増加による相転移的現象 • 深層⽣成モデル⾃体はパラメータ数は巨⼤⾔語モデルと⽐べて⼤したこと無いので、 まだまだ発展の余地は残されている(GPT-3︓1750億、Stable Diffusion︓14億5千万) 合わせて学習・⽣成コスト減少の研究にも注⽬が集まる n 深層画像⽣成モデルを⽤いたデータ拡張 • 今までは学習したデータ分布内の内挿しかできないため、データ拡張に⽤いても精度向上 には役に⽴たない場合がほとんどであったが、txt2im の発展により様々な分野への データ拡張が期待される

Slide 105

Slide 105 text

今後の深層⽣成モデルの発展 もう既に数年前では考えられないくらいの⽣成品質の深層⽣成モデル 今後の発展の鍵として考えられるのは n 画像以外のドメインの拡散確率モデル(例︓⾳、3Dデータ) • まだブレイクスルーとなる拡散確率モデルを⽤いた他ドメインの巨⼤深層⽣成モデル⼿法は 出てきていないが、時間の問題(例︓好みの⾳楽のタイプを⼊れると⾼品質の⾳楽を⽣成)

Slide 106

Slide 106 text

今後の深層⽣成モデルの発展 研究者としては txt2im の驚異的な結果を⾒せられて⾃分のやることは無くなって しまったというような気持ちになるかもしれません しかしながら、まだまだ研究者にはやることはいくらでも残されています Stable Diffusion も巨⼈(研究者たちの叡智)の肩に乗る⼩⼈であり、更なる 強⼒な深層⽣成モデルの発展には改善していくべき問題は⼭積みです

Slide 107

Slide 107 text

今後の深層⽣成モデルの発展 Nearly every person who develops an idea works at it up to the point where it looks impossible, and then gets discouraged. That’s not the place to become discouraged. Tomans Alva Edison