【スキルアップAIキャンプ】第79回『生成モデルはまだまだ進化している！ GAN の研究動向紹介』

スキルアップAIキャンプ GAN編

⾃⼰紹介綱島秀樹 n 所属早稲⽥⼤学博⼠3年－森島繁⽣研究室スキルアップAI 講師（GAN講座監修） n
研究テーマ修⼠課程︓深層画像⽣成モデルの計算量・パラメータ削減博⼠課程1年︓複数物体を対象とした教師無し前景背景分解博⼠課程2年〜︓常識獲得産総研（元）︓服と⼈のペアデータを必要としない仮想試着 n 趣味筋トレ、アメフト、ゲーム（FPS、⾳ゲー、レーシングゲーム）、サボテン育成

⽬次 n GAN とは n GAN のブレイクスルー「StyleGAN」までの発展 n GAN +
3D 表現 n 次世代の深層⽣成モデル「拡散確率モデル」 n 今後の深層⽣成モデルの発展

GANとは 4

GANの仕組み贋作家（Generator）が鑑定師（Discriminator）を騙せるような出⼒を学習贋作家偽画像実画像鑑定師偽物︖ 本物︖ 出典︓FFHQ dataset
出典︓StyleGAN2

なぜGANにフォーカスを当てたか⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良いため出典︓StyleGAN2 出典︓DeepFill v2 出典︓CycleGAN 出典︓DALL-E

⽣成モデルとは⼤きく分けて機械学習には識別モデルと⽣成モデルが存在 n 識別モデル⼊⼒出⼒ペアデータ（観測データ）を⽤いた教師あり学習により、未知の⼊⼒データから出⼒を予測するモデル（例︓回帰、分類） n ⽣成モデル観測データを⽣成する確率分布を予測するモデル⽣成分布が予測できれば、思うままに観測データ点を⽣成できる
⽣成モデルは識別モデルも包含している

深層⽣成モデル現実問題、観測データの⽣成分布を厳密に予測することは困難そこで、様々な近似と⾮線形関数（ニューラルネットワーク）を⽤いて⽣成分布を予測しようとしたのが深層⽣成モデル

深層⽣成モデル深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる品質速度多様性柔軟性

画像の⽣成品質

⽣成画像の多様さ

訓練済みモデルでの画像⽣成速度

ネットワーク設計の柔軟さ

深層⽣成モデル深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n Variational
AutoEncoder（VAE） n Auto Regressive Models n Normalizing Flow n Energy-based Models（EBM） n Score-based Models 品質速度多様性柔軟性

深層⽣成モデル深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n n
n n n 品質速度多様性柔軟性

深層⽣成モデル深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n
n n Score-based Models 品質速度多様性柔軟性

本章のまとめ n GANは⽣成器と識別器で敵対的に学習を進める n GANは⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良い n 機械学習には⼤きく分けて識別モデルと⽣成モデルが存在 n 深層⽣成モデルは⼤きく分けて6種類に分けられ、⽣成品質・多様性・速度・柔軟性の4つの特徴に分けられる
n GANは品質と速度が優秀だが、多様性に⽋ける

GAN のブレイクスルー「StyleGAN」までの発展 18 n GANの主流の発展 n GANの応⽤

GAN のブレイクスルー「StyleGAN」までの発展 19 n GANの主流の発展 n

GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017
2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3

Conditional GAN（cGAN）クラスラベルを条件とした条件付き画像⽣成の最初のモデルなんと、この論⽂⾃体は会議や論⽂誌に出ておらず、arXiv 論⽂のみ贋作家偽画像実画像鑑定師偽物︖
本物︖ 出典︓AFHQ dataset 出典︓Projected GAN ⽝猫クラス情報クラス情報⽝クラス情報

Conditional GAN（cGAN）クラスラベルを条件とした条件付き画像⽣成の最初のモデル n ⼿書き数字 dataset の MNIST での条件付き⽣成（0〜9 の数字）
この頃はまだまだ⽣成品質はいまいち出典︓cGAN

Deep Convolutional GAN（DCGAN）畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて⾼解像度の実世界データでの画像⽣成が可能となり、流⾏のきっかけに出典︓DCGAN

Deep Convolutional GAN（DCGAN）畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて実世界データでの画像⽣成が可能となり、GANが流⾏（解像度 64x64）出典︓DCGAN

Deep Convolutional GAN（DCGAN）＜余談＞転置畳み込みは現在 Deconvolution と呼ばれるが、当時は Fractionally-strided Convolution と呼ばれていた
というのも、当時 Deconvolution というと転置畳み込みという意味では捉えられなかったため、Deconv. と Fractionally-strided Conv. で呼び分けがされていた現在ではいつの間にか Deconv. が受け⼊れられており、主要ライブラリでは Deconvolution として呼ばれている

Wasserstein GAN（WGAN）実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた、Wasserstein 損失を提案したGAN 元々の GAN の敵対的学習では
Jensen-Shannon ダイバージェンスという分布間擬距離で学習を⾏うが、識別器が予測する実データ分布と⽣成器のデータ分布が近づきすぎた場合に識別器の勾配が消失して学習が破綻する⼀⽅、Wasserstein 損失は識別器の勾配消失が起こらず学習ができる

Wasserstein GAN（WGAN）実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた、Wasserstein 損失を提案したGAN ⽣成品質はやや DCGAN に劣る
出典︓WGAN

WGAN with Gradient Penalty（WGAN-GP） WGAN は 1-Lipschitz 性という識別器の勾配が 1 未満の条件を満たす必要がある
WGAN では weight clipping という重みをある値以下に制限する⽅法を採⽤しかしながら、weight clipping を⾏うと制限した範囲の端っこに重みが偏り、学習がうまくいかない問題が存在（図は±0.01の範囲で制限）出典︓WGAN-GP

WGAN with Gradient Penalty（WGAN-GP） WGAN-GPでは、識別器の出⼒の勾配を1に近づける勾配罰則を追加ただ、⽣成画像のみ、実画像のみといった勾配罰則を加えると、正則化効果が強すぎるので、⽣成画像と実画像を混ぜ合わせた画像の識別器の出⼒の勾配を 1 に近づける勾配罰則を採⽤出典︓WGAN-GP

WGAN with Gradient Penalty（WGAN-GP） WGAN-GPは⾮常に強⼒な⼿法で、128x128 の実データでも⽣成が可能以後は Wasserstein 損失 +
勾配罰則がデファクトスタンダードに出典︓WGAN-GP

PGGAN、またはProgressive GAN 低解像度の⽣成（4x4）から始め、⾼解像度（1024x1024）へと段階的に学習を進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に出典︓PGGAN

Self-Attention GAN（SAGAN） Self-Attention という画像内での相関を計算するモジュールを採⽤画像内の離れた画素の関係性も考慮できるため、品質が向上画像は左にある点と相関がある画素を可視化したもの出典︓SAGAN

Self-Attention GAN（SAGAN） Self-Attention という画像内での相関を計算するモジュールを採⽤画像内の離れた画素の関係性も考慮できるため、品質が向上出典︓SAGAN

BigGAN SAGAN をベースとして、バッチサイズの⼤幅な増加、チャンネル数の増加により、品質の向上が可能であることを⽰した論⽂その他様々な GAN の知⾒を集結させた集⼤成的な論⽂出典︓BigGAN

2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3 GANの主流の発展は StyleGAN2までで本⽇は StyleGAN3は割愛

StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案

StyleGAN n ⼊⼒をノイズではなく学習可能パラメータに変更 n ⼊⼒ノイズは 2 種類 • 8 層の全結合層に通したノイズを⽤いて解像度ごとにスタイルを制御
• ノイズをスタイル制御の直前に⼊⼒して多様性を担保出典︓StyleGAN スタイル制御多様性担保

StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案出典︓StyleGAN

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定の要素が固定される問題を解決出典︓StyleGAN2

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制することで、⽣成画像中の⽔滴のような視覚的違和感の抑制出典︓StyleGAN2

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定の要素が固定される問題を解決 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制
することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 n 勾配罰則の更新頻度を16回に1回にすることで学習速度向上 n 潜在空間中の変化を視覚的に⾃然にする正則化を提案し、⽣成品質が向上

StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上ここまできたら顔画像⽣成では、実画像とほとんど⾒分けがつかない画像ばかり出典︓StyleGAN2

GAN のブレイクスルー「StyleGAN」までの発展 47 n n GANの応⽤

GANの応⽤ GAN は様々な分野に応⽤されており、本⽇はその⼀部を紹介詳細は GAN 講座で触れていますので、ご興味がある⽅は是⾮︕ ⾃然⾔語処理画像変換画像補完画像編集
データ拡張超解像 txt2im モデル圧縮仮想試着

画像変換（Image-to-Image Translation、I2I） n CycleGAN ドメインAとドメインBを相互に⾏き来するネットワークにより、ペアデータを⽤意すること無く画像変換が可能出典︓CycleGAN

画像変換（Image-to-Image Translation、I2I） n GauGAN セマンティックマスク（上のような塗りつぶしのクラスごとのマスク）を⽤いて様々なスタイルを反映した画像⽣成が可能鍵は SPADE と呼ばれるチャンネルを跨がない画素空間での正規化出典︓GauGAN

画像補完（Image Inpainting） n DeepFill v2（Contextual Attention + Gated Convolution）切り抜かれた領域と外側の関係性を考慮する
Contextual Attention と⾃由な形のマスクを扱える Gated Convolution により⾼品質で⾃由な画像補完が可能出典︓DeepFill v2

画像編集、GAN Inversion n Image2StyleGAN ターゲットの画像に StyleGAN の⽣成結果が近くなるように 8 層の全結合層の後の潜在空間のベクトルを直接最適化する⼿法（GAN
Inversion）出典︓Image2StyleGAN ターゲット画像⽣成画像

画像編集、GAN Inversion n Image2StyleGAN GAN Inversion によって得たベクトル同⼠を StyleGAN の⽣成器の層で分けて⼊⼒することでスタイル変換等の画像編集が可能
出典︓Image2StyleGAN

データ拡張 n ADA（Adaptive Discriminator Augmentation）画像⽣成では学習データ数が少ない場合にうまく学習できない学習データにデータ拡張を施すことで、少ない学習データでうまく学習が可能出典︓ADA 画像の切り抜き画像の回転
画像の⾊変更

超解像 n SRGAN GAN は⽣成画像が鮮明になりやすいという特性を活かした超解像（⾼解像度化）出典︓SRGAN

txt2im n DALL-E 潜在空間のベクトルを離散化した VQGAN とテキスト画像ペアの潜在空間を学習した CLIP を⽤いて⼤量の画像で学習することで⾼品質な txt2im
を実現出典︓DALL-E

⾃然⾔語処理 n SeqGAN テキスト⽣成において、強化学習と GAN を⽤いることで⾼品質な⾃然⾔語⽂⽣成を可能にした⼿法出典︓SeqGAN

モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も⾏うことで効率的なモデル圧縮（発表者綱島の ICPR2020 に採択された研究）出典︓AKDG

モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も⾏うことで効率的なモデル圧縮（発表者綱島の ICPR2020 に採択された研究） n
WebDB Forum 2019 最優秀学⽣ポスター発表賞 n ISAT-18 Excellent Oral Paper Presentation Award n ICPR2020 Poster

仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった出典︓HiFU-VIRT

仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった⾮ペアで学習可能な⼿法は品質が⾮常に悪い出典︓HiFU-VIRT

仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な仮想試着を実現（発表者綱島が MIRU2022 で発表した研究）出典︓HiFU-VIRT

仮想試着 n HiFU-VIRT ベースラインの教師あり⼿法を超える性能出典︓HiFU-VIRT

仮想試着 n HiFU-VIRT ⾮ペアデータセット（メルカリ）では他⼿法を圧倒出典︓HiFU-VIRT

仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な仮想試着を実現（発表者綱島が MIRU2022 で発表した研究） n
Sensors 2020 (Impact Factor: 3.576） n MIRU2021 学⽣優秀賞（Student Best Paper Award） n MIRU2022 MIRUインタラクティブセッション賞（Outstanding Poster Award）

本章のまとめ n GANはDCGANを⽪切りとして、WGAN-GP、StyleGANへと発展 n GANの応⽤分野を9つ紹介（その他応⽤分野は幅広い）

GAN + 3D 表現 68

GAN + 3D 表現画像⽣成は 2 次元画像だが、内部物体は 3 次元的整合性が取れていたほうが良いそこで、明⽰的に中間層で
3 次元表現を扱おうという研究がある⼤きく分けて NeRF 登場以前、NeRF 登場以降の研究が存在（本⽇はキーとなる研究をいくつか紹介）

NeRF（Neural Radiance Fields） NeRF は各視点から⾒たときの 3 次元座標の輝度（RGB）と密度（α値︓透明度）を学習することで、学習後に任意視点でのレンダリング（描画）が可能になる⼿法出典︓NeRF

HoloGAN（NeRF登場以前） StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリングすることで 3D の整合性が取れた画像を⽣成することが可能出典︓HoloGAN
3D変形レンダリング

HoloGAN（NeRF登場以前） StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリングすることで 3D の整合性が取れた画像を⽣成することが可能出典︓HoloGAN

BlockGAN（NeRF登場以前） HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに独⽴した 3D 操作をしての画像⽣成が可能出典︓BlockGAN

BlockGAN（NeRF登場以前） HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに独⽴した 3D 操作をしての画像⽣成が可能出典︓BlockGAN 回転平⾏移動背景遷移
前景遷移

GAN + 3D 表現ここから NeRF 登場

GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能
出典︓GIRAFFE NeRF表現

GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能
出典︓GIRAFFE

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、⾼速でありながらも 1024x1024 の解像度での⽣成が可能出典︓StyleNeRF
低解像度のNeRF表現

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、⾼速でありながらも 1024x1024 の解像度での⽣成が可能 NeRF
表現は 3D なので、辺の3乗の計算コストがかかるため、⾼解像度ほど計算コストが跳ね上がる出典︓StyleNeRF

StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、⾼速でありながらも 1024x1024 の解像度での⽣成が可能より詳細な解説は発表者綱島の解説資料をご参照ください
StyleNeRF わりかし徹底解説

EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないという問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究空間を平⾯で扱い、存在しない点は内挿することで取得
出典︓EG3D

EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないという問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究しかしながら、EG3D
は 1024x1024 の⽣成はできない出典︓EG3D

本章のまとめ n GAN の⽣成画像は 3D の整合性が取れていたほうが良いため、中間表現で 3D 表現を扱う研究がブーム n NeRF
登場後、⾶躍的に 3D の整合性が取れた GAN の研究が進展 n 今後は⾼解像度⽣成・⾼速・⾼解像度 3D 表現の三拍⼦揃った⼿法が期待される

次世代の深層⽣成モデル「拡散確率モデル」 84 n 拡散確率モデル n 直近で話題の拡散確率モデル

次世代の深層⽣成モデル「拡散確率モデル」 85 n 拡散確率モデル n

拡散確率モデルここ数ヶ⽉で DALL-E 2、Midjourney、Stable Diffusion などとんでもなく⾼クオリティの txt2im が出現し、⼀⼤ブームとなっているこれらの⼿法は近年密かにブームとなっていた拡散確率モデルが背景にある

深層⽣成モデル深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n
n n Score-based Models 品質速度多様性柔軟性

拡散確率モデル拡散確率モデルは冒頭で触れた Score-based Models の⼀種であり、DDPM が GAN に匹敵する⽣成品質を叩き出したことで⼀躍世に広まった出典︓DDPM

拡散確率モデル拡散確率モデルは簡潔に表現すると、実データからノイズの順過程、ノイズから実データの逆過程の拡散過程を学習することで、ノイズから実データ⽣成が可能に出典︓Understanding Diffusion Models: A Unified Perspective 実データ
完全なノイズ逆過程順過程

拡散確率モデル拡散過程の学習には、実データにタイムステップに応じたノイズを載せ、載せたノイズをノイズ付き実データから推定ニューラルネットワークタイムステップ 𝑇 実データ 𝑥! ノイズ
ノイズ付き画像 𝑥" 推定ノイズ⼆乗誤差最⼩化（後述のDDPMで説明）図の参考︓【Deep Learning研修（発展）】データ⽣成・変換のための機械学習第７回前編「Diffusion models」

DDPM（Denoising Diffusion Probabilistic Model）拡散確率モデルが世に広まるきっかけとなった論⽂拡散過程の学習を簡潔な⼆乗誤差の形で定式化（その他様々な⼯夫が存在）

DDPM（Denoising Diffusion Probabilistic Model）⽣成品質は GAN に匹敵し、世間の注⽬は⼤いに集まったものの、爆発的なブームにはまだならず GAN が優勢であった
ターニングポイントは、本⽇は割愛しますが ADM という GAN に勝る⽣成品質を叩き出した⼿法になります出典︓DDPM

次世代の深層⽣成モデル「拡散確率モデル」 93 n n 直近で話題の拡散確率モデル

DALL-E 2 潜在空間でテキストと画像の類似度を測れる CLIP を⽤いて、テキストから画像を⽣成するモデル出典︓DALL-E 2で綱島が⽣成出典︓DALL-E 2

DALL-E 2 潜在空間中で操作を⾏うため、逆に画像を潜在空間に埋め込んで、内挿や違うバリエーションの画像を⽣成することも可能出典︓DALL-E 2 出典︓DALL-E 2

Midjourney Midjourney 研究室が作成した Discord で利⽤可能な深層⽣成モデル詳細は明らかにされていないが、⽣成過程が存在するため、恐らく拡散確率モデル出典︓Midjourneyで綱島が⽣成

Stable Diffusion 潜在空間で拡散過程を学習することで、画素空間で拡散過程を学習するよりも計算コストを削減しながらも⾼品質な画像⽣成出典︓Stable Diffusion

Stable Diffusion Stable Diffusion がなぜ話題になっているかというと、GitHub リポジトリから学習済みのパラメータとコードをダウンロードすることで、ローカルの環境で txt2im が可能ということ出典︓Stable
Diffusionで綱島が⽣成

mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を⽣成できるようにする⽇本のサービス（拡散確率モデルとは限らない）出典︓mimic

mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を⽣成できるようにする⽇本のサービス（拡散確率モデルとは限らない）しかしながら、他⼈のデータで追加学習を⾏い、悪⽤される危険などについて SNS 等での論争は熾烈を極め、β版のサービス停⽌となってしまった※ もう⼈類はAI倫理について逃げることが許されない世界線に辿り着いてしまった ※ 公開講座での講演後にmimicについて進展があったので、次スライドで説明

mimic 2022 年 9 ⽉ 14 ⽇に不正利⽤防⽌策を提⽰しており、今後のこのガイドラインに沿ってサービス再開に向けて取り組んでいかれるとのことです主にアップロードした画像が本⼈が描いたものかどうかを厳しく審査することで、不正にアップロードされた画像による悪⽤を防ぐというものです
まだ、こちらについては SNS で賛否両論がありますが、今⽇本で最も注⽬度が⾼い AI サービスであることは間違いありません綱島も今後の⾏⽅を⾮常に注⽬しているサービスです

本章のまとめ n Score-based Models の⼀種の拡散過程を学習する拡散確率モデル n 拡散確率モデルブームのきっかけとなったDDPM n 最新の txt2im
の拡散確率モデルの DALL-E 2、Midjourney、Stable Diffusion n AIの倫理的問題がついに浮き彫りになり始めた

今後の深層⽣成モデルの発展 103

今後の深層⽣成モデルの発展もう既に数年前では考えられないくらいの⽣成品質の深層画像⽣成モデル今後の発展の鍵として考えられるのは n GPT-4 • GPT-3という巨⼤⾔語⽣成モデルの後続の研究が近いうちに出るはず n パラメータ数の超増加による相転移的現象 •
深層⽣成モデル⾃体はパラメータ数は巨⼤⾔語モデルと⽐べて⼤したこと無いので、まだまだ発展の余地は残されている（GPT-3︓1750億、Stable Diffusion︓14億5千万）合わせて学習・⽣成コスト減少の研究にも注⽬が集まる n 深層画像⽣成モデルを⽤いたデータ拡張 • 今までは学習したデータ分布内の内挿しかできないため、データ拡張に⽤いても精度向上には役に⽴たない場合がほとんどであったが、txt2im の発展により様々な分野へのデータ拡張が期待される

今後の深層⽣成モデルの発展もう既に数年前では考えられないくらいの⽣成品質の深層⽣成モデル今後の発展の鍵として考えられるのは n 画像以外のドメインの拡散確率モデル（例︓⾳、3Dデータ） • まだブレイクスルーとなる拡散確率モデルを⽤いた他ドメインの巨⼤深層⽣成モデル⼿法は出てきていないが、時間の問題（例︓好みの⾳楽のタイプを⼊れると⾼品質の⾳楽を⽣成）

今後の深層⽣成モデルの発展研究者としては txt2im の驚異的な結果を⾒せられて⾃分のやることは無くなってしまったというような気持ちになるかもしれませんしかしながら、まだまだ研究者にはやることはいくらでも残されています Stable Diffusion も巨⼈（研究者たちの叡智）の肩に乗る⼩⼈であり、更なる強⼒な深層⽣成モデルの発展には改善していくべき問題は⼭積みです

今後の深層⽣成モデルの発展 Nearly every person who develops an idea works at
it up to the point where it looks impossible, and then gets discouraged. That’s not the place to become discouraged. Tomans Alva Edison

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している！ GAN の研究動向紹介』

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している！ GAN の研究動向紹介』

More Decks by maguro27

Other Decks in Research

Featured

Transcript

【スキルアップAIキャンプ】第79回『生成モデルはまだまだ進化している！ GAN の研究動向紹介』

【スキルアップAIキャンプ】第79回『生成モデルはまだまだ進化している！ GAN の研究動向紹介』