Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

maguro27
September 19, 2022

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

スキルアップAIキャンプの第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』にて発表した講演資料です。
https://lp.skillupai.com/20220907

一部講演後に進展があった事項があったので、修正している事項があります。
また、講演時間が40分程ということもあり、かなり乱暴に端折っている部分がありますので、ご了承ください。
間違いなどがありましたら、ご指摘していただけますと幸いです。

maguro27

September 19, 2022
Tweet

More Decks by maguro27

Other Decks in Research

Transcript

  1. スキルアップAIキャンプ GAN編

  2. ⾃⼰紹介 綱島 秀樹 n 所属 早稲⽥⼤学 博⼠3年-森島繁⽣研究室 スキルアップAI 講師(GAN講座監修) n

    研究テーマ 修⼠課程︓深層画像⽣成モデルの計算量・パラメータ削減 博⼠課程1年︓複数物体を対象とした教師無し前景背景分解 博⼠課程2年〜︓常識獲得 産総研(元)︓服と⼈のペアデータを必要としない仮想試着 n 趣味 筋トレ、アメフト、ゲーム(FPS、⾳ゲー、レーシングゲーム)、サボテン育成
  3. ⽬次 n GAN とは n GAN のブレイクスルー「StyleGAN」までの発展 n GAN +

    3D 表現 n 次世代の深層⽣成モデル「拡散確率モデル」 n 今後の深層⽣成モデルの発展
  4. GANとは 4

  5. GANの仕組み 贋作家(Generator)が鑑定師(Discriminator)を騙せるような出⼒を学習 贋作家 偽画像 実画像 鑑定師 偽物︖ 本物︖ 出典︓FFHQ dataset

    出典︓StyleGAN2
  6. なぜGANにフォーカスを当てたか ⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良いため 出典︓StyleGAN2 出典︓DeepFill v2 出典︓CycleGAN 出典︓DALL-E

  7. ⽣成モデルとは ⼤きく分けて機械学習には識別モデルと⽣成モデルが存在 n 識別モデル ⼊⼒出⼒ペアデータ(観測データ)を⽤いた教師あり学習により、未知の⼊⼒ データから出⼒を予測するモデル(例︓回帰、分類) n ⽣成モデル 観測データを⽣成する確率分布を予測するモデル ⽣成分布が予測できれば、思うままに観測データ点を⽣成できる

    ⽣成モデルは識別モデルも包含している
  8. 深層⽣成モデル 現実問題、観測データの⽣成分布を厳密に予測することは困難 そこで、様々な近似と⾮線形関数(ニューラルネットワーク)を⽤いて⽣成分布を 予測しようとしたのが深層⽣成モデル

  9. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

  10. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

    画像の⽣成品質
  11. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

    ⽣成画像の多様さ
  12. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

    訓練済みモデルでの 画像⽣成速度
  13. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる 品質 速度 多様性 柔軟性

    ネットワーク設計の 柔軟さ
  14. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n Variational

    AutoEncoder(VAE) n Auto Regressive Models n Normalizing Flow n Energy-based Models(EBM) n Score-based Models 品質 速度 多様性 柔軟性
  15. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n n

    n n n 品質 速度 多様性 柔軟性
  16. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n

    n n Score-based Models 品質 速度 多様性 柔軟性
  17. 本章のまとめ n GANは⽣成器と識別器で敵対的に学習を進める n GANは⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良い n 機械学習には⼤きく分けて識別モデルと⽣成モデルが存在 n 深層⽣成モデルは⼤きく分けて6種類に分けられ、⽣成品質・多様性・速度・ 柔軟性の4つの特徴に分けられる

    n GANは品質と速度が優秀だが、多様性に⽋ける
  18. GAN のブレイクスルー「StyleGAN」までの発展 18 n GANの主流の発展 n GANの応⽤

  19. GAN のブレイクスルー「StyleGAN」までの発展 19 n GANの主流の発展 n

  20. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  21. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  22. Conditional GAN(cGAN) クラスラベルを条件とした条件付き画像⽣成の最初のモデル なんと、この論⽂⾃体は会議や論⽂誌に出ておらず、arXiv 論⽂のみ 贋作家 偽画像 実画像 鑑定師 偽物︖

    本物︖ 出典︓AFHQ dataset 出典︓Projected GAN ⽝ 猫 クラス情報 クラス情報 ⽝ クラス情報
  23. Conditional GAN(cGAN) クラスラベルを条件とした条件付き画像⽣成の最初のモデル n ⼿書き数字 dataset の MNIST での条件付き⽣成(0〜9 の数字)

    この頃はまだまだ⽣成品質はいまいち 出典︓cGAN
  24. Deep Convolutional GAN(DCGAN) 畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて⾼解像度の実世界データでの画像⽣成が可能となり、流⾏のきっかけに 出典︓DCGAN

  25. Deep Convolutional GAN(DCGAN) 畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN 初めて実世界データでの画像⽣成が可能となり、GANが流⾏(解像度 64x64) 出典︓DCGAN

  26. Deep Convolutional GAN(DCGAN) <余談> 転置畳み込みは現在 Deconvolution と呼ばれるが、当時は Fractionally-strided Convolution と呼ばれていた

    というのも、当時 Deconvolution というと転置畳み込みという意味では捉えられ なかったため、Deconv. と Fractionally-strided Conv. で呼び分けがされていた 現在ではいつの間にか Deconv. が受け⼊れられており、主要ライブラリでは Deconvolution として呼ばれている
  27. Wasserstein GAN(WGAN) 実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN 元々の GAN の敵対的学習では

    Jensen-Shannon ダイバージェンスという分布間 擬距離で学習を⾏うが、識別器が予測する実データ分布と⽣成器のデータ分布が 近づきすぎた場合に識別器の勾配が消失して学習が破綻する ⼀⽅、Wasserstein 損失は識別器の勾配消失が起こらず学習ができる
  28. Wasserstein GAN(WGAN) 実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN ⽣成品質はやや DCGAN に劣る

    出典︓WGAN
  29. WGAN with Gradient Penalty(WGAN-GP) WGAN は 1-Lipschitz 性という識別器の勾配が 1 未満の条件を満たす必要がある

    WGAN では weight clipping という重みをある値以下に制限する⽅法を採⽤ しかしながら、weight clipping を⾏うと制限した範囲の端っこに重みが偏り、 学習がうまくいかない問題が存在(図は±0.01の範囲で制限) 出典︓WGAN-GP
  30. WGAN with Gradient Penalty(WGAN-GP) WGAN-GPでは、識別器の出⼒の勾配を1に近づける勾配罰則を追加 ただ、⽣成画像のみ、実画像のみといった勾配罰則を加えると、正則化効果が 強すぎるので、⽣成画像と実画像を混ぜ合わせた画像の識別器の出⼒の勾配を 1 に近づける勾配罰則を採⽤ 出典︓WGAN-GP

  31. WGAN with Gradient Penalty(WGAN-GP) WGAN-GPは⾮常に強⼒な⼿法で、128x128 の実データでも⽣成が可能 以後は Wasserstein 損失 +

    勾配罰則がデファクトスタンダードに 出典︓WGAN-GP
  32. PGGAN、またはProgressive GAN 低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を 進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に 出典︓PGGAN

  33. PGGAN、またはProgressive GAN 低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を 進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に 出典︓PGGAN

  34. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  35. Self-Attention GAN(SAGAN) Self-Attention という画像内での相関を計算するモジュールを採⽤ 画像内の離れた画素の関係性も考慮できるため、品質が向上 画像は左にある点と相関がある画素を可視化したもの 出典︓SAGAN

  36. Self-Attention GAN(SAGAN) Self-Attention という画像内での相関を計算するモジュールを採⽤ 画像内の離れた画素の関係性も考慮できるため、品質が向上 出典︓SAGAN

  37. BigGAN SAGAN をベースとして、バッチサイズの⼤幅な増加、チャンネル数の増加により、 品質の向上が可能であることを⽰した論⽂ その他様々な GAN の知⾒を集結させた集⼤成的な論⽂ 出典︓BigGAN

  38. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  39. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3 GANの主流の発展は StyleGAN2までで本⽇は StyleGAN3は割愛
  40. StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案

  41. StyleGAN n ⼊⼒をノイズではなく学習可能パラメータに変更 n ⼊⼒ノイズは 2 種類 • 8 層の全結合層に通したノイズを⽤いて解像度ごとにスタイルを制御

    • ノイズをスタイル制御の直前に⼊⼒して多様性を担保 出典︓StyleGAN スタイル制御 多様性担保
  42. StyleGAN ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案 出典︓StyleGAN

  43. StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定 の要素が固定される問題を解決 出典︓StyleGAN2

  44. StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制 することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 出典︓StyleGAN2

  45. StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定 の要素が固定される問題を解決 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制

    することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 n 勾配罰則の更新頻度を16回に1回にすることで学習速度向上 n 潜在空間中の変化を視覚的に⾃然にする正則化を提案し、⽣成品質が向上
  46. StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 ここまできたら顔画像⽣成では、実画像とほとんど⾒分けがつかない画像ばかり 出典︓StyleGAN2

  47. GAN のブレイクスルー「StyleGAN」までの発展 47 n n GANの応⽤

  48. GANの応⽤ GAN は様々な分野に応⽤されており、本⽇はその⼀部を紹介 詳細は GAN 講座で触れていますので、ご興味がある⽅は是⾮︕ ⾃然⾔語処理 画像変換 画像補完 画像編集

    データ拡張 超解像 txt2im モデル圧縮 仮想試着
  49. 画像変換(Image-to-Image Translation、I2I) n CycleGAN ドメインAとドメインBを相互に⾏き来するネットワークにより、ペアデータを ⽤意すること無く画像変換が可能 出典︓CycleGAN

  50. 画像変換(Image-to-Image Translation、I2I) n GauGAN セマンティックマスク(上のような塗りつぶしのクラスごとのマスク)を⽤いて 様々なスタイルを反映した画像⽣成が可能 鍵は SPADE と呼ばれるチャンネルを跨がない画素空間での正規化 出典︓GauGAN

  51. 画像補完(Image Inpainting) n DeepFill v2(Contextual Attention + Gated Convolution) 切り抜かれた領域と外側の関係性を考慮する

    Contextual Attention と⾃由な 形のマスクを扱える Gated Convolution により⾼品質で⾃由な画像補完が可能 出典︓DeepFill v2
  52. 画像編集、GAN Inversion n Image2StyleGAN ターゲットの画像に StyleGAN の⽣成結果が近くなるように 8 層の全結合層の 後の潜在空間のベクトルを直接最適化する⼿法(GAN

    Inversion) 出典︓Image2StyleGAN ターゲット画像 ⽣成画像
  53. 画像編集、GAN Inversion n Image2StyleGAN GAN Inversion によって得たベクトル同⼠を StyleGAN の⽣成器の層で分けて ⼊⼒することでスタイル変換等の画像編集が可能

    出典︓Image2StyleGAN
  54. データ拡張 n ADA(Adaptive Discriminator Augmentation) 画像⽣成では学習データ数が少ない場合にうまく学習できない 学習データにデータ拡張を施すことで、少ない学習データでうまく学習が可能 出典︓ADA 画像の切り抜き 画像の回転

    画像の⾊変更
  55. 超解像 n SRGAN GAN は⽣成画像が鮮明になりやすいという特性を活かした超解像(⾼解像度化) 出典︓SRGAN

  56. txt2im n DALL-E 潜在空間のベクトルを離散化した VQGAN とテキスト画像ペアの潜在空間を 学習した CLIP を⽤いて⼤量の画像で学習することで⾼品質な txt2im

    を実現 出典︓DALL-E
  57. ⾃然⾔語処理 n SeqGAN テキスト⽣成において、強化学習と GAN を⽤いることで⾼品質な⾃然⾔語⽂ ⽣成を可能にした⼿法 出典︓SeqGAN

  58. モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) 出典︓AKDG

  59. モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) 出典︓AKDG

  60. モデル圧縮 n AKDG GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを 削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究) n

    WebDB Forum 2019 最優秀学⽣ポスター発表賞 n ISAT-18 Excellent Oral Paper Presentation Award n ICPR2020 Poster
  61. 仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった 出典︓HiFU-VIRT

  62. 仮想試着 n HiFU-VIRT 従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった ⾮ペアで学習可能な⼿法は品質が⾮常に悪い 出典︓HiFU-VIRT

  63. 仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な 仮想試着を実現(発表者綱島が MIRU2022 で発表した研究) 出典︓HiFU-VIRT

  64. 仮想試着 n HiFU-VIRT ベースラインの教師あり⼿法を超える性能 出典︓HiFU-VIRT

  65. 仮想試着 n HiFU-VIRT ⾮ペアデータセット(メルカリ)では他⼿法を圧倒 出典︓HiFU-VIRT

  66. 仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な 仮想試着を実現(発表者綱島が MIRU2022 で発表した研究) n

    Sensors 2020 (Impact Factor: 3.576) n MIRU2021 学⽣優秀賞(Student Best Paper Award) n MIRU2022 MIRUインタラクティブセッション賞(Outstanding Poster Award)
  67. 本章のまとめ n GANはDCGANを⽪切りとして、WGAN-GP、StyleGANへと発展 n GANの応⽤分野を9つ紹介(その他応⽤分野は幅広い)

  68. GAN + 3D 表現 68

  69. GAN + 3D 表現 画像⽣成は 2 次元画像だが、内部物体は 3 次元的整合性が取れていたほうが良い そこで、明⽰的に中間層で

    3 次元表現を扱おうという研究がある ⼤きく分けて NeRF 登場以前、NeRF 登場以降の研究が存在 (本⽇はキーとなる研究をいくつか紹介)
  70. NeRF(Neural Radiance Fields) NeRF は各視点から⾒たときの 3 次元座標の輝度(RGB)と密度(α値︓透明度) を学習することで、学習後に任意視点でのレンダリング(描画)が可能になる⼿法 出典︓NeRF

  71. HoloGAN(NeRF登場以前) StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング することで 3D の整合性が取れた画像を⽣成することが可能 出典︓HoloGAN

    3D変形 レンダリング
  72. HoloGAN(NeRF登場以前) StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング することで 3D の整合性が取れた画像を⽣成することが可能 出典︓HoloGAN

  73. BlockGAN(NeRF登場以前) HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに 独⽴した 3D 操作をしての画像⽣成が可能 出典︓BlockGAN

  74. BlockGAN(NeRF登場以前) HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに 独⽴した 3D 操作をしての画像⽣成が可能 出典︓BlockGAN 回転 平⾏移動 背景遷移

    前景遷移
  75. GAN + 3D 表現 ここから NeRF 登場

  76. GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能

    出典︓GIRAFFE NeRF表現
  77. GIRAFFE BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた 2D 画像⽣成が可能

    出典︓GIRAFFE
  78. StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 出典︓StyleNeRF

    低解像度のNeRF表現
  79. StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 NeRF

    表現は 3D なので、辺の3乗の計算コストがかかるため、⾼解像度ほど 計算コストが跳ね上がる 出典︓StyleNeRF
  80. StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 より詳細な解説は発表者綱島の解説資料をご参照ください

    StyleNeRF わりかし徹底解説
  81. EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究 空間を平⾯で扱い、存在しない点は内挿することで取得

    出典︓EG3D
  82. EG3D StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究 しかしながら、EG3D

    は 1024x1024 の⽣成はできない 出典︓EG3D
  83. 本章のまとめ n GAN の⽣成画像は 3D の整合性が取れていたほうが良いため、中間表現で 3D 表現を扱う研究がブーム n NeRF

    登場後、⾶躍的に 3D の整合性が取れた GAN の研究が進展 n 今後は⾼解像度⽣成・⾼速・⾼解像度 3D 表現の三拍⼦揃った⼿法が期待される
  84. 次世代の深層⽣成モデル「拡散確率モデル」 84 n 拡散確率モデル n 直近で話題の拡散確率モデル

  85. 次世代の深層⽣成モデル「拡散確率モデル」 85 n 拡散確率モデル n

  86. 拡散確率モデル ここ数ヶ⽉で DALL-E 2、Midjourney、Stable Diffusion などとんでもなく ⾼クオリティの txt2im が出現し、⼀⼤ブームとなっている これらの⼿法は近年密かにブームとなっていた拡散確率モデルが背景にある

  87. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n n n n

    n n Score-based Models 品質 速度 多様性 柔軟性
  88. 拡散確率モデル 拡散確率モデルは冒頭で触れた Score-based Models の⼀種であり、DDPM が GAN に匹敵する⽣成品質を叩き出したことで⼀躍世に広まった 出典︓DDPM

  89. 拡散確率モデル 拡散確率モデルは簡潔に表現すると、実データからノイズの順過程、ノイズから 実データの逆過程の拡散過程を学習することで、ノイズから実データ⽣成が可能に 出典︓Understanding Diffusion Models: A Unified Perspective 実データ

    完全な ノイズ 逆過程 順過程
  90. 拡散確率モデル 拡散過程の学習には、実データにタイムステップに応じたノイズを載せ、 載せたノイズをノイズ付き実データから推定 ニューラル ネットワーク タイムステップ 𝑇 実データ 𝑥! ノイズ

    ノイズ付き画像 𝑥" 推定ノイズ ⼆乗誤差最⼩化 (後述のDDPMで説明) 図の参考︓【Deep Learning研修(発展)】データ⽣成・変換のための 機械学習 第7回前編「Diffusion models」
  91. DDPM(Denoising Diffusion Probabilistic Model) 拡散確率モデルが世に広まるきっかけとなった論⽂ 拡散過程の学習を簡潔な⼆乗誤差の形で定式化 (その他様々な⼯夫が存在)

  92. DDPM(Denoising Diffusion Probabilistic Model) ⽣成品質は GAN に匹敵し、世間の注⽬は⼤いに集まったものの、爆発的なブーム にはまだならず GAN が優勢であった

    ターニングポイントは、本⽇は割愛しますが ADM という GAN に勝る⽣成品質を 叩き出した⼿法になります 出典︓DDPM
  93. 次世代の深層⽣成モデル「拡散確率モデル」 93 n n 直近で話題の拡散確率モデル

  94. DALL-E 2 潜在空間でテキストと画像の類似度を測れる CLIP を⽤いて、テキストから画像を ⽣成するモデル 出典︓DALL-E 2で綱島が⽣成 出典︓DALL-E 2

  95. DALL-E 2 潜在空間中で操作を⾏うため、逆に画像を潜在空間に埋め込んで、内挿や 違うバリエーションの画像を⽣成することも可能 出典︓DALL-E 2 出典︓DALL-E 2

  96. Midjourney Midjourney 研究室が作成した Discord で利⽤可能な深層⽣成モデル 詳細は明らかにされていないが、⽣成過程が存在するため、恐らく拡散確率モデル 出典︓Midjourneyで綱島が⽣成

  97. Stable Diffusion 潜在空間で拡散過程を学習することで、画素空間で拡散過程を学習するよりも 計算コストを削減しながらも⾼品質な画像⽣成 出典︓Stable Diffusion

  98. Stable Diffusion Stable Diffusion がなぜ話題になっているかというと、GitHub リポジトリから 学習済みのパラメータとコードをダウンロードすることで、ローカルの環境で txt2im が可能ということ 出典︓Stable

    Diffusionで綱島が⽣成
  99. mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない) 出典︓mimic

  100. mimic 深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない) しかしながら、他⼈のデータで追加学習を⾏い、悪⽤される危険などについて SNS 等での論争は熾烈を極め、β版のサービス停⽌となってしまった※ もう⼈類はAI倫理について逃げることが許されない世界線に辿り着いてしまった ※ 公開講座での講演後にmimicについて進展があったので、次スライドで説明

  101. mimic 2022 年 9 ⽉ 14 ⽇に不正利⽤防⽌策を提⽰しており、今後のこのガイドラインに 沿ってサービス再開に向けて取り組んでいかれるとのことです 主にアップロードした画像が本⼈が描いたものかどうかを厳しく審査することで、 不正にアップロードされた画像による悪⽤を防ぐというものです

    まだ、こちらについては SNS で賛否両論がありますが、今⽇本で最も注⽬度が ⾼い AI サービスであることは間違いありません 綱島も今後の⾏⽅を⾮常に注⽬しているサービスです
  102. 本章のまとめ n Score-based Models の⼀種の拡散過程を学習する拡散確率モデル n 拡散確率モデルブームのきっかけとなったDDPM n 最新の txt2im

    の拡散確率モデルの DALL-E 2、Midjourney、Stable Diffusion n AIの倫理的問題がついに浮き彫りになり始めた
  103. 今後の深層⽣成モデルの発展 103

  104. 今後の深層⽣成モデルの発展 もう既に数年前では考えられないくらいの⽣成品質の深層画像⽣成モデル 今後の発展の鍵として考えられるのは n GPT-4 • GPT-3という巨⼤⾔語⽣成モデルの後続の研究が近いうちに出るはず n パラメータ数の超増加による相転移的現象 •

    深層⽣成モデル⾃体はパラメータ数は巨⼤⾔語モデルと⽐べて⼤したこと無いので、 まだまだ発展の余地は残されている(GPT-3︓1750億、Stable Diffusion︓14億5千万) 合わせて学習・⽣成コスト減少の研究にも注⽬が集まる n 深層画像⽣成モデルを⽤いたデータ拡張 • 今までは学習したデータ分布内の内挿しかできないため、データ拡張に⽤いても精度向上 には役に⽴たない場合がほとんどであったが、txt2im の発展により様々な分野への データ拡張が期待される
  105. 今後の深層⽣成モデルの発展 もう既に数年前では考えられないくらいの⽣成品質の深層⽣成モデル 今後の発展の鍵として考えられるのは n 画像以外のドメインの拡散確率モデル(例︓⾳、3Dデータ) • まだブレイクスルーとなる拡散確率モデルを⽤いた他ドメインの巨⼤深層⽣成モデル⼿法は 出てきていないが、時間の問題(例︓好みの⾳楽のタイプを⼊れると⾼品質の⾳楽を⽣成)

  106. 今後の深層⽣成モデルの発展 研究者としては txt2im の驚異的な結果を⾒せられて⾃分のやることは無くなって しまったというような気持ちになるかもしれません しかしながら、まだまだ研究者にはやることはいくらでも残されています Stable Diffusion も巨⼈(研究者たちの叡智)の肩に乗る⼩⼈であり、更なる 強⼒な深層⽣成モデルの発展には改善していくべき問題は⼭積みです

  107. 今後の深層⽣成モデルの発展 Nearly every person who develops an idea works at

    it up to the point where it looks impossible, and then gets discouraged. That’s not the place to become discouraged. Tomans Alva Edison