Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

maguro27
September 19, 2022

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

スキルアップAIキャンプの第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』にて発表した講演資料です。
https://lp.skillupai.com/20220907

一部講演後に進展があった事項があったので、修正している事項があります。
また、講演時間が40分程ということもあり、かなり乱暴に端折っている部分がありますので、ご了承ください。
間違いなどがありましたら、ご指摘していただけますと幸いです。

maguro27

September 19, 2022
Tweet

More Decks by maguro27

Other Decks in Research

Transcript

  1. スキルアップAIキャンプ GAN編

    View Slide

  2. ⾃⼰紹介
    綱島 秀樹
    n 所属
    早稲⽥⼤学 博⼠3年-森島繁⽣研究室
    スキルアップAI 講師(GAN講座監修)
    n 研究テーマ
    修⼠課程︓深層画像⽣成モデルの計算量・パラメータ削減
    博⼠課程1年︓複数物体を対象とした教師無し前景背景分解
    博⼠課程2年〜︓常識獲得
    産総研(元)︓服と⼈のペアデータを必要としない仮想試着
    n 趣味
    筋トレ、アメフト、ゲーム(FPS、⾳ゲー、レーシングゲーム)、サボテン育成

    View Slide

  3. ⽬次
    n GAN とは
    n GAN のブレイクスルー「StyleGAN」までの発展
    n GAN + 3D 表現
    n 次世代の深層⽣成モデル「拡散確率モデル」
    n 今後の深層⽣成モデルの発展

    View Slide

  4. GANとは
    4

    View Slide

  5. GANの仕組み
    贋作家(Generator)が鑑定師(Discriminator)を騙せるような出⼒を学習
    贋作家 偽画像
    実画像
    鑑定師
    偽物︖
    本物︖
    出典︓FFHQ dataset
    出典︓StyleGAN2

    View Slide

  6. なぜGANにフォーカスを当てたか
    ⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良いため
    出典︓StyleGAN2
    出典︓DeepFill v2
    出典︓CycleGAN
    出典︓DALL-E

    View Slide

  7. ⽣成モデルとは
    ⼤きく分けて機械学習には識別モデルと⽣成モデルが存在
    n 識別モデル
    ⼊⼒出⼒ペアデータ(観測データ)を⽤いた教師あり学習により、未知の⼊⼒
    データから出⼒を予測するモデル(例︓回帰、分類)
    n ⽣成モデル
    観測データを⽣成する確率分布を予測するモデル
    ⽣成分布が予測できれば、思うままに観測データ点を⽣成できる
    ⽣成モデルは識別モデルも包含している

    View Slide

  8. 深層⽣成モデル
    現実問題、観測データの⽣成分布を厳密に予測することは困難
    そこで、様々な近似と⾮線形関数(ニューラルネットワーク)を⽤いて⽣成分布を
    予測しようとしたのが深層⽣成モデル

    View Slide

  9. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    品質
    速度
    多様性
    柔軟性

    View Slide

  10. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    品質
    速度
    多様性
    柔軟性
    画像の⽣成品質

    View Slide

  11. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    品質
    速度
    多様性
    柔軟性
    ⽣成画像の多様さ

    View Slide

  12. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    品質
    速度
    多様性
    柔軟性
    訓練済みモデルでの
    画像⽣成速度

    View Slide

  13. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    品質
    速度
    多様性
    柔軟性
    ネットワーク設計の
    柔軟さ

    View Slide

  14. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    n GAN
    n Variational AutoEncoder(VAE)
    n Auto Regressive Models
    n Normalizing Flow
    n Energy-based Models(EBM)
    n Score-based Models
    品質
    速度
    多様性
    柔軟性

    View Slide

  15. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    n GAN
    n
    n
    n
    n
    n
    品質
    速度
    多様性
    柔軟性

    View Slide

  16. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    n
    n
    n
    n
    n
    n Score-based Models
    品質
    速度
    多様性
    柔軟性

    View Slide

  17. 本章のまとめ
    n GANは⽣成器と識別器で敵対的に学習を進める
    n GANは⼀番流⾏っており、様々なノウハウが溜まっている上、⽣成品質が良い
    n 機械学習には⼤きく分けて識別モデルと⽣成モデルが存在
    n 深層⽣成モデルは⼤きく分けて6種類に分けられ、⽣成品質・多様性・速度・
    柔軟性の4つの特徴に分けられる
    n GANは品質と速度が優秀だが、多様性に⽋ける

    View Slide

  18. GAN のブレイクスルー「StyleGAN」までの発展
    18
    n GANの主流の発展
    n GANの応⽤

    View Slide

  19. GAN のブレイクスルー「StyleGAN」までの発展
    19
    n GANの主流の発展
    n

    View Slide

  20. GANの主流の発展
    GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展
    2014 2015 2016 2017 2018 2019 2020 2021 2022
    GAN
    cGAN
    DCGAN
    WGAN
    WGAN-GP
    PGGAN
    SAGAN
    BigGAN
    StyleGAN
    StyleGAN2 StyleGAN3

    View Slide

  21. GANの主流の発展
    GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展
    2014 2015 2016 2017 2018 2019 2020 2021 2022
    GAN
    cGAN
    DCGAN
    WGAN
    WGAN-GP
    PGGAN
    SAGAN
    BigGAN
    StyleGAN
    StyleGAN2 StyleGAN3

    View Slide

  22. Conditional GAN(cGAN)
    クラスラベルを条件とした条件付き画像⽣成の最初のモデル
    なんと、この論⽂⾃体は会議や論⽂誌に出ておらず、arXiv 論⽂のみ
    贋作家 偽画像
    実画像
    鑑定師
    偽物︖
    本物︖
    出典︓AFHQ dataset
    出典︓Projected GAN


    クラス情報
    クラス情報

    クラス情報

    View Slide

  23. Conditional GAN(cGAN)
    クラスラベルを条件とした条件付き画像⽣成の最初のモデル
    n ⼿書き数字 dataset の MNIST での条件付き⽣成(0〜9 の数字)
    この頃はまだまだ⽣成品質はいまいち
    出典︓cGAN

    View Slide

  24. Deep Convolutional GAN(DCGAN)
    畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN
    初めて⾼解像度の実世界データでの画像⽣成が可能となり、流⾏のきっかけに
    出典︓DCGAN

    View Slide

  25. Deep Convolutional GAN(DCGAN)
    畳み込みのみで解像度を上げることが出来る転置畳み込みを提案したGAN
    初めて実世界データでの画像⽣成が可能となり、GANが流⾏(解像度 64x64)
    出典︓DCGAN

    View Slide

  26. Deep Convolutional GAN(DCGAN)
    <余談>
    転置畳み込みは現在 Deconvolution と呼ばれるが、当時は Fractionally-strided
    Convolution と呼ばれていた
    というのも、当時 Deconvolution というと転置畳み込みという意味では捉えられ
    なかったため、Deconv. と Fractionally-strided Conv. で呼び分けがされていた
    現在ではいつの間にか Deconv. が受け⼊れられており、主要ライブラリでは
    Deconvolution として呼ばれている

    View Slide

  27. Wasserstein GAN(WGAN)
    実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない
    Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN
    元々の GAN の敵対的学習では Jensen-Shannon ダイバージェンスという分布間
    擬距離で学習を⾏うが、識別器が予測する実データ分布と⽣成器のデータ分布が
    近づきすぎた場合に識別器の勾配が消失して学習が破綻する
    ⼀⽅、Wasserstein 損失は識別器の勾配消失が起こらず学習ができる

    View Slide

  28. Wasserstein GAN(WGAN)
    実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない
    Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN
    ⽣成品質はやや DCGAN に劣る
    出典︓WGAN

    View Slide

  29. WGAN with Gradient Penalty(WGAN-GP)
    WGAN は 1-Lipschitz 性という識別器の勾配が 1 未満の条件を満たす必要がある
    WGAN では weight clipping という重みをある値以下に制限する⽅法を採⽤
    しかしながら、weight clipping を⾏うと制限した範囲の端っこに重みが偏り、
    学習がうまくいかない問題が存在(図は±0.01の範囲で制限)
    出典︓WGAN-GP

    View Slide

  30. WGAN with Gradient Penalty(WGAN-GP)
    WGAN-GPでは、識別器の出⼒の勾配を1に近づける勾配罰則を追加
    ただ、⽣成画像のみ、実画像のみといった勾配罰則を加えると、正則化効果が
    強すぎるので、⽣成画像と実画像を混ぜ合わせた画像の識別器の出⼒の勾配を
    1 に近づける勾配罰則を採⽤
    出典︓WGAN-GP

    View Slide

  31. WGAN with Gradient Penalty(WGAN-GP)
    WGAN-GPは⾮常に強⼒な⼿法で、128x128 の実データでも⽣成が可能
    以後は Wasserstein 損失 + 勾配罰則がデファクトスタンダードに
    出典︓WGAN-GP

    View Slide

  32. PGGAN、またはProgressive GAN
    低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を
    進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に
    出典︓PGGAN

    View Slide

  33. PGGAN、またはProgressive GAN
    低解像度の⽣成(4x4)から始め、⾼解像度(1024x1024)へと段階的に学習を
    進める Progressive Growing を提案し、初めて 1k サイズの画像⽣成を可能に
    出典︓PGGAN

    View Slide

  34. GANの主流の発展
    GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展
    2014 2015 2016 2017 2018 2019 2020 2021 2022
    GAN
    cGAN
    DCGAN
    WGAN
    WGAN-GP
    PGGAN
    SAGAN
    BigGAN
    StyleGAN
    StyleGAN2 StyleGAN3

    View Slide

  35. Self-Attention GAN(SAGAN)
    Self-Attention という画像内での相関を計算するモジュールを採⽤
    画像内の離れた画素の関係性も考慮できるため、品質が向上
    画像は左にある点と相関がある画素を可視化したもの
    出典︓SAGAN

    View Slide

  36. Self-Attention GAN(SAGAN)
    Self-Attention という画像内での相関を計算するモジュールを採⽤
    画像内の離れた画素の関係性も考慮できるため、品質が向上
    出典︓SAGAN

    View Slide

  37. BigGAN
    SAGAN をベースとして、バッチサイズの⼤幅な増加、チャンネル数の増加により、
    品質の向上が可能であることを⽰した論⽂
    その他様々な GAN の知⾒を集結させた集⼤成的な論⽂
    出典︓BigGAN

    View Slide

  38. GANの主流の発展
    GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展
    2014 2015 2016 2017 2018 2019 2020 2021 2022
    GAN
    cGAN
    DCGAN
    WGAN
    WGAN-GP
    PGGAN
    SAGAN
    BigGAN
    StyleGAN
    StyleGAN2 StyleGAN3

    View Slide

  39. GANの主流の発展
    GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展
    2014 2015 2016 2017 2018 2019 2020 2021 2022
    GAN
    cGAN
    DCGAN
    WGAN
    WGAN-GP
    PGGAN
    SAGAN
    BigGAN
    StyleGAN
    StyleGAN2 StyleGAN3
    GANの主流の発展は
    StyleGAN2までで本⽇は
    StyleGAN3は割愛

    View Slide

  40. StyleGAN
    ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案

    View Slide

  41. StyleGAN
    n ⼊⼒をノイズではなく学習可能パラメータに変更
    n ⼊⼒ノイズは 2 種類
    • 8 層の全結合層に通したノイズを⽤いて解像度ごとにスタイルを制御
    • ノイズをスタイル制御の直前に⼊⼒して多様性を担保
    出典︓StyleGAN
    スタイル制御
    多様性担保

    View Slide

  42. StyleGAN
    ⾼解像度かつ⾃然な画像⽣成を可能にする⽣成器のアーキテクチャを提案
    出典︓StyleGAN

    View Slide

  43. StyleGAN2
    StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上
    n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定
    の要素が固定される問題を解決
    出典︓StyleGAN2

    View Slide

  44. StyleGAN2
    StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上
    n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制
    することで、⽣成画像中の⽔滴のような視覚的違和感の抑制
    出典︓StyleGAN2

    View Slide

  45. StyleGAN2
    StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上
    n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定
    の要素が固定される問題を解決
    n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制
    することで、⽣成画像中の⽔滴のような視覚的違和感の抑制
    n 勾配罰則の更新頻度を16回に1回にすることで学習速度向上
    n 潜在空間中の変化を視覚的に⾃然にする正則化を提案し、⽣成品質が向上

    View Slide

  46. StyleGAN2
    StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上
    ここまできたら顔画像⽣成では、実画像とほとんど⾒分けがつかない画像ばかり
    出典︓StyleGAN2

    View Slide

  47. GAN のブレイクスルー「StyleGAN」までの発展
    47
    n
    n GANの応⽤

    View Slide

  48. GANの応⽤
    GAN は様々な分野に応⽤されており、本⽇はその⼀部を紹介
    詳細は GAN 講座で触れていますので、ご興味がある⽅は是⾮︕
    ⾃然⾔語処理
    画像変換
    画像補完
    画像編集
    データ拡張
    超解像
    txt2im
    モデル圧縮
    仮想試着

    View Slide

  49. 画像変換(Image-to-Image Translation、I2I)
    n CycleGAN
    ドメインAとドメインBを相互に⾏き来するネットワークにより、ペアデータを
    ⽤意すること無く画像変換が可能
    出典︓CycleGAN

    View Slide

  50. 画像変換(Image-to-Image Translation、I2I)
    n GauGAN
    セマンティックマスク(上のような塗りつぶしのクラスごとのマスク)を⽤いて
    様々なスタイルを反映した画像⽣成が可能
    鍵は SPADE と呼ばれるチャンネルを跨がない画素空間での正規化
    出典︓GauGAN

    View Slide

  51. 画像補完(Image Inpainting)
    n DeepFill v2(Contextual Attention + Gated Convolution)
    切り抜かれた領域と外側の関係性を考慮する Contextual Attention と⾃由な
    形のマスクを扱える Gated Convolution により⾼品質で⾃由な画像補完が可能
    出典︓DeepFill v2

    View Slide

  52. 画像編集、GAN Inversion
    n Image2StyleGAN
    ターゲットの画像に StyleGAN の⽣成結果が近くなるように 8 層の全結合層の
    後の潜在空間のベクトルを直接最適化する⼿法(GAN Inversion)
    出典︓Image2StyleGAN
    ターゲット画像
    ⽣成画像

    View Slide

  53. 画像編集、GAN Inversion
    n Image2StyleGAN
    GAN Inversion によって得たベクトル同⼠を StyleGAN の⽣成器の層で分けて
    ⼊⼒することでスタイル変換等の画像編集が可能
    出典︓Image2StyleGAN

    View Slide

  54. データ拡張
    n ADA(Adaptive Discriminator Augmentation)
    画像⽣成では学習データ数が少ない場合にうまく学習できない
    学習データにデータ拡張を施すことで、少ない学習データでうまく学習が可能
    出典︓ADA
    画像の切り抜き 画像の回転 画像の⾊変更

    View Slide

  55. 超解像
    n SRGAN
    GAN は⽣成画像が鮮明になりやすいという特性を活かした超解像(⾼解像度化)
    出典︓SRGAN

    View Slide

  56. txt2im
    n DALL-E
    潜在空間のベクトルを離散化した VQGAN とテキスト画像ペアの潜在空間を
    学習した CLIP を⽤いて⼤量の画像で学習することで⾼品質な txt2im を実現
    出典︓DALL-E

    View Slide

  57. ⾃然⾔語処理
    n SeqGAN
    テキスト⽣成において、強化学習と GAN を⽤いることで⾼品質な⾃然⾔語⽂
    ⽣成を可能にした⼿法
    出典︓SeqGAN

    View Slide

  58. モデル圧縮
    n AKDG
    GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを
    削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も
    ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究)
    出典︓AKDG

    View Slide

  59. モデル圧縮
    n AKDG
    GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを
    削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も
    ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究)
    出典︓AKDG

    View Slide

  60. モデル圧縮
    n AKDG
    GAN の⽣成器のパラメータ削減のために、強⼒な⽣成器を教師、パラメータを
    削減した⽣成器を⽣徒とし、通常の敵対的学習に加えて教師と⽣徒の敵対的学習も
    ⾏うことで効率的なモデル圧縮(発表者綱島の ICPR2020 に採択された研究)
    n WebDB Forum 2019 最優秀学⽣ポスター発表賞
    n ISAT-18 Excellent Oral Paper Presentation Award
    n ICPR2020 Poster

    View Slide

  61. 仮想試着
    n HiFU-VIRT
    従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった
    出典︓HiFU-VIRT

    View Slide

  62. 仮想試着
    n HiFU-VIRT
    従来の仮想試着は⼈と服のペアとなるデータがないと学習できなかった
    ⾮ペアで学習可能な⼿法は品質が⾮常に悪い
    出典︓HiFU-VIRT

    View Slide

  63. 仮想試着
    n HiFU-VIRT
    服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な
    仮想試着を実現(発表者綱島が MIRU2022 で発表した研究)
    出典︓HiFU-VIRT

    View Slide

  64. 仮想試着
    n HiFU-VIRT
    ベースラインの教師あり⼿法を超える性能
    出典︓HiFU-VIRT

    View Slide

  65. 仮想試着
    n HiFU-VIRT
    ⾮ペアデータセット(メルカリ)では他⼿法を圧倒
    出典︓HiFU-VIRT

    View Slide

  66. 仮想試着
    n HiFU-VIRT
    服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な
    仮想試着を実現(発表者綱島が MIRU2022 で発表した研究)
    n Sensors 2020 (Impact Factor: 3.576)
    n MIRU2021 学⽣優秀賞(Student Best Paper Award)
    n MIRU2022 MIRUインタラクティブセッション賞(Outstanding Poster Award)

    View Slide

  67. 本章のまとめ
    n GANはDCGANを⽪切りとして、WGAN-GP、StyleGANへと発展
    n GANの応⽤分野を9つ紹介(その他応⽤分野は幅広い)

    View Slide

  68. GAN + 3D 表現
    68

    View Slide

  69. GAN + 3D 表現
    画像⽣成は 2 次元画像だが、内部物体は 3 次元的整合性が取れていたほうが良い
    そこで、明⽰的に中間層で 3 次元表現を扱おうという研究がある
    ⼤きく分けて NeRF 登場以前、NeRF 登場以降の研究が存在
    (本⽇はキーとなる研究をいくつか紹介)

    View Slide

  70. NeRF(Neural Radiance Fields)
    NeRF は各視点から⾒たときの 3 次元座標の輝度(RGB)と密度(α値︓透明度)
    を学習することで、学習後に任意視点でのレンダリング(描画)が可能になる⼿法
    出典︓NeRF

    View Slide

  71. HoloGAN(NeRF登場以前)
    StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング
    することで 3D の整合性が取れた画像を⽣成することが可能
    出典︓HoloGAN
    3D変形 レンダリング

    View Slide

  72. HoloGAN(NeRF登場以前)
    StyleGAN がベースのアーキテクチャで 3D から⽣成を始め、2D へレンダリング
    することで 3D の整合性が取れた画像を⽣成することが可能
    出典︓HoloGAN

    View Slide

  73. BlockGAN(NeRF登場以前)
    HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに
    独⽴した 3D 操作をしての画像⽣成が可能
    出典︓BlockGAN

    View Slide

  74. BlockGAN(NeRF登場以前)
    HoloGAN に加えて背景と前景物体を別々に扱うことで、オブジェクトごとに
    独⽴した 3D 操作をしての画像⽣成が可能
    出典︓BlockGAN
    回転
    平⾏移動
    背景遷移
    前景遷移

    View Slide

  75. GAN + 3D 表現
    ここから NeRF 登場

    View Slide

  76. GIRAFFE
    BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた
    2D 画像⽣成が可能
    出典︓GIRAFFE
    NeRF表現

    View Slide

  77. GIRAFFE
    BlockGAN の3D 表現部分を NeRF 表現で扱うことで、より 3D の整合性の取れた
    2D 画像⽣成が可能
    出典︓GIRAFFE

    View Slide

  78. StyleNeRF
    低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、
    ⾼速でありながらも 1024x1024 の解像度での⽣成が可能
    出典︓StyleNeRF
    低解像度のNeRF表現

    View Slide

  79. StyleNeRF
    低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、
    ⾼速でありながらも 1024x1024 の解像度での⽣成が可能
    NeRF 表現は 3D なので、辺の3乗の計算コストがかかるため、⾼解像度ほど
    計算コストが跳ね上がる
    出典︓StyleNeRF

    View Slide

  80. StyleNeRF
    低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、
    ⾼速でありながらも 1024x1024 の解像度での⽣成が可能
    より詳細な解説は発表者綱島の解説資料をご参照ください
    StyleNeRF わりかし徹底解説

    View Slide

  81. EG3D
    StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと
    いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究
    空間を平⾯で扱い、存在しない点は内挿することで取得
    出典︓EG3D

    View Slide

  82. EG3D
    StyleNeRF と同時期の研究で、StyleNeRF の⾼解像度の 3D 表現を扱えないと
    いう問題に対し、⾼解像度の 3D 表現を効率的に扱えるようにした研究
    しかしながら、EG3D は 1024x1024 の⽣成はできない
    出典︓EG3D

    View Slide

  83. 本章のまとめ
    n GAN の⽣成画像は 3D の整合性が取れていたほうが良いため、中間表現で
    3D 表現を扱う研究がブーム
    n NeRF 登場後、⾶躍的に 3D の整合性が取れた GAN の研究が進展
    n 今後は⾼解像度⽣成・⾼速・⾼解像度 3D 表現の三拍⼦揃った⼿法が期待される

    View Slide

  84. 次世代の深層⽣成モデル「拡散確率モデル」
    84
    n 拡散確率モデル
    n 直近で話題の拡散確率モデル

    View Slide

  85. 次世代の深層⽣成モデル「拡散確率モデル」
    85
    n 拡散確率モデル
    n

    View Slide

  86. 拡散確率モデル
    ここ数ヶ⽉で DALL-E 2、Midjourney、Stable Diffusion などとんでもなく
    ⾼クオリティの txt2im が出現し、⼀⼤ブームとなっている
    これらの⼿法は近年密かにブームとなっていた拡散確率モデルが背景にある

    View Slide

  87. 深層⽣成モデル
    深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる
    n
    n
    n
    n
    n
    n Score-based Models
    品質
    速度
    多様性
    柔軟性

    View Slide

  88. 拡散確率モデル
    拡散確率モデルは冒頭で触れた Score-based Models の⼀種であり、DDPM が
    GAN に匹敵する⽣成品質を叩き出したことで⼀躍世に広まった
    出典︓DDPM

    View Slide

  89. 拡散確率モデル
    拡散確率モデルは簡潔に表現すると、実データからノイズの順過程、ノイズから
    実データの逆過程の拡散過程を学習することで、ノイズから実データ⽣成が可能に
    出典︓Understanding Diffusion Models: A Unified Perspective
    実データ 完全な
    ノイズ
    逆過程
    順過程

    View Slide

  90. 拡散確率モデル
    拡散過程の学習には、実データにタイムステップに応じたノイズを載せ、
    載せたノイズをノイズ付き実データから推定
    ニューラル
    ネットワーク
    タイムステップ 𝑇
    実データ 𝑥!
    ノイズ
    ノイズ付き画像 𝑥"
    推定ノイズ
    ⼆乗誤差最⼩化
    (後述のDDPMで説明)
    図の参考︓【Deep Learning研修(発展)】データ⽣成・変換のための
    機械学習 第7回前編「Diffusion models」

    View Slide

  91. DDPM(Denoising Diffusion Probabilistic Model)
    拡散確率モデルが世に広まるきっかけとなった論⽂
    拡散過程の学習を簡潔な⼆乗誤差の形で定式化
    (その他様々な⼯夫が存在)

    View Slide

  92. DDPM(Denoising Diffusion Probabilistic Model)
    ⽣成品質は GAN に匹敵し、世間の注⽬は⼤いに集まったものの、爆発的なブーム
    にはまだならず GAN が優勢であった
    ターニングポイントは、本⽇は割愛しますが ADM という GAN に勝る⽣成品質を
    叩き出した⼿法になります
    出典︓DDPM

    View Slide

  93. 次世代の深層⽣成モデル「拡散確率モデル」
    93
    n
    n 直近で話題の拡散確率モデル

    View Slide

  94. DALL-E 2
    潜在空間でテキストと画像の類似度を測れる CLIP を⽤いて、テキストから画像を
    ⽣成するモデル
    出典︓DALL-E 2で綱島が⽣成
    出典︓DALL-E 2

    View Slide

  95. DALL-E 2
    潜在空間中で操作を⾏うため、逆に画像を潜在空間に埋め込んで、内挿や
    違うバリエーションの画像を⽣成することも可能
    出典︓DALL-E 2 出典︓DALL-E 2

    View Slide

  96. Midjourney
    Midjourney 研究室が作成した Discord で利⽤可能な深層⽣成モデル
    詳細は明らかにされていないが、⽣成過程が存在するため、恐らく拡散確率モデル
    出典︓Midjourneyで綱島が⽣成

    View Slide

  97. Stable Diffusion
    潜在空間で拡散過程を学習することで、画素空間で拡散過程を学習するよりも
    計算コストを削減しながらも⾼品質な画像⽣成
    出典︓Stable Diffusion

    View Slide

  98. Stable Diffusion
    Stable Diffusion がなぜ話題になっているかというと、GitHub リポジトリから
    学習済みのパラメータとコードをダウンロードすることで、ローカルの環境で
    txt2im が可能ということ
    出典︓Stable Diffusionで綱島が⽣成

    View Slide

  99. mimic
    深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を
    ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない)
    出典︓mimic

    View Slide

  100. mimic
    深層⽣成モデルの追加学習を少数データで⾏うことで、特定の絵柄の画像を
    ⽣成できるようにする⽇本のサービス(拡散確率モデルとは限らない)
    しかしながら、他⼈のデータで追加学習を⾏い、悪⽤される危険などについて
    SNS 等での論争は熾烈を極め、β版のサービス停⽌となってしまった※
    もう⼈類はAI倫理について逃げることが許されない世界線に辿り着いてしまった
    ※ 公開講座での講演後にmimicについて進展があったので、次スライドで説明

    View Slide

  101. mimic
    2022 年 9 ⽉ 14 ⽇に不正利⽤防⽌策を提⽰しており、今後のこのガイドラインに
    沿ってサービス再開に向けて取り組んでいかれるとのことです
    主にアップロードした画像が本⼈が描いたものかどうかを厳しく審査することで、
    不正にアップロードされた画像による悪⽤を防ぐというものです
    まだ、こちらについては SNS で賛否両論がありますが、今⽇本で最も注⽬度が
    ⾼い AI サービスであることは間違いありません
    綱島も今後の⾏⽅を⾮常に注⽬しているサービスです

    View Slide

  102. 本章のまとめ
    n Score-based Models の⼀種の拡散過程を学習する拡散確率モデル
    n 拡散確率モデルブームのきっかけとなったDDPM
    n 最新の txt2im の拡散確率モデルの DALL-E 2、Midjourney、Stable Diffusion
    n AIの倫理的問題がついに浮き彫りになり始めた

    View Slide

  103. 今後の深層⽣成モデルの発展
    103

    View Slide

  104. 今後の深層⽣成モデルの発展
    もう既に数年前では考えられないくらいの⽣成品質の深層画像⽣成モデル
    今後の発展の鍵として考えられるのは
    n GPT-4
    • GPT-3という巨⼤⾔語⽣成モデルの後続の研究が近いうちに出るはず
    n パラメータ数の超増加による相転移的現象
    • 深層⽣成モデル⾃体はパラメータ数は巨⼤⾔語モデルと⽐べて⼤したこと無いので、
    まだまだ発展の余地は残されている(GPT-3︓1750億、Stable Diffusion︓14億5千万)
    合わせて学習・⽣成コスト減少の研究にも注⽬が集まる
    n 深層画像⽣成モデルを⽤いたデータ拡張
    • 今までは学習したデータ分布内の内挿しかできないため、データ拡張に⽤いても精度向上
    には役に⽴たない場合がほとんどであったが、txt2im の発展により様々な分野への
    データ拡張が期待される

    View Slide

  105. 今後の深層⽣成モデルの発展
    もう既に数年前では考えられないくらいの⽣成品質の深層⽣成モデル
    今後の発展の鍵として考えられるのは
    n 画像以外のドメインの拡散確率モデル(例︓⾳、3Dデータ)
    • まだブレイクスルーとなる拡散確率モデルを⽤いた他ドメインの巨⼤深層⽣成モデル⼿法は
    出てきていないが、時間の問題(例︓好みの⾳楽のタイプを⼊れると⾼品質の⾳楽を⽣成)

    View Slide

  106. 今後の深層⽣成モデルの発展
    研究者としては txt2im の驚異的な結果を⾒せられて⾃分のやることは無くなって
    しまったというような気持ちになるかもしれません
    しかしながら、まだまだ研究者にはやることはいくらでも残されています
    Stable Diffusion も巨⼈(研究者たちの叡智)の肩に乗る⼩⼈であり、更なる
    強⼒な深層⽣成モデルの発展には改善していくべき問題は⼭積みです

    View Slide

  107. 今後の深層⽣成モデルの発展
    Nearly every person who develops an idea works at it up to the point where it
    looks impossible, and then gets discouraged.
    That’s not the place to become discouraged.
    Tomans Alva Edison

    View Slide