$30 off During Our Annual Pro Sale. View Details »

DDPM解説スライド.pdf

Taiki Nakamura
March 26, 2022
3.3k

 DDPM解説スライド.pdf

Taiki Nakamura

March 26, 2022
Tweet

Transcript

  1. ౦େӃɾ৘ใཧ޻ . தଜହو
    1
    Denoising Diffusion
    Probabilistic Models
    2022-03-24 @ Diffusion model 勉強会

    View Slide

  2. /18
    自己紹介
    2
    ■ 中村泰貴(Taiki Nakamura)
    ● 東大院情報理工 修士課程 2年
    ○ 来年度から博士過程へ進学
    ● 専門はテキスト音声合成や声質変換
    ● 趣味は彫刻美術鑑賞と全国の寺社巡り

    View Slide

  3. /18
    今日紹介する論文
    3
    ■ Denoising Diffusion Probabilistic Models [Ho+, NeurIPS 2020]
    ● 従来の Diffusion model の generator をいい感じに設計すると損失関数を簡単化できる
    ● そうして得た損失関数は denoise score matching と同様の形になる
    ● 結果的に GAN と同程度の画像を生成

    View Slide

  4. 4
    背景:Diffusion model

    View Slide

  5. /18
    Diffusion model とは
    5
    マルコフ連鎖を用いて徐々にノイズを 付与 & 除去 する過程で実データとノイズの間の関係を学習
    Reverse diffusion process : ノイズから実データを生成する過程
    Forward diffusion process : 実データからノイズへ近づける過程

    View Slide

  6. /18
    Forward diffusion process
    6
    マルコフ連鎖を用いて徐々にガウシアンノイズを付与する過程
    ステップごとのノイズの分散調整のためのハイパラ(時刻に対し単調増加) 各ステップはマルコフ連鎖
    標準正規分布 実データ分布
    どの時刻の確率変数も reparameterization trick を用いて閉じた形で表現できる
    Forward diffusion process : 実データからノイズへ近づける過程

    View Slide

  7. /18
    Reverse diffusion process
    7
    標準正規分布から実データへの生成過程:各ステップのモデルのパラメータを学習させる必要
    Reverse diffusion process : ノイズから実データを生成する過程
    標準正規分布 実データ分布
    各ステップを正規分布と仮定 & 平均と分散を学習
    対数周辺尤度の変分下限を最大化するようパラメータを学習(次ページに詳細)

    View Slide

  8. /18
    Reverse diffusion process
    8
    損失関数を KL を項として含む式へ展開
    同時分布を展開(log ∏ -> ∑ log)
    t = 1 を ∑ の外へ
    𝑥!
    の条件として付与 & ベイズの定理
    𝑞 𝑥" 𝑥!
    と 𝑞(𝑥#|𝑥!) 以外相殺
    2つの正規分布の比較により
    閉形式で算出可能
    = 𝐿$%"

    View Slide

  9. /18
    Reverse diffusion process
    9
    損失関数を KL を項として含む式へ展開したもの
    Forward process における事後分布を閉形式で表現(導出は省略)
    これを閉形式で表現すると
    各ステップの Forward process の事後分布と 𝒑 𝒙𝒕"𝟏 𝒙𝒕
    の KL divergence の総和を最小化
    を代入し整理

    View Slide

  10. 10
    提案手法

    View Slide

  11. /18
    Reverse diffusion process の設計
    11
    各ステップの分散
    共分散行列は学習させない方が学習が安定し高性能 &いずれを試しても結果は変わらなかった

    View Slide

  12. /18
    Reverse diffusion process の設計
    12
    各ステップの平均
    𝑳𝒕"𝟏
    をいい感じに整理
    分散固定のガウス分布同士の KL は 2つの平均の二乗誤差に相当(省略)
    学習する reverse process のガウス分布の平均
    Forward process の事後分布の平均
    これでも学習できるがさらに整理する

    View Slide

  13. /18
    Reverse diffusion process の設計
    13
    𝑳𝒕"𝟏
    をさらにいい感じに整理
    を へ近づける問題になるため
    とすると 𝑳𝒕"𝟏

    ノイズの混ざった画像 と時刻から ノイズ を推定するよう学習
    ノイズの混ざった画像
    ノイズ

    View Slide

  14. /18
    損失関数の単純化
    14
    先ほど導出した 𝑳𝒕"𝟏
    提案する単純化された損失関数
    係数を無視した方がサンプルの質が上がることが実験的にわかった(定性的な意味はよく理解できていない)
    提案する目的関数は上記であり 時刻 t をランダムにサンプリングして学習する

    View Slide

  15. /18
    学習とサンプリング
    15
    Training
    学習データ & 時刻 & ノイズ をサンプリングして ノイズ を推定するタスクで学習
    Sampling
    標準正規分布からサンプリングし 学習した各ステップのモデル 𝒑𝜽
    を用いてデータを生成
    スコアに基づくデータサンプリングに類似
    -> Denoising

    View Slide

  16. 16
    実験

    View Slide

  17. /18
    実験
    17
    ■ ハイパラ等
    ● ステップ数:T = 1000
    ● ノイズの強さ:𝛽!
    = 10"#,𝛽$
    = 0.02 でその間の時刻に対し線形に補完
    ● ネットワーク構造:U-Net like,group norm,self-attention あり
    ■ Datasets
    ● CIFAR 10,LSUN,CelebA-HQ 256x 256

    View Slide

  18. /18
    生成画像の一例(LSUN)
    18

    View Slide

  19. /18
    客観評価
    19
    Inception score や FID で GAN ≒ DDPM

    View Slide

  20. /18
    生成過程の可視化
    20
    ステップを重ねるにつれて CIFAR10 ぽい画像が生成できている

    View Slide

  21. /18
    21

    View Slide