Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DDPM解説スライド.pdf
Search
Taiki Nakamura
March 26, 2022
0
4k
DDPM解説スライド.pdf
Taiki Nakamura
March 26, 2022
Tweet
Share
More Decks by Taiki Nakamura
See All by Taiki Nakamura
【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
supikiti
0
750
研究会発表資料.pdf
supikiti
4
660
音声B紹介ポスター@音響学会ビギナーズセミナー
supikiti
1
370
Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理
supikiti
7
3.8k
hydra-mlflow-optuna
supikiti
4
6.6k
Interspeech2020_読み会_nakamura
supikiti
0
580
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
327
21k
Fashionably flexible responsive web design (full day workshop)
malarkey
404
65k
Six Lessons from altMBA
skipperchong
26
3.4k
Building an army of robots
kneath
302
42k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
37
1.8k
10 Git Anti Patterns You Should be Aware of
lemiorhan
653
59k
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Designing the Hi-DPI Web
ddemaree
280
34k
A designer walks into a library…
pauljervisheath
202
24k
Documentation Writing (for coders)
carmenintech
65
4.4k
The Power of CSS Pseudo Elements
geoffreycrofte
72
5.3k
Transcript
౦େӃɾใཧ . தଜହو 1 Denoising Diffusion Probabilistic Models 2022-03-24 @
Diffusion model 勉強会
/18 自己紹介 2 ▪ 中村泰貴(Taiki Nakamura) • 東大院情報理工 修士課程 2年
◦ 来年度から博士過程へ進学 • 専門はテキスト音声合成や声質変換 • 趣味は彫刻美術鑑賞と全国の寺社巡り
/18 今日紹介する論文 3 ▪ Denoising Diffusion Probabilistic Models [Ho+, NeurIPS
2020] • 従来の Diffusion model の generator をいい感じに設計すると損失関数を簡単化できる • そうして得た損失関数は denoise score matching と同様の形になる • 結果的に GAN と同程度の画像を生成
4 背景:Diffusion model
/18 Diffusion model とは 5 マルコフ連鎖を用いて徐々にノイズを 付与 & 除去 する過程で実データとノイズの間の関係を学習
Reverse diffusion process : ノイズから実データを生成する過程 Forward diffusion process : 実データからノイズへ近づける過程
/18 Forward diffusion process 6 マルコフ連鎖を用いて徐々にガウシアンノイズを付与する過程 ステップごとのノイズの分散調整のためのハイパラ(時刻に対し単調増加) 各ステップはマルコフ連鎖 標準正規分布 実データ分布
どの時刻の確率変数も reparameterization trick を用いて閉じた形で表現できる Forward diffusion process : 実データからノイズへ近づける過程
/18 Reverse diffusion process 7 標準正規分布から実データへの生成過程:各ステップのモデルのパラメータを学習させる必要 Reverse diffusion process :
ノイズから実データを生成する過程 標準正規分布 実データ分布 各ステップを正規分布と仮定 & 平均と分散を学習 対数周辺尤度の変分下限を最大化するようパラメータを学習(次ページに詳細)
/18 Reverse diffusion process 8 損失関数を KL を項として含む式へ展開 同時分布を展開(log ∏
-> ∑ log) t = 1 を ∑ の外へ 𝑥! の条件として付与 & ベイズの定理 𝑞 𝑥" 𝑥! と 𝑞(𝑥#|𝑥!) 以外相殺 2つの正規分布の比較により 閉形式で算出可能 = 𝐿$%"
/18 Reverse diffusion process 9 損失関数を KL を項として含む式へ展開したもの Forward process
における事後分布を閉形式で表現(導出は省略) これを閉形式で表現すると 各ステップの Forward process の事後分布と 𝒑 𝒙𝒕"𝟏 𝒙𝒕 の KL divergence の総和を最小化 を代入し整理
10 提案手法
/18 Reverse diffusion process の設計 11 各ステップの分散 共分散行列は学習させない方が学習が安定し高性能 &いずれを試しても結果は変わらなかった
/18 Reverse diffusion process の設計 12 各ステップの平均 𝑳𝒕"𝟏 をいい感じに整理 分散固定のガウス分布同士の
KL は 2つの平均の二乗誤差に相当(省略) 学習する reverse process のガウス分布の平均 Forward process の事後分布の平均 これでも学習できるがさらに整理する
/18 Reverse diffusion process の設計 13 𝑳𝒕"𝟏 をさらにいい感じに整理 を へ近づける問題になるため
とすると 𝑳𝒕"𝟏 は ノイズの混ざった画像 と時刻から ノイズ を推定するよう学習 ノイズの混ざった画像 ノイズ
/18 損失関数の単純化 14 先ほど導出した 𝑳𝒕"𝟏 提案する単純化された損失関数 係数を無視した方がサンプルの質が上がることが実験的にわかった(定性的な意味はよく理解できていない) 提案する目的関数は上記であり 時刻 t
をランダムにサンプリングして学習する
/18 学習とサンプリング 15 Training 学習データ & 時刻 & ノイズ をサンプリングして
ノイズ を推定するタスクで学習 Sampling 標準正規分布からサンプリングし 学習した各ステップのモデル 𝒑𝜽 を用いてデータを生成 スコアに基づくデータサンプリングに類似 -> Denoising
16 実験
/18 実験 17 ▪ ハイパラ等 • ステップ数:T = 1000 •
ノイズの強さ:𝛽! = 10"#,𝛽$ = 0.02 でその間の時刻に対し線形に補完 • ネットワーク構造:U-Net like,group norm,self-attention あり ▪ Datasets • CIFAR 10,LSUN,CelebA-HQ 256x 256
/18 生成画像の一例(LSUN) 18
/18 客観評価 19 Inception score や FID で GAN ≒
DDPM
/18 生成過程の可視化 20 ステップを重ねるにつれて CIFAR10 ぽい画像が生成できている
/18 21