౦େӃɾใཧ . தଜହو1Denoising DiffusionProbabilistic Models2022-03-24 @ Diffusion model 勉強会
View Slide
/18自己紹介2■ 中村泰貴(Taiki Nakamura)● 東大院情報理工 修士課程 2年○ 来年度から博士過程へ進学● 専門はテキスト音声合成や声質変換● 趣味は彫刻美術鑑賞と全国の寺社巡り
/18今日紹介する論文3■ Denoising Diffusion Probabilistic Models [Ho+, NeurIPS 2020]● 従来の Diffusion model の generator をいい感じに設計すると損失関数を簡単化できる● そうして得た損失関数は denoise score matching と同様の形になる● 結果的に GAN と同程度の画像を生成
4背景:Diffusion model
/18Diffusion model とは5マルコフ連鎖を用いて徐々にノイズを 付与 & 除去 する過程で実データとノイズの間の関係を学習Reverse diffusion process : ノイズから実データを生成する過程Forward diffusion process : 実データからノイズへ近づける過程
/18Forward diffusion process6マルコフ連鎖を用いて徐々にガウシアンノイズを付与する過程ステップごとのノイズの分散調整のためのハイパラ(時刻に対し単調増加) 各ステップはマルコフ連鎖標準正規分布 実データ分布どの時刻の確率変数も reparameterization trick を用いて閉じた形で表現できるForward diffusion process : 実データからノイズへ近づける過程
/18Reverse diffusion process7標準正規分布から実データへの生成過程:各ステップのモデルのパラメータを学習させる必要Reverse diffusion process : ノイズから実データを生成する過程標準正規分布 実データ分布各ステップを正規分布と仮定 & 平均と分散を学習対数周辺尤度の変分下限を最大化するようパラメータを学習(次ページに詳細)
/18Reverse diffusion process8損失関数を KL を項として含む式へ展開同時分布を展開(log ∏ -> ∑ log)t = 1 を ∑ の外へ𝑥!の条件として付与 & ベイズの定理𝑞 𝑥" 𝑥!と 𝑞(𝑥#|𝑥!) 以外相殺2つの正規分布の比較により閉形式で算出可能= 𝐿$%"
/18Reverse diffusion process9損失関数を KL を項として含む式へ展開したものForward process における事後分布を閉形式で表現(導出は省略)これを閉形式で表現すると各ステップの Forward process の事後分布と 𝒑 𝒙𝒕"𝟏 𝒙𝒕の KL divergence の総和を最小化を代入し整理
10提案手法
/18Reverse diffusion process の設計11各ステップの分散共分散行列は学習させない方が学習が安定し高性能 &いずれを試しても結果は変わらなかった
/18Reverse diffusion process の設計12各ステップの平均𝑳𝒕"𝟏をいい感じに整理分散固定のガウス分布同士の KL は 2つの平均の二乗誤差に相当(省略)学習する reverse process のガウス分布の平均Forward process の事後分布の平均これでも学習できるがさらに整理する
/18Reverse diffusion process の設計13𝑳𝒕"𝟏をさらにいい感じに整理を へ近づける問題になるためとすると 𝑳𝒕"𝟏はノイズの混ざった画像 と時刻から ノイズ を推定するよう学習ノイズの混ざった画像ノイズ
/18損失関数の単純化14先ほど導出した 𝑳𝒕"𝟏提案する単純化された損失関数係数を無視した方がサンプルの質が上がることが実験的にわかった(定性的な意味はよく理解できていない)提案する目的関数は上記であり 時刻 t をランダムにサンプリングして学習する
/18学習とサンプリング15Training学習データ & 時刻 & ノイズ をサンプリングして ノイズ を推定するタスクで学習Sampling標準正規分布からサンプリングし 学習した各ステップのモデル 𝒑𝜽を用いてデータを生成スコアに基づくデータサンプリングに類似-> Denoising
16実験
/18実験17■ ハイパラ等● ステップ数:T = 1000● ノイズの強さ:𝛽!= 10"#,𝛽$= 0.02 でその間の時刻に対し線形に補完● ネットワーク構造:U-Net like,group norm,self-attention あり■ Datasets● CIFAR 10,LSUN,CelebA-HQ 256x 256
/18生成画像の一例(LSUN)18
/18客観評価19Inception score や FID で GAN ≒ DDPM
/18生成過程の可視化20ステップを重ねるにつれて CIFAR10 ぽい画像が生成できている
/1821