[Journal Club]ConsistencyModels

Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,
OpenAI, 2023 慶應義塾大学杉浦孔明研究室飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.

概要背景提案手法結果まとめ概要：Consistency Models  拡散モデルの顕著な成功（画像生成、音声合成、…） ⚫
多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル（GAN, VAE, …）よりも10~2000倍の計算コスト  Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練  結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に

概要背景提案手法結果まとめ背景：拡散モデルの成功と計算コスト  様々な分野で成功を収めている  拡散モデルの概要
⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解  計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb

概要背景提案手法結果まとめ関連研究：拡散モデルとその蒸留モデル手法内容 DDPM[Ho+, NeurIPS20]
• 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]

概要背景提案手法結果まとめ提案手法：Consistency Modelの概要  「1-stepでの生成＋
反復的なサンプリング」を行うモデル  理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE（直訳：確率的常時微分方程式）から原点を求めることで可能に

概要背景提案手法結果まとめ事前知識：スコアベースの生成モデル  Score-based generative models
⚫ スコア関数（入力に関する確率密度関数の予測勾配）を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例：スコア関数ランジュバンダイナミクスを表す確率微分方程式より自然なを生成「真の」スコア関数

概要背景提案手法結果まとめ事前知識：スコアベースの生成モデル  スコアマッチング ⚫ 真のスコア関数を導くのは難しい（確率密度関数が未知なことがほとんど）
⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱微小のガウシアンノイズを加えて差を計算ガウシアン分布における真のスコア関数詳細はAppendixへ

概要背景提案手法結果まとめ提案手法：拡散モデルからの流れ  拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫
PF ODEで拡散モデルは表現できる（証明は[Song+, ICLR21]参照）  ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練簡単にするために簡単にするために Empirical PF ODE

概要背景提案手法結果まとめ提案手法：拡散モデルにおける蒸留モデル  EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留 
PF ODEをODE solverで解き、1-step分がdenoiseされたも入力 ⚫ ODE solverでは近似解を求めることができるこの2つの距離を近づけるように学習距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用詳しい説明はAppendix

概要背景提案手法結果まとめ提案手法：Consistency modelのみでの学習  EDMのスコア関数を用いる 
スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ

概要背景提案手法結果まとめ実験設定  データセット ⚫ CIFAR-10,
ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256  評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価  学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう

概要背景提案手法結果まとめ定量的結果：既存の蒸留手法を上回り、拡散モデルに近づく  CD: 蒸留モード 
CT: 単独での学習  NFEとその他の指標とのトレードオフ ⚫ その中でも提案手法は影響を受けづらい手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49

概要背景提案手法結果まとめ定性的結果：少ないステップで精微な画像の生成  少ないステップで同等の性能 EDM(36-step) CT(1-step)
CT(2-step)  制約の多いimg2imgで有用

概要背景提案手法結果まとめまとめ： Consistency Models  拡散モデルの顕著な成功（画像生成、音声合成、…）
⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル（GAN, VAE, …）よりも10~2000倍の計算コスト  Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練  結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に

概要背景提案手法結果まとめ所感  Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い
⚫ 比較実験もかなり行われていて、信頼性が高い  Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点  動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった

概要背景提案手法結果まとめ Appendix：スコア関数の簡略化正規分布に従うため成り立つ

[Journal Club]ConsistencyModels

[Journal Club]ConsistencyModels

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,

概要背景提案手法結果まとめ概要：Consistency Models  拡散モデルの顕著な成功（画像生成、音声合成、…） ⚫

概要背景提案手法結果まとめ背景：拡散モデルの成功と計算コスト  様々な分野で成功を収めている  拡散モデルの概要

概要背景提案手法結果まとめ関連研究：拡散モデルとその蒸留モデル手法内容 DDPM[Ho+, NeurIPS20]

概要背景提案手法結果まとめ提案手法：Consistency Modelの概要  「1-stepでの生成＋

概要背景提案手法結果まとめ事前知識：スコアベースの生成モデル  Score-based generative models

概要背景提案手法結果まとめ事前知識：スコアベースの生成モデル  スコアマッチング ⚫ 真のスコア関数を導くのは難しい（確率密度関数が未知なことがほとんど）

概要背景提案手法結果まとめ提案手法：拡散モデルからの流れ  拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫

概要背景提案手法結果まとめ提案手法：拡散モデルにおける蒸留モデル  EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留 

概要背景提案手法結果まとめ提案手法：Consistency modelのみでの学習  EDMのスコア関数を用いる 

概要背景提案手法結果まとめ実験設定  データセット ⚫ CIFAR-10,

概要背景提案手法結果まとめ定量的結果：既存の蒸留手法を上回り、拡散モデルに近づく  CD: 蒸留モード 

概要背景提案手法結果まとめ定性的結果：少ないステップで精微な画像の生成  少ないステップで同等の性能 EDM(36-step) CT(1-step)

概要背景提案手法結果まとめまとめ： Consistency Models  拡散モデルの顕著な成功（画像生成、音声合成、…）

概要背景提案手法結果まとめ所感  Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い

概要背景提案手法結果まとめ Appendix：スコア関数の簡略化正規分布に従うため成り立つ