Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]ConsistencyModels

[Journal Club]ConsistencyModels

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,

    OpenAI, 2023 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.
  2. 概要 背景 提案手法 結果 まとめ 概要:Consistency Models  拡散モデルの顕著な成功(画像生成、音声合成、…) ⚫

    多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト  Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練  結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
  3. 概要 背景 提案手法 結果 まとめ 背景:拡散モデルの成功と計算コスト  様々な分野で成功を収めている  拡散モデルの概要

    ⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解  計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb
  4. 概要 背景 提案手法 結果 まとめ 関連研究:拡散モデルとその蒸留モデル 手法 内容 DDPM[Ho+, NeurIPS20]

    • 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]
  5. 概要 背景 提案手法 結果 まとめ 提案手法:Consistency Modelの概要  「1-stepでの生成 +

    反復的なサンプリング」を行うモデル  理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE(直訳:確率的常時微分方程式)から原点を求めることで可能に
  6. 概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル  Score-based generative models

    ⚫ スコア関数(入力 に関する確率密度関数の予測勾配)を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例: スコア関数 ランジュバンダイナミクスを表す確率微分方程式 より自然な を生成 「真の」スコア関数
  7. 概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル  スコアマッチング ⚫ 真のスコア関数を導くのは難しい(確率密度関数が未知なことがほとんど)

    ⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱 微小のガウシアンノイズを加えて差を計算 ガウシアン分布における 真のスコア関数 詳細はAppendixへ
  8. 概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルからの流れ  拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫

    PF ODEで拡散モデルは表現できる(証明は[Song+, ICLR21]参照)  ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練 簡単にするために 簡単にするために Empirical PF ODE
  9. 概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルにおける蒸留モデル  EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留 

    PF ODEをODE solverで解き、1-step分がdenoiseされた も入力 ⚫ ODE solverでは近似解を求めることができる この2つの距離を近づけるように学習 距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用 詳しい説明はAppendix
  10. 概要 背景 提案手法 結果 まとめ 提案手法:Consistency modelのみでの学習  EDMのスコア関数を用いる 

    スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ
  11. 概要 背景 提案手法 結果 まとめ 実験設定  データセット ⚫ CIFAR-10,

    ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256  評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価  学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう
  12. 概要 背景 提案手法 結果 まとめ 定量的結果:既存の蒸留手法を上回り、拡散モデルに近づく  CD: 蒸留モード 

    CT: 単独での学習  NFEとその他の指標との トレードオフ ⚫ その中でも提案手法は影響 を受けづらい 手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49
  13. 概要 背景 提案手法 結果 まとめ まとめ: Consistency Models  拡散モデルの顕著な成功(画像生成、音声合成、…)

    ⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト  Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練  結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
  14. 概要 背景 提案手法 結果 まとめ 所感  Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い

    ⚫ 比較実験もかなり行われていて、信頼性が高い  Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点  動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった