Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]ConsistencyModels
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
450
0
Share
[Journal Club]ConsistencyModels
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
29
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
90
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
77
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
84
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
150
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.6k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
52
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Unlocking the Apps
pimterry
0
120
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
130
APIテストとは?
nagix
0
160
権限管理設計を完全に理解した
rsugi
2
240
Spring Boot における AOT Cache 活用テクニックと 起動時間改善事例
ntt_dsol_java
0
180
Dynamic Workersについて
yusukebe
2
500
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
270
JEP 522 Deep Dive - G1 GC同期コスト削減によるスループット向上を徹底検証&解説
tabatad
1
440
なぜハノーバーメッセに行くべきなのか 〜初参加だから語れること〜
tanakaseiya
0
180
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
190
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
350
OpenID Connectによるサービス間連携
takesection
0
150
Featured
See All Featured
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
BBQ
matthewcrist
89
10k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
240
Done Done
chrislema
186
16k
Typedesign – Prime Four
hannesfritz
42
3.1k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Designing Powerful Visuals for Engaging Learning
tmiket
1
390
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
190
4 Signs Your Business is Dying
shpigford
187
22k
Into the Great Unknown - MozCon
thekraken
41
2.5k
Transcript
Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,
OpenAI, 2023 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.
概要 背景 提案手法 結果 まとめ 概要:Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…) ⚫
多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 背景:拡散モデルの成功と計算コスト 様々な分野で成功を収めている 拡散モデルの概要
⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解 計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb
概要 背景 提案手法 結果 まとめ 関連研究:拡散モデルとその蒸留モデル 手法 内容 DDPM[Ho+, NeurIPS20]
• 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]
概要 背景 提案手法 結果 まとめ 提案手法:Consistency Modelの概要 「1-stepでの生成 +
反復的なサンプリング」を行うモデル 理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE(直訳:確率的常時微分方程式)から原点を求めることで可能に
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル Score-based generative models
⚫ スコア関数(入力 に関する確率密度関数の予測勾配)を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例: スコア関数 ランジュバンダイナミクスを表す確率微分方程式 より自然な を生成 「真の」スコア関数
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル スコアマッチング ⚫ 真のスコア関数を導くのは難しい(確率密度関数が未知なことがほとんど)
⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱 微小のガウシアンノイズを加えて差を計算 ガウシアン分布における 真のスコア関数 詳細はAppendixへ
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルからの流れ 拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫
PF ODEで拡散モデルは表現できる(証明は[Song+, ICLR21]参照) ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練 簡単にするために 簡単にするために Empirical PF ODE
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルにおける蒸留モデル EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留
PF ODEをODE solverで解き、1-step分がdenoiseされた も入力 ⚫ ODE solverでは近似解を求めることができる この2つの距離を近づけるように学習 距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用 詳しい説明はAppendix
概要 背景 提案手法 結果 まとめ 提案手法:Consistency modelのみでの学習 EDMのスコア関数を用いる
スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ
概要 背景 提案手法 結果 まとめ 実験設定 データセット ⚫ CIFAR-10,
ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256 評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価 学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう
概要 背景 提案手法 結果 まとめ 定量的結果:既存の蒸留手法を上回り、拡散モデルに近づく CD: 蒸留モード
CT: 単独での学習 NFEとその他の指標との トレードオフ ⚫ その中でも提案手法は影響 を受けづらい 手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49
概要 背景 提案手法 結果 まとめ 定性的結果:少ないステップで精微な画像の生成 少ないステップで同等の性能 EDM(36-step) CT(1-step)
CT(2-step) 制約の多いimg2imgで有用
概要 背景 提案手法 結果 まとめ まとめ: Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…)
⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 所感 Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い
⚫ 比較実験もかなり行われていて、信頼性が高い Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点 動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった
概要 背景 提案手法 結果 まとめ Appendix:スコア関数の簡略化 正規分布に従うため成り立つ