Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]ConsistencyModels
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
420
[Journal Club]ConsistencyModels
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
42
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
0
280
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
160
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
31
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
64
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
91
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
150
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
84
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Agent Skillsがハーネスの垣根を超える日
gotalab555
5
3k
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
110
Amazon Quick Suite で始める手軽な AI エージェント
shimy
1
1.5k
MLflowダイエット大作戦
lycorptech_jp
PRO
1
160
ウェルネス SaaS × AI、1,000万ユーザーを支える 業界特化 AI プロダクト開発への道のり
hacomono
PRO
0
350
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
17
2.1k
New Relic 1 年生の振り返りと Cloud Cost Intelligence について #NRUG
play_inc
0
160
20251222_next_js_cache__1_.pdf
sutetotanuki
0
110
Connection-based OAuthから学ぶOAuth for AI Agents
flatt_security
0
250
AWS Security Agentの紹介/introducing-aws-security-agent
tomoki10
0
380
マイクロサービスへの5年間 ぶっちゃけ何をしてどうなったか
joker1007
17
7.4k
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
1.3k
Featured
See All Featured
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
290
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
160
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
180
A Modern Web Designer's Workflow
chriscoyier
698
190k
Claude Code のすすめ
schroneko
65
200k
How to build a perfect <img>
jonoalderson
0
4.6k
Six Lessons from altMBA
skipperchong
29
4.1k
Building AI with AI
inesmontani
PRO
1
560
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
70k
Designing for Timeless Needs
cassininazir
0
87
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
850
Transcript
Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,
OpenAI, 2023 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.
概要 背景 提案手法 結果 まとめ 概要:Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…) ⚫
多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 背景:拡散モデルの成功と計算コスト 様々な分野で成功を収めている 拡散モデルの概要
⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解 計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb
概要 背景 提案手法 結果 まとめ 関連研究:拡散モデルとその蒸留モデル 手法 内容 DDPM[Ho+, NeurIPS20]
• 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]
概要 背景 提案手法 結果 まとめ 提案手法:Consistency Modelの概要 「1-stepでの生成 +
反復的なサンプリング」を行うモデル 理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE(直訳:確率的常時微分方程式)から原点を求めることで可能に
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル Score-based generative models
⚫ スコア関数(入力 に関する確率密度関数の予測勾配)を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例: スコア関数 ランジュバンダイナミクスを表す確率微分方程式 より自然な を生成 「真の」スコア関数
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル スコアマッチング ⚫ 真のスコア関数を導くのは難しい(確率密度関数が未知なことがほとんど)
⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱 微小のガウシアンノイズを加えて差を計算 ガウシアン分布における 真のスコア関数 詳細はAppendixへ
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルからの流れ 拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫
PF ODEで拡散モデルは表現できる(証明は[Song+, ICLR21]参照) ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練 簡単にするために 簡単にするために Empirical PF ODE
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルにおける蒸留モデル EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留
PF ODEをODE solverで解き、1-step分がdenoiseされた も入力 ⚫ ODE solverでは近似解を求めることができる この2つの距離を近づけるように学習 距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用 詳しい説明はAppendix
概要 背景 提案手法 結果 まとめ 提案手法:Consistency modelのみでの学習 EDMのスコア関数を用いる
スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ
概要 背景 提案手法 結果 まとめ 実験設定 データセット ⚫ CIFAR-10,
ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256 評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価 学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう
概要 背景 提案手法 結果 まとめ 定量的結果:既存の蒸留手法を上回り、拡散モデルに近づく CD: 蒸留モード
CT: 単独での学習 NFEとその他の指標との トレードオフ ⚫ その中でも提案手法は影響 を受けづらい 手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49
概要 背景 提案手法 結果 まとめ 定性的結果:少ないステップで精微な画像の生成 少ないステップで同等の性能 EDM(36-step) CT(1-step)
CT(2-step) 制約の多いimg2imgで有用
概要 背景 提案手法 結果 まとめ まとめ: Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…)
⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 所感 Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い
⚫ 比較実験もかなり行われていて、信頼性が高い Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点 動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった
概要 背景 提案手法 結果 まとめ Appendix:スコア関数の簡略化 正規分布に従うため成り立つ