Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]ConsistencyModels
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
450
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal Club]ConsistencyModels
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
38
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
97
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
190
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
1.1k
Snowflakeと仲良くなる第一歩
coco_se
4
440
20260619 私の日常業務での生成 AI 活用
masaruogura
1
180
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
240
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
5
1.4k
AIはどのように 組織のアジリティを変えるのか?
junki
2
670
Bedrock AgentCore RuntimeでAuth0 Changelog調査AIをアップグレードした話
t5u8a5a
1
110
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
160
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
110
自宅LLMの話
jacopen
1
520
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
1
120
Featured
See All Featured
BBQ
matthewcrist
89
10k
How to Talk to Developers About Accessibility
jct
2
230
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Building AI with AI
inesmontani
PRO
1
1.1k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Raft: Consensus for Rubyists
vanstee
141
7.5k
4 Signs Your Business is Dying
shpigford
187
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Transcript
Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,
OpenAI, 2023 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.
概要 背景 提案手法 結果 まとめ 概要:Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…) ⚫
多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 背景:拡散モデルの成功と計算コスト 様々な分野で成功を収めている 拡散モデルの概要
⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解 計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb
概要 背景 提案手法 結果 まとめ 関連研究:拡散モデルとその蒸留モデル 手法 内容 DDPM[Ho+, NeurIPS20]
• 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]
概要 背景 提案手法 結果 まとめ 提案手法:Consistency Modelの概要 「1-stepでの生成 +
反復的なサンプリング」を行うモデル 理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE(直訳:確率的常時微分方程式)から原点を求めることで可能に
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル Score-based generative models
⚫ スコア関数(入力 に関する確率密度関数の予測勾配)を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例: スコア関数 ランジュバンダイナミクスを表す確率微分方程式 より自然な を生成 「真の」スコア関数
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル スコアマッチング ⚫ 真のスコア関数を導くのは難しい(確率密度関数が未知なことがほとんど)
⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱 微小のガウシアンノイズを加えて差を計算 ガウシアン分布における 真のスコア関数 詳細はAppendixへ
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルからの流れ 拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫
PF ODEで拡散モデルは表現できる(証明は[Song+, ICLR21]参照) ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練 簡単にするために 簡単にするために Empirical PF ODE
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルにおける蒸留モデル EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留
PF ODEをODE solverで解き、1-step分がdenoiseされた も入力 ⚫ ODE solverでは近似解を求めることができる この2つの距離を近づけるように学習 距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用 詳しい説明はAppendix
概要 背景 提案手法 結果 まとめ 提案手法:Consistency modelのみでの学習 EDMのスコア関数を用いる
スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ
概要 背景 提案手法 結果 まとめ 実験設定 データセット ⚫ CIFAR-10,
ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256 評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価 学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう
概要 背景 提案手法 結果 まとめ 定量的結果:既存の蒸留手法を上回り、拡散モデルに近づく CD: 蒸留モード
CT: 単独での学習 NFEとその他の指標との トレードオフ ⚫ その中でも提案手法は影響 を受けづらい 手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49
概要 背景 提案手法 結果 まとめ 定性的結果:少ないステップで精微な画像の生成 少ないステップで同等の性能 EDM(36-step) CT(1-step)
CT(2-step) 制約の多いimg2imgで有用
概要 背景 提案手法 結果 まとめ まとめ: Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…)
⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 所感 Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い
⚫ 比較実験もかなり行われていて、信頼性が高い Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点 動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった
概要 背景 提案手法 結果 まとめ Appendix:スコア関数の簡略化 正規分布に従うため成り立つ