Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]ConsistencyModels
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
430
0
Share
[Journal Club]ConsistencyModels
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
110
A Gentle Introduction to Transformers
keio_smilab
PRO
5
2.5k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
39
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
100
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
160
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
120
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
400
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
250
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
66
Other Decks in Technology
See All in Technology
PostgreSQL 18のNOT ENFORCEDな制約とDEFERRABLEの関係
yahonda
0
160
Podcast配信で広がったアウトプットの輪~70人と音声発信してきた7年間~/outputconf_01
fortegp05
0
180
MCPで決済に楽にする
mu7889yoon
0
170
Sansanの認証基盤を支えるアーキテクチャとその振り返り
sansantech
PRO
1
140
スクラムを支える内部品質の話
iij_pr
0
150
AIエージェント勉強会第3回 エージェンティックAIの時代がやってきた
ymiya55
0
180
Kiro Meetup #7 Kiro アップデート (2025/12/15〜2026/3/20)
katzueno
2
280
マルチモーダル非構造データとの闘い
shibuiwilliam
1
130
「活動」は激変する。「ベース」は変わらない ~ 4つの軸で捉える_AI時代ソフトウェア開発マネジメント
sentokun
0
140
LLMに何を任せ、何を任せないか
cap120
11
6.8k
スケーリングを封じられたEC2を救いたい
senseofunity129
0
130
パワポ作るマンをMCP Apps化してみた
iwamot
PRO
0
270
Featured
See All Featured
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.5k
Accessibility Awareness
sabderemane
0
88
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
160
Measuring & Analyzing Core Web Vitals
bluesmoon
9
800
Leo the Paperboy
mayatellez
6
1.6k
Un-Boring Meetings
codingconduct
0
250
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
290
So, you think you're a good person
axbom
PRO
2
2k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
240
Site-Speed That Sticks
csswizardry
13
1.1k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Transcript
Consistency Models Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever,
OpenAI, 2023 慶應義塾大学 杉浦孔明研究室 飯岡雄偉 Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. arXiv preprint arXiv:2303.01469.
概要 背景 提案手法 結果 まとめ 概要:Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…) ⚫
多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 背景:拡散モデルの成功と計算コスト 様々な分野で成功を収めている 拡散モデルの概要
⚫ 徐々にノイズを加える拡散過程 ⚫ 徐々にノイズを減らす逆拡散過程 • おおよそ1000~2000-step ⚫ 画像等に対して、より精微な理解 計算コストが膨大 ⚫ 1-step model × 20~1000 @LeonardoAi_ @akamikeb
概要 背景 提案手法 結果 まとめ 関連研究:拡散モデルとその蒸留モデル 手法 内容 DDPM[Ho+, NeurIPS20]
• 拡散モデルによって、高性能な画像生成を可能に • 複数ステップにより、計算量が膨大 PD[Salimans&Ho+, ICLR22] • N-stepの生成モデルをN/2-stepに蒸留 → 4-stepへ • まだ計算コストが高く、性能が拡散モデルと比較して不十分 DDPM[Ho+, NeurIPS20] PD[Salimans&Ho+, ICLR22]
概要 背景 提案手法 結果 まとめ 提案手法:Consistency Modelの概要 「1-stepでの生成 +
反復的なサンプリング」を行うモデル 理想的にはどのノイズレベルからでも画像を復元させる ⚫ Probability Flow ODE(直訳:確率的常時微分方程式)から原点を求めることで可能に
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル Score-based generative models
⚫ スコア関数(入力 に関する確率密度関数の予測勾配)を最適化することで求める • ランダムウォークの方向をデータとして「自然な方向」に制御する • 例: スコア関数 ランジュバンダイナミクスを表す確率微分方程式 より自然な を生成 「真の」スコア関数
概要 背景 提案手法 結果 まとめ 事前知識:スコアベースの生成モデル スコアマッチング ⚫ 真のスコア関数を導くのは難しい(確率密度関数が未知なことがほとんど)
⚫ [Vincent, 2011]では、Denoising Score Matching; DSMが提唱 微小のガウシアンノイズを加えて差を計算 ガウシアン分布における 真のスコア関数 詳細はAppendixへ
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルからの流れ 拡散モデルはスコアベースモデルといえる[Song+, ICLR21] ⚫
PF ODEで拡散モデルは表現できる(証明は[Song+, ICLR21]参照) ここからこのODEを解いて、2つのモードで学習を行う ⚫ ①事前学習された拡散モデルの蒸留、②Consistency modelのみでの訓練 簡単にするために 簡単にするために Empirical PF ODE
概要 背景 提案手法 結果 まとめ 提案手法:拡散モデルにおける蒸留モデル EDM[Karras+, NeurIPS22]という既存のスコアベースモデルを蒸留
PF ODEをODE solverで解き、1-step分がdenoiseされた も入力 ⚫ ODE solverでは近似解を求めることができる この2つの距離を近づけるように学習 距離にはL1, L2, LPIPS[Zhang+, CVPR18]を利用 詳しい説明はAppendix
概要 背景 提案手法 結果 まとめ 提案手法:Consistency modelのみでの学習 EDMのスコア関数を用いる
スコア関数の簡略化→Empirical PF ODEへ ⚫ 微分 ⚫ 積分らしいことを1回 ⚫ の利用 ⚫ 変形 ⚫ ベイズの定理 ⚫ 期待値計算、最後はAppendixへ
概要 背景 提案手法 結果 まとめ 実験設定 データセット ⚫ CIFAR-10,
ImageNet 64×64, LSUN Bedroom 256×256, LSUN Cat 256×256 評価指標 ⚫ NFE:何ステップの処理か、FID:画像の分布距離、IS:多様性と質を評価 学習環境 ⚫ A100のクラスタを使っている、との記載のみ ⚫ 実際にコードを見ると、8個のGPUで訓練が行われていそう
概要 背景 提案手法 結果 まとめ 定量的結果:既存の蒸留手法を上回り、拡散モデルに近づく CD: 蒸留モード
CT: 単独での学習 NFEとその他の指標との トレードオフ ⚫ その中でも提案手法は影響 を受けづらい 手法 NFE(↓) FID(↓) IS(↑) DDPM[Ho+, NeurIPS20] 1000 3.17 9.46 EDM[Karras+, NeurIPS22] 36 2.04 9.84 PD[Salimans&Ho+, ICLR22] 1 8.34 8.69 CD 1 3.55 9.48 CD 2 2.93 9.75 CT 1 8.70 8.49
概要 背景 提案手法 結果 まとめ 定性的結果:少ないステップで精微な画像の生成 少ないステップで同等の性能 EDM(36-step) CT(1-step)
CT(2-step) 制約の多いimg2imgで有用
概要 背景 提案手法 結果 まとめ まとめ: Consistency Models 拡散モデルの顕著な成功(画像生成、音声合成、…)
⚫ 多段階で反復的なdenoisingを行う = 計算コストの増大 ⚫ 従来の1-stepでの生成モデル(GAN, VAE, …)よりも10~2000倍の計算コスト Consitency Modelの提案 ⚫ 「拡散モデルの特徴 + 1-stepでの画像生成」を目指す2つのアプローチ • 事前学習された拡散モデルの蒸留、Consistency modelのみでの訓練 結果 ⚫ 既存の蒸留手法を上回る & ノイズレベルに左右されにくく一貫した生成を可能に
概要 背景 提案手法 結果 まとめ 所感 Strength ⚫ どうしてもボトルネックとなる拡散モデルの計算コストを急速に落としたところが面白い
⚫ 比較実験もかなり行われていて、信頼性が高い Weakenesses ⚫ 他の拡散モデルに合わせているためか、解像度の低いデータセットが使われている点 動作確認 ⚫ CUDA11.7以上が必須だったので環境構築まではしたが、時間の都合で至らなかった
概要 背景 提案手法 結果 まとめ Appendix:スコア関数の簡略化 正規分布に従うため成り立つ