Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Improved Mean Flows: On the Chal...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 杉浊孔明研究宀 効尟幞暹 Improved Mean Flows: On the Challenges of Fastforward

    Generative Models Zhengyang Geng1,2,3,* Yiyang Lu4,2,∗ Zongze Wu3 Eli Shechtman3 J. Zico Kolter1 Kaiming He2 1CMU 2MIT 3Adobe 4THU Geng, Z., Lu, Y., Wu, Z., Shechtman, E., Kolter, J. Z., & He, K. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models. arXiv preprint arXiv:2512.02012, 2025
  2. 抂芁 2 ▪ 背景Mean Flows J 1-NFEで⟌品質な✣成 L 数匏に粗い近䌌が存圚 ▪

    提案Improved Mean Flows J Mean Flows における数匏的な問題を改善 J 柔軟な Classifier Free Guidance J in-context conditioning による軜量化 ▪ 結果 J 1-NFE で倚くの Multi-NFE モデルを䞊回る
  3. 背景Mean Flows の数匏は䞍正確 3 ▪ 拡散モデルや Flow Matching は⟌性胜だが蚈算コストが⟌い ▪

    ODE を解く際に倚くの NFE が必芁 ▪ {1, few}-NFEのモデルが台頭 ▪ Mean Flows [Geng+, NeurIPS25] ▪ 瞬間速床ではなく平均速床を予枬 J 1-NFE で⟌品質な✣成が可胜 L GTの蚈算が困難 ▪ 䞍正確な近䌌埌述 MoFlow [Fu+, CVPR25] Mean Flows [Geng+, NeurIPS25] Mean Flows [Geng+, NeurIPS25] 𝑧! 時刻 𝜏 におけるノむズ付きデヌタ, 𝑡, 𝑟時刻
  4. 関連研究Mean Flows の改善 4 ⌿法 特城 AlphaFlow [Zhang+, 25] Flow

    Matching から MeanFlow ぞ段階的に移⟏する カリキュラム孊習⌿法 Decoupled MeanFlow [Lee+, 25] 事前孊習枈み Flow Matching モデルを fine-tuning しお MeanFlow モデルぞ倉換 CMT [Hu+, 25] 事前孊習ず事埌孊習の間に⌀貫性損倱を✀いた䞭間孊習を導⌊ 事埌孊習における MeanFlow モデルの性胜が向䞊 Decoupled Meanflow [Lee+, 25] AlphaFlow [Zhang+, 25]
  5. ▪ モデルは任意の時刻 𝑟 から任意の時刻 𝑡 ぞの平均速床を予枬 1ステップ✣成も可胜𝑟 = 0, 𝑡

    = 1 ▪ 損倱関数 前提1/2: Mean Flows抂芁 5 𝑡, 𝑟 ∈ [0, 1] 𝑥~𝑝!"#" 𝑒~𝑝$%&'% (e.g. ガりス分垃 ) 𝑢( ニュヌラルネットワヌク sg ・ ïž“stop gradient JVP ・ ïž“Jacobian Vector Product Mean Flows [Geng+, NeurIPS25]
  6. 前提2/2: Mean Flows導出・問題点 6 𝑢 𝑧&, 𝑟, 𝑡 + 𝑡

    − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& 𝑑 𝑑𝑡 𝑡 − 𝑟 𝑢 𝑧&, 𝑟, 𝑡 = 𝑑 𝑑𝑡 - ' & 𝑣 𝑧( 𝑑𝜏 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& − 𝑡 − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 , where 積の埮分 ⟹ ⟹ ⟹ ∎ 𝑧" 𝑥 𝑒 𝑡 − 𝑟 を掛けた埌𝑡 で埮分
  7. 前提2/2: Mean Flows導出・問題点 7 𝑢 𝑧&, 𝑟, 𝑡 + 𝑡

    − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& 𝑑 𝑑𝑡 𝑡 − 𝑟 𝑢 𝑧&, 𝑟, 𝑡 = 𝑑 𝑑𝑡 - ' & 𝑣 𝑧( 𝑑𝜏 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& − 𝑡 − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 , where 積の埮分 = 𝑒 − 𝑥, 0, 1 / 𝜕# , 𝜕$ , 𝜕" 𝑢 = 𝑒 − 𝑥 / 𝜕# 𝑢 + 0 / 𝜕$ 𝑢 + 1 / 𝜕" 𝑢 J JVPを✀いお蚈算可胜 𝑑 𝑑𝑡 𝑢 𝑧" , 𝑟, 𝑡 = 𝑑𝑧" 𝑑𝑡 𝜕# 𝑢 + 𝑑𝑟 𝑑𝑡 𝜕$ 𝑢 + 𝑑𝑡 𝑑𝑡 𝜕" 𝑢 ⟹ ⟹ ⟹ ∎ 𝑧" 𝑥 𝑒 𝑡 − 𝑟 を掛けた埌𝑡 で埮分
  8. 前提2/2: Mean Flows導出・問題点 8 𝑢 𝑧&, 𝑟, 𝑡 + 𝑡

    − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& 𝑑 𝑑𝑡 𝑡 − 𝑟 𝑢 𝑧&, 𝑟, 𝑡 = 𝑑 𝑑𝑡 - ' & 𝑣 𝑧( 𝑑𝜏 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& − 𝑡 − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 , where 積の埮分 = 𝑒 − 𝑥, 0, 1 / 𝜕# , 𝜕$ , 𝜕" 𝑢 = 𝑒 − 𝑥 / 𝜕# 𝑢 + 0 / 𝜕$ 𝑢 + 1 / 𝜕" 𝑢 J JVPを✀いお蚈算可胜 𝑑 𝑑𝑡 𝑢 𝑧" , 𝑟, 𝑡 = 𝑑𝑧" 𝑑𝑡 𝜕# 𝑢 + 𝑑𝑟 𝑑𝑡 𝜕$ 𝑢 + 𝑑𝑡 𝑑𝑡 𝜕" 𝑢 ⟹ ⟹ ⟹ ∎ L 問題① 𝑧" 𝑥 𝑒 𝑡 − 𝑟 を掛けた埌𝑡 で埮分 𝒗 𝒛𝒕 𝒆 − 𝒙 L 問題② L Marginal Velocity を Conditional Velocity で近䌌
  9. 提案⌿法 (1/4) : 𝒗-𝐥𝐚𝐬𝐬 (平均速床ではなく瞬間速床を回垰) 9 ▪ 𝒖-𝐥𝐚𝐬𝐬 ▪ 𝒗-𝐥𝐚𝐬𝐬

    ⇔ , where L GTの蚈算が困難 J 瞬間速床を回垰 𝑣 𝑧& = 𝑢 𝑧& , 𝑟, 𝑡 + 𝑡 − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧& , 𝑟, 𝑡 𝑢 𝑧&, 𝑟, 𝑡 = 𝑣 𝑧& − 𝑡 − 𝑟 𝑑 𝑑𝑡 𝑢 𝑧&, 𝑟, 𝑡 ∎ 𝑢454
  10. 提案⌿法 (2/4) : JVPぞの䞍適切な⌊⌒を改善 10 ▪ Mean Flows (MF) ▪

    Improved Mean Flows (iMF) = 𝑒 − 𝑥, 0, 1 / 𝜕# , 𝜕$ , 𝜕" 𝑢 = 𝑒 − 𝑥 / 𝜕# 𝑢 + 0 / 𝜕$ 𝑢 + 1 / 𝜕" 𝑢 再掲: Marginal Velocity を Conditional Velocity で近䌌 𝑑 𝑑𝑡 𝑢 𝑧" , 𝑟, 𝑡 = 𝑑𝑧" 𝑑𝑡 𝜕# 𝑢 + 𝑑𝑟 𝑑𝑡 𝜕$ 𝑢 + 𝑑𝑡 𝑑𝑡 𝜕" 𝑢 L 䞍適切な近䌌 (𝑢6 ; 𝑣6 ) , where 𝑣6 (𝑧4 , 𝑡) = 𝑢6 (𝑧4 , 𝑡, 𝑡) L MFの損倱は増加
  11. 提案⌿法 (3/4) : 掚論時にパラメヌタを決定可胜なCFG 11 ▪ 前提: Classifier Free Guidance

    (CFG) J 掚論時に条件⌊⌒{有, 無}のモデルの重みづけ和を✀いお性胜向䞊 ▪ Mean FlowsにおけるCFG ▪ Flexible Guidance (𝜔 を条件ずしお⌊⌒) J 掚論時に 𝜔 を決定可胜な柔軟な蚭蚈 & 𝑣# 𝑧$ , 𝑡 𝑐) = 1 + 𝜔 𝑣% 𝑧$ , 𝑡| 𝑐 − 𝜔 𝑣% 𝑧$ , 𝑡 𝜙) & 𝑣$ = 𝜔 𝑒 − 𝑥 − 1 − 𝜔 𝑢 # &'( 𝑧, 𝑡, 𝑡 where 𝑢)() &'( = & 𝑣$ − 𝑡 − 𝑟 JVP(𝑢 # &'(; & 𝑣$ ) , − sg 𝑢!"! #$" , 𝑐条件 𝜙無条件 𝜔ガむダンススケヌル L 蚓緎時に 𝜔 を蚭定 < | 𝑐, ω 𝑧$ | 𝑐, ω
  12. 提案⌿法 (4/4) : In-context Conditioning による軜量化 12 ▪ 前提DiT アヌキテクチャ

    ▪ 条件は AdaLN-zero で凊理 ▪ 党おの条件を単に⟜しおいる L 耇数条件を適切に扱えない L パラメヌタ数が倚い n 他の条件付けは性胜が䞍⌗分 ▪ Improved In-context Conditioning ▪ 条件をノむズに concat しお DiT に⌊⌒ J 条件のトヌクン数を耇数個にするこずで実✀可胜に (class token: 8, その他: 4) J AdaLN-zero を取り陀いお33%軜量化 (e.g. 133M → 89M) DiT [Peebles+, ICCV23]
  13. 提案⌿法 (4/4) : In-context Conditioning による軜量化 13 ▪ 前提DiT アヌキテクチャ

    ▪ 条件は AdaLN-zero で凊理 ▪ 党おの条件を単に⟜しおいる L 耇数条件を適切に扱えない L パラメヌタ数が倚い n 他の条件付けは性胜が䞍⌗分 ▪ Improved In-context Conditioning ▪ 条件をノむズに concat しお Transformer に⌊⌒ J 条件のトヌクン数を耇数個にするこずで実✀可胜に (class token: 8, その他: 4) J AdaLN-zero を取り陀いお軜量化 (e.g. 133M → 89M) DiT [Peebles+, ICCV23] AdaLN-zero Cross-Attn In-context Conditioning
  14. 提案⌿法 (4/4) : In-context Conditioning による軜量化 14 ▪ 前提DiT アヌキテクチャ

    ▪ 条件は AdaLN-zero で凊理 ▪ 党おの条件を単に⟜しおいる L 耇数条件を適切に扱えない L パラメヌタ数が倚い n 他の条件付けは性胜が䞍⌗分 ▪ Improved In-context Conditioning ▪ 条件をノむズに concat しお DiT に⌊⌒ J 条件のトヌクン数を耇数個にするこずで実✀可胜に (class token: 8, その他: 4) J AdaLN-zero を取り陀いお33%軜量化 (e.g. 133M → 89M) DiT [Peebles+, ICCV23]
  15. 実隓蚭定 15 ▪ タスククラスラベルに基づく画像✣成 ▪ デヌタセットImageNet256x256 ▪ ✣成✅法 ▪ 朜圚空間で✣成

    (4x32x32) ▪ 事前孊習枈みのVAEを䜿✀ ▪ {1,2}-NFE ✣成 ▪ 評䟡指暙Fréchet Inception Distance (FID) ▪ ハヌドりェア構成蚘茉なし ▪ 蚓緎時間蚘茉なし
  16. 定量的結果1-NFE で倚くの Multi-NFE モデルを䞊回る 16 ▪ Multi-NFE モデルず✐范しお500~2000分の1の掚論回数だが性胜は同等 J scratch

    から蚓緎可胜=蒞留なしなので教垫モデルが䞍芁 ⟌品質だが 蚈算コストが⟌い L
  17. Ablation studies 17 J CFG (Flexible Guidance) を✀いるこずで性胜向䞊 J in-context

    conditioning により軜量化か぀性胜向䞊 ※ aux. head 
 𝑣% ✀の head を远加
  18. たずめ 19 ▪ 背景Mean Flows J 1-NFEで⟌品質な✣成 L 数匏に粗い近䌌が存圚 ▪

    提案Improved Mean Flows J Mean Flows における数匏的な問題を改善 J 柔軟な Classifier Free Guidance J in-context conditioning による軜量化 ▪ 結果 J 1-NFE で倚くの Multi-NFE モデルを䞊回る