Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FlowAR: Scale-wise Autoregressive Image Generat...

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Transcript

  1. M1 八島大地 FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

    Sucheng Ren1 Qihang Yu2 Ju He2 Xiaohui Shen2 Alan Yuille1 Liang-Chieh Chen2 1Johns Hopkins University 2ByteDance ICML2025 Ren, Sucheng, et al. “FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching.” Proceedings of the Forty-second International Conference on Machine Learning, 2025
  2. 概要 2 • 背景 • 画像生成におけるAutoregressiveモデルは2dの空間構造が失われる上に計算コストが大きい • Scale-wise ARモデルは複雑なscale設計および離散tokenizerに依存 •

    新規性 • 任意のoff-the-shelf tokenizerを使用可能なアーキテクチャ • 各Scaleを2倍になるように簡素化 • 結果 • ImageNet-256にて様々なモデルサイズでVARを一貫して上回る性能 • 異なるVAE Tokenizerに対する頑健性
  3. 背景: AR image generation models 3 • 画像生成をnext-image token predictionで定式化

    [Tian+, NeurIPS24] • Codebook を用いて画像を離散化 : 画像エンコーダ : 量子化器 : 語彙サイズ
  4. 背景: AR image generation models 4 • 画像生成をnext-image token predictionで定式化

    [Tian+, NeurIPS24]  量子化器(e.g., VQ-VAE)の特徴はbidirectionalである ため,ARの仮定と矛盾  Flattenによる空間近傍(e.g., ) の 局所性が崩れる  画像の系列長 に対して の計算量 Next-image token prediction → Next-scale prediction
  5. 背景: Visual autoregressive modeling (VAR) 5 • 画像生成をnext-scale predictionで定式化 [Tian+,

    NeurIPS24] • k stepの生成時に並列に tokenを出力  VARの前提: multi-scale VQ tokenizer の事前学習が必要  Scaleのハイパラ探索が必要(e.g., ) • Tokenizationはmulti-scale VQ で事前に構成
  6. FlowAR: Scale-wise AR Image Generation Model 6  Multi-scale VQ

    tokenizer の事前学習が必要 → ☺ Off-the-shelfのVAEで学習可能  Scaleのハイパラ探索が必要(e.g., ) → ☺ 各scaleを2倍になるように簡素化
  7. • を基準に2の冪乗で順にdownsampleすることで 各scaleの潜在特徴 を生成 提案手法: off-the-shelf VAE tokenization 8 •

    事前学習済みの任意のVAEを用いて画像を 連続潜在空間に変換 ☺ VQのような専用のmulti-scale tokenizerを学習せず 連続潜在を単にdownsampleすることで coarse-to-fineな特徴量を構成可能
  8. 提案手法: Scale-wise AR generation 9 • Scale においてcondition token [C]

    および,2倍にupscaleされた過去 トークンを入力としARに を出力 • HeadにSpatial-AdaLNで をconditioningし, Flow matchingで学習 : Transformer
  9. 実験設定 10 • タスク: クラスラベルに基づく画像生成 • ImageNet-256 • 評価指標: FID,

    IS, Precision, Recall • 学習時間: 記載なし • 学習環境: 記載なし
  10. まとめ 13 • 背景 • 画像生成におけるAutoregressiveモデルは2dの空間構造が失われる上に計算コストが大きい • Scale-wise ARモデルは複雑なスケール設計および離散tokenizerに依存 •

    新規性 • 任意のoff-the-shelf tokenizerを使用可能なアーキテクチャ • 各Scaleを2倍になるように簡素化 • 結果 • ImageNet-256にて様々なモデルサイズでVARを一貫して上回る性能 • 異なるVAE Tokenizerに対する頑健性