Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Muse: Text-To-Image Generation via Masked Generative Transformers

frkake
March 05, 2024

Muse: Text-To-Image Generation via Masked Generative Transformers

frkake

March 05, 2024
Tweet

More Decks by frkake

Other Decks in Research

Transcript

  1. 解説の流れ 1. Museの全体像 2. Museが利用している既存技術 - T5(テキストエンコーダ) - VQGAN(画像エンコーダ) -

    テクニカルなところの関連研究(一旦飛ばすかも) 3. 定性評価1 4. 対戦相手 - DALL-E2 - Imagen - Parti - Stable Diffusion v1.4 5. 定性評価2 6. 評価指標 - FID - CLIP Score - (Human Evaluation) 7. 雑多な話題 8. まとめ
  2. Museの全体像 データ 学習:Imagenと同じ(900M) 評価:CC3M, COCO 対戦相手 • DALL-E2 • Imagen

    • Parti • Stable Diffusion v1.4 評価指標 • FID • CLIP Score • Human Evaluation 全体の流れ ① T5-XXLでテキストをエンコード ② 画像をVQGANでトークン化 ② 1 低解像度(256x256)=低解像度画像の復元を試みる ② 2 高解像度(512x512)=低解像度で復元されたトークンをもとに高解像度化 ③ VQGANでデコード T5-XXL VQGAN VQGAN ① ② 1 ② 2 参考: TPUv4チップを512コア使って1週間程度学習 VQGAN (Decoder) ③
  3. 学習対象:ベースモデルと超解像モデル T5-XXL VQGAN VQGAN 超解像モデル 超解像モデルの入力 Key, Value = 低解像度の画像埋め込み+テキスト埋め込みの連結

    Query = 高解像度の画像埋め込み → 低解像のどの部分を見たらいい?とやってる感じだと思う Base Transformer = シンプルなTransformer オプティマイザにAdaFactorを使っている。メモリが節約できるらしい。 VQGAN (Decoder)
  4. タスクをこんな感じで指定 テキストエンコーダ(T5[1]) • 様々なNLPタスクを一つのモデルで行うモデル 3つの構成を試したら、Enc-Decモデルが最良だった 目的関数のイメージ 3つ試したら、BERT-Styleが最良 自己回帰するやつ ex. GPT2

    双方向 ex. Transformer (original text) = “Thank you for inviting me to your party last week.” BERT-Style → 10% 90% [1] Raffel+, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, JMLR, 2020
  5. VQGAN(画像のトークナイザー) VQ-GAN [2] VQ-VAE [1] VAEにおける潜在表現を離散化した k個のコードブック(潜在表現の候補、学習可能)を用意 量子化  Straight-Through

    Estimator 再構成誤差 Encoder, Decoder コードブックとEncの特徴の近さ コードブックのベクトル 更新対象: コードブックとEncの特徴の近さ Encoder なぜ離散表現を使うのか - JPEGのような意図があり、知覚的な劣化が少ない (by Weight&Bias Tech Blog) - VAEにある事後確率崩壊(Posterior Collapse)が抑制できる → 高解像度画像生成に効果あり? 損失関数 VQVAEとの差分 - 2ステップの学習 - コードブックをEncoder特徴の近傍ではなく、Transformerで推論 - GAN + Perceptual Loss - PixelCNN → Transformerに変更(stage-2) PixelCNNでデコードしてたが、CodeBookをTransformerで自己回帰 PixelCNN [1] Oord+, “Neural Discrete Representation Learning”, NIPS, 2017 [2] Esser+, “Taming Transformers for High-Resolution Image Synthesis”, CVPR, 2021
  6. テクニカルな部分 画像へのマスクかける/デコードする割合 → Cosine Scheduler (MaskGIT[1]) [1] Chang+, “MaskGIT: Masked

    Generative Image Transformer”, CVPR, 2022 [2] Ho+, “Classifier-free diffusion guidance”, NeurIPSW, 2021 生成画像のテキスト条件との反映具合を高める → Classifier Free Guidance (CFG)[2]を適用 ◼ Classifier-Guidance • ノイズ画像を画像分類モデルで分類可能か? → 分類できるなら品質が良い デメリット:分類モデルが別で必要。しかもノイズ画像の分類をやらないといけない Classifier img img “panda” “dog” OK NG Classifier-Guidance img enc img img CLIP-Guidance txt enc “a panda playing in zoo” feat feat ◼ Classifier Free Guidance • 分類器不要 • ランダムにテキストによる条件付をなくす ココで入力されるテキストトークを∅にする テキストを反映せずに作ったものかが判別できるようになる(と思う) 損失 MaskGITにおけるマスクスケジューラの結果
  7. Augoregressive Diffusion Diffusion model DALL-E2 対戦相手 ◼ Parti [4] •

    推論時のViT-VQGANの画像トークンをSeq2Seqに置き換えた • データセット:LAION-400M + FIT400M + JFT-4B(44億枚くらい) • 評価用プロンプト(Parti Prompt, P2)を準備した - 自己回帰モデル - ViT-VQGAN - 超解像モデル - 超巨大モデル ◼ Imagen[3] - カスケード拡散モデル 超解像モデル - CFG - T5 - Efficient U-Net - Dynamic Thresholding - DrawBenchベンチマーク ◼ DALL-E2 [2] unCLIP(CLIP埋め込みの逆変換)を行う - 自己回帰モデル or 拡散モデル - CFG - CLIP [1] Rombach+, “High-Resolution Image Synthesis with Latent Diffusion Models”, CVPR, 2022 (arXiv:2112.10752) [2] Ramesh+, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, arXiv:2204.06125 [3] Saharia+, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, arXiv:2205.11487 [4] Yu+, “Scaling Autoregressive Models for Content-Rich Text-to-Image Generation”, arXiv:2206.10789 多段階(カスケード)に生成 ◼ Stable Diffusion (LDM) [1] - VAE - 拡散モデル - CLIP Parti Promptの構成 1600プロンプト
  8. 評価指標 ◼ FID (Fréchet Inception Distance) [1] - 画像の品質(Quality) -

    画像の多様性(Diversity) がわかる - Real, Genの画像特徴の平均と分散の差 - Inceptionv3の采配に左右される - 小さいほど良い Model real1 gen1 feat1 feat1 𝝁1 , 𝝈1 𝝁2 , 𝝈2 Inceptionv3 real2 gen2 feat1 feat2 … … … … ◼ CLIP Score[2] - Image-Textのアライメントの良さ がわかる - CLIPのImage EncとText Encの采配に左右される - 大きいほど良い img enc img1 text1 feat1 feat1 img2 text2 feat1 feat2 … … … … cosine similarity txt enc ◼ Human Evaluation - 5人がチェック - PartiPromptsというプロンプトで実験 └(1650テキスト) DALL-E Muse お題:“a panda playing in zoo”を最も反映している画像はどれ? 両方 ダメ バ イ ト Museがイイネ! 格付けチェックみたいなことやってます [1] Heusel+, “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium”, arXiv:1706.08500 [2] Radford+, “Learning Transferable Visual Models From Natural Language Supervision”, ICML, 2021
  9. アプリケーション • Text-Guided Inpainting/ Outpainting • Zero-Shot Mask-Free Editing -

    画像全体を入力 - 部分的にマスクするのを繰り返して、徐々にImage Editingする ココをMASKトークンにする