Muse: Text-To-Image Generation via Masked Generative Transformers

Muse: Text-To-Image Generation via Masked Generative Transformers 2023/01/20 飯田啄巳

解説の流れ 1. Museの全体像 2. Museが利用している既存技術 - T5（テキストエンコーダ） - VQGAN（画像エンコーダ） -
テクニカルなところの関連研究（一旦飛ばすかも） 3. 定性評価1 4. 対戦相手 - DALL-E2 - Imagen - Parti - Stable Diffusion v1.4 5. 定性評価2 6. 評価指標 - FID - CLIP Score - (Human Evaluation) 7. 雑多な話題 8. まとめ

Museの全体像データ学習：Imagenと同じ（900M）評価：CC3M, COCO 対戦相手 • DALL-E2 • Imagen
• Parti • Stable Diffusion v1.4 評価指標 • FID • CLIP Score • Human Evaluation 全体の流れ ① T5-XXLでテキストをエンコード ② 画像をVQGANでトークン化 ② 1 低解像度（256x256）＝低解像度画像の復元を試みる ② 2 高解像度（512x512）＝低解像度で復元されたトークンをもとに高解像度化 ③ VQGANでデコード T5-XXL VQGAN VQGAN ① ② 1 ② 2 参考： TPUv4チップを512コア使って1週間程度学習 VQGAN (Decoder) ③

学習対象：ベースモデルと超解像モデル T5-XXL VQGAN VQGAN 超解像モデル超解像モデルの入力 Key, Value = 低解像度の画像埋め込み＋テキスト埋め込みの連結
Query = 高解像度の画像埋め込み → 低解像のどの部分を見たらいい？とやってる感じだと思う Base Transformer = シンプルなTransformer オプティマイザにAdaFactorを使っている。メモリが節約できるらしい。 VQGAN (Decoder)

タスクをこんな感じで指定テキストエンコーダ（T5[1]） • 様々なNLPタスクを一つのモデルで行うモデル 3つの構成を試したら、Enc-Decモデルが最良だった目的関数のイメージ 3つ試したら、BERT-Styleが最良自己回帰するやつ ex. GPT2
双方向 ex. Transformer (original text) = “Thank you for inviting me to your party last week.” BERT-Style → 10% 90% [1] Raffel+, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, JMLR, 2020

VQGAN（画像のトークナイザー） VQ-GAN [2] VQ-VAE [1] VAEにおける潜在表現を離散化した k個のコードブック（潜在表現の候補、学習可能）を用意量子化  Straight-Through
Estimator 再構成誤差 Encoder, Decoder コードブックとEncの特徴の近さコードブックのベクトル更新対象：コードブックとEncの特徴の近さ Encoder なぜ離散表現を使うのか - JPEGのような意図があり、知覚的な劣化が少ない (by Weight&Bias Tech Blog) - VAEにある事後確率崩壊（Posterior Collapse）が抑制できる → 高解像度画像生成に効果あり？損失関数 VQVAEとの差分 - 2ステップの学習 - コードブックをEncoder特徴の近傍ではなく、Transformerで推論 - GAN + Perceptual Loss - PixelCNN → Transformerに変更（stage-2） PixelCNNでデコードしてたが、CodeBookをTransformerで自己回帰 PixelCNN [1] Oord+, “Neural Discrete Representation Learning”, NIPS, 2017 [2] Esser+, “Taming Transformers for High-Resolution Image Synthesis”, CVPR, 2021

テクニカルな部分画像へのマスクかける/デコードする割合 → Cosine Scheduler (MaskGIT[1]) [1] Chang+, “MaskGIT: Masked
Generative Image Transformer”, CVPR, 2022 [2] Ho+, “Classifier-free diffusion guidance”, NeurIPSW, 2021 生成画像のテキスト条件との反映具合を高める → Classifier Free Guidance (CFG)[2]を適用 ◼ Classifier-Guidance • ノイズ画像を画像分類モデルで分類可能か？ → 分類できるなら品質が良いデメリット：分類モデルが別で必要。しかもノイズ画像の分類をやらないといけない Classifier img img “panda” “dog” OK NG Classifier-Guidance img enc img img CLIP-Guidance txt enc “a panda playing in zoo” feat feat ◼ Classifier Free Guidance • 分類器不要 • ランダムにテキストによる条件付をなくすココで入力されるテキストトークを∅にするテキストを反映せずに作ったものかが判別できるようになる（と思う）損失 MaskGITにおけるマスクスケジューラの結果

定性評価：様々なMuseの結果物体との関係性個数を反映してるか失敗するケース： - 長文の文字を描く - 個数が多い

Augoregressive Diffusion Diffusion model DALL-E2 対戦相手 ◼ Parti [4] •
推論時のViT-VQGANの画像トークンをSeq2Seqに置き換えた • データセット：LAION-400M + FIT400M + JFT-4B（44億枚くらい） • 評価用プロンプト（Parti Prompt, P2）を準備した - 自己回帰モデル - ViT-VQGAN - 超解像モデル - 超巨大モデル ◼ Imagen[3] - カスケード拡散モデル超解像モデル - CFG - T5 - Efficient U-Net - Dynamic Thresholding - DrawBenchベンチマーク ◼ DALL-E2 [2] unCLIP（CLIP埋め込みの逆変換）を行う - 自己回帰モデル or 拡散モデル - CFG - CLIP [1] Rombach+, “High-Resolution Image Synthesis with Latent Diffusion Models”, CVPR, 2022 (arXiv:2112.10752) [2] Ramesh+, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, arXiv:2204.06125 [3] Saharia+, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, arXiv:2205.11487 [4] Yu+, “Scaling Autoregressive Models for Content-Rich Text-to-Image Generation”, arXiv:2206.10789 多段階（カスケード）に生成 ◼ Stable Diffusion (LDM) [1] - VAE - 拡散モデル - CLIP Parti Promptの構成 1600プロンプト

定性評価：対戦花の絵がないあんまりレインボーじゃないテキストの反映が微妙両方いい感じ。MuseはImagenより高速なのでMuseの方がいい

評価指標 ◼ FID (Fréchet Inception Distance) [1] - 画像の品質（Quality） -
画像の多様性（Diversity）がわかる - Real, Genの画像特徴の平均と分散の差 - Inceptionv3の采配に左右される - 小さいほど良い Model real1 gen1 feat1 feat1 𝝁1 , 𝝈1 𝝁2 , 𝝈2 Inceptionv3 real2 gen2 feat1 feat2 … … … … ◼ CLIP Score[2] - Image-Textのアライメントの良さがわかる - CLIPのImage EncとText Encの采配に左右される - 大きいほど良い img enc img1 text1 feat1 feat1 img2 text2 feat1 feat2 … … … … cosine similarity txt enc ◼ Human Evaluation - 5人がチェック - PartiPromptsというプロンプトで実験 └（1650テキスト） DALL-E Muse お題：“a panda playing in zoo”を最も反映している画像はどれ？両方ダメバイト Museがイイネ！格付けチェックみたいなことやってます [1] Heusel+, “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium”, arXiv:1706.08500 [2] Radford+, “Learning Transferable Visual Models From Natural Language Supervision”, ICML, 2021

定量評価 CLIP Scoreを出す時は、CC3Mでファインチューニングしてます画像の品質テキストの反映具合お題：「アボカドの椅子！」普通の椅子ならうまくかけるアボカドの椅子描いたけど下手くそ

定量評価：Human Evaluation＋推論時間残り4%は評価者の評価が分散したので判断がつかなかった Muse圧倒的に高速

アプリケーション • Text-Guided Inpainting/ Outpainting • Zero-Shot Mask-Free Editing -
画像全体を入力 - 部分的にマスクするのを繰り返して、徐々にImage EditingするココをMASKトークンにする

社会への影響影響 - ニセの画像などを作ってしまうおそれデマ、ハラスメント、社会的・文化的偏見 - データセットの偏りほぼ自動で収集されたデータなので結論： -
使い手の意識が大事 - 人や顔の生成には使わないように警鐘を鳴らしている

Muse: Text-To-Image Generation via Masked Gener...

Muse: Text-To-Image Generation via Masked Generative Transformers

frkake

More Decks by frkake

Other Decks in Research

Featured

Transcript