Slide 9
Slide 9 text
Augoregressive
Diffusion
Diffusion model
DALL-E2
対戦相手
◼ Parti [4]
• 推論時のViT-VQGANの画像トークンをSeq2Seqに置き換えた
• データセット:LAION-400M + FIT400M + JFT-4B(44億枚くらい)
• 評価用プロンプト(Parti Prompt, P2)を準備した
- 自己回帰モデル
- ViT-VQGAN
- 超解像モデル
- 超巨大モデル
◼ Imagen[3]
- カスケード拡散モデル
超解像モデル
- CFG
- T5
- Efficient U-Net
- Dynamic Thresholding
- DrawBenchベンチマーク
◼ DALL-E2 [2]
unCLIP(CLIP埋め込みの逆変換)を行う
- 自己回帰モデル or 拡散モデル
- CFG
- CLIP
[1] Rombach+, “High-Resolution Image Synthesis with Latent Diffusion Models”, CVPR, 2022 (arXiv:2112.10752)
[2] Ramesh+, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, arXiv:2204.06125
[3] Saharia+, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, arXiv:2205.11487
[4] Yu+, “Scaling Autoregressive Models for Content-Rich Text-to-Image Generation”, arXiv:2206.10789
多段階(カスケード)に生成
◼ Stable Diffusion (LDM) [1]
- VAE
- 拡散モデル
- CLIP
Parti Promptの構成
1600プロンプト