Generation with CLIP Latents,” arXiv 2022. https://github.com/CompVis/stable-diffusion “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,” NeurIPS 2022.
動画への対応のために追加した層のパラメタのみ学習する • Auto EncoderのDecoder部分のみ動画データでFineTuneして時間的一貫性を向上 • 階層的な生成を行うことで高品質な画像生成を実現 “Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”, CVPR 2023
階層的な生成+動画によるDecoder のfinetuneで品質が向上 “Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”, CVPR 2023 “MagicVideo: Efficient Video Generation With Latent Diffusion Models”, arxiv 2022