背景:
画像生成手法の中でも、拡散モデルは、テキストプロンプトを条件とした写実性の高い画像を生成できるため、
注目されている。
→しかし、既存の手法による拡散モデルの探求はまだ初期段階にある。
テキストから画像への拡散モデルの原理と実装を深く掘り下げると、生成される画像の品質をさらに向上させる
機会がまだ多い。
既存手法例:
・LDM (Rombach et al., 2021),
・GLIDE (Nichol et al., 2022),
・DALL-E 2 (Ramesh et al., 2022),
・Imagen (Saharia et al., 2022) など
既存手法の特徴:
テキストプロンプトが与えられると、ガウスノイズを反復的なノイズ除去ステップを経てプロンプトに適合する
画像に変換する。
課題:
各ノイズ除去ステップの学習プロセスにおいて、同一の処理をすると、モデルがシーン内のいくつかの重要な
要素や相互作用を見逃す可能性がある。
→その結果、特定の属性を持つ複数のオブジェクトを含むテキストプロンプトに対して、属性混乱問題などのテキス
トと画像の不整合のリスクに直面する。