DiffusionによるText2Imageの系譜と生成画像が動き出すまで

Slide 1

Slide 1 text

DiﬀusionによるText2Imageの系譜と生成画像が動き出すまで清水遼平株式会社ディー・エヌ・エー Oct 13, 2022 ﬁrst edition Mar 06, 2023 last update

Slide 13

Slide 13 text

13 Transformer概観 Attention（注意機構）を最大限に活用した伝家の宝刀的モデル初出は翻訳タスクであったが、その汎用性から自然言語処理を越えて多岐にわたる分野で活躍している。 ❖ Attention 特徴ベクトルが並んだ2系列の関係性を抽出し、フィードバックする仕組み。系列間で結びつきが強い要素同士の情報を集約していく機能に長けている。異なる系列同士の関連を抽出するものをCross-Attention（交差注意機構）、自分自身との関連を抽出するものを特にSelf-Attention （自己注意機構）という。 ❖ Attentionの応用自然言語処理では、文章を単語以下の『トークン』と呼ばれる単位に分割し、それらに個別のベクトルを割り振ることでAttentionを適用する。この考え方は汎用的で、例えば画像領域では、画像を小さなパッチに分割してそれぞれをトークン化する Vision Transformer（ViT）と呼ばれる手法が主流となっている。 Figure citation | Attention Is All You Need [Vaswani et al., NeurIPS 2017] [1] ◀ 右列のモジュールは、系列の出力に対応するデコーダと呼ばれる部分。ここでは系列を先頭から順に推論していくため、各トークンが自身より未来の情報を参照しないように上図のような上三角のマスク処理を行う。 ◀ 左列のモジュールは、入力系列の情報を集約するエンコーダと呼ばれる部分。ここはデコーダに与える条件付けを獲得する役割のため、入力系列全体を見渡してよく、上図のようなマスク処理は行わない（上図のグレーアウトしたグリッドにも色がつくイメージ）。 30分で完全理解するTransformerの世界株式会社ZENKIGEN Feb 14, 2023 https://zenn.dev/zenkigen/articles/2023-01-shimizu このトピックは先日執筆した記事に詳しいです。 ▲ [1: Fig. 1] より引用。枠線と右上図追加により一部改変。

Slide 28

Slide 28 text

Oct 06, 2020 |　ランダム性制御により速度と品質のトレードオフを改善 ❖ ある強度の標準偏差　を用い、　　　　　を　を条件とする形に展開　　　のとき、DDPMで導出された逆拡散過程の分布と一致。　　　のとき、ランダム性が排された振る舞いに収束する。後者の決定論的過程を一般にDDIMと呼称する。ただし、　は逆拡散過程②補足の式を用いて各時刻にて推定し、これを下記式に代入することで逆拡散過程を推定していく。 ❖ DDIM Inversion DDIMは常微分方程式（ODE）と関連付けることができる。通常はこれを逆拡散過程を解くために用いるが、 ODEの適用方向を反転させることで、綺麗なデータ　から任意の時刻までノイズを付与した　を決定的に計算できる。これはいわば『元データを復元できる埋め込み』として機能するため、潜在空間における意味的な補間も可能に。後続手法では、生成画像間の一貫性を担保する目的で用いられることも多い。 ❖ 飛ばし飛ばしの時刻で逆拡散過程を再定式化訓練時に十分なステップ数で学習し、推論時はより少ないステップ数で生成するアプローチが可能に。 28 DDIM [Stanford Univ.] Figure & Table citation | Denoising Diﬀusion Implicit Models [Song et al., ICLR 2021] [4] 和に関する正規分布の再生性から分散項を調整。 DDIMに対応する　　では極端に推論ステップ数を減らしても一定の生成品質を保っており、訓練時と同等の最大ステップ数を用いるとDDPMよりもFID値が改善。また、　　　より大きな分散を用いるでは、訓練時と同等ステップ数の場合にのみ性能向上を確認。 ▼ [4: Table 1] より引用。 ▲ [4: Figure 5] より引用。推論ステップ数を落としても、大きく品質が損なわれてはいないことが見てとれる。

Slide 37

Slide 37 text

Feb 26, 2021 |　自然言語と画像を同一特徴量空間で近づけるモジュールの提案 Text2Imageの発展に寄与した影の立役者。大規模な対照事前学習により、厳密に一対一対応し得ない異種概念を結びつけた基盤モデル。 ❖ テキストおよび画像を固定長ベクトルに埋め込みテキストには GPT-2 に倣うTransformerを、画像にはResNetまたはViTを適用して比較し、TransformerとViTの組み合わせが高性能であることを実験的に示した。 Transformerでは [EOS] トークンの、 ViTではトークン化された画像パッチ列に結合された [CLS] トークンの最終出力を正規化したのち、線形射影してそれぞれテキストと画像の埋め込み表現とする。 ❖ 埋め込みベクトル群のcos類似度を計算し、ペア同士は大きく、非ペアは小さく学習画像を固定されたクラス群の中で分類するのではなく、自然言語による説明そのものと結びつける仕組み。既存クラスラベルは「A photo of a {object}」といったプロンプトエンジニアリングを施し、同じ枠組みで対応可能にする。データセット内のテキストと画像のペア（正例）は潜在空間内で近付き、非ペア（負例）は遠ざかるように対照学習。 ❖ Zero-Shotながら様々なタスクへの幅広い汎化性能を獲得複数データセットにおける画像分類や動画行動認識等で比較実験。ResNet等、既存手法の事前学習済みモデルに線形分類器を付加して対象データセットで完全に、あるいは Few-Shotで教師あり学習したモデルと比較し、Zero-Shot のCLIPが多角的に上回ることを示した。一方で、CLIP の対照事前学習で扱われなかった対象を分類したり、物体の詳細な種類を特定するようなタスクへの汎化性能は今後の課題であるとし、生成タスクへの応用可能性などについても今後の展望とした。 37 CLIPの登場 [OpenAI] Figure citation | Learning Transferable Visual Models From Natural Language Supervision [Radford et al., ICML 2021] [10] ▲ [10: Figure 1] より引用。ただし、(1) と (2) を横並びから縦並びに改変。

Slide 45

Slide 45 text

プロンプト以外のモダリティを追加入力する機構を備え、描画対象の位置や姿勢を自在に制御する拡張手法従来のプロンプト駆動型Text2Imageでは、人物等を複雑な姿勢で描画しようとしたり、複数の物体が配置されたシーンを意図通りに生成したりすることに困難があった。このような課題を解決するため、独自の記号操作をプロンプトに導入したり、セグメンテーションマップやポーズ表現用のボーンリグで画面構成をより精緻に描画可能にしたりする手法が次々と提案されはじめている。これらは既存の学習済みモデルに適用可能であるため拡張性が高く、コミュニティでも急速に広まりつつある。 Jun 03, 2022 |　Composable Diffusion [UIUC, MIT] 組み合わせ可能な拡散モデル Jan 17, 2023 |　GLIGEN [UW–Madison, Columbia Univ., Microsoft] 接地情報に基づく補助入力で学習済みモデルを制御 Feb 10, 2023 |　ControlNet [Stanford Univ.] 学習済み拡散モデルに多様な補助入力経路を追加 Feb 14, 2023 |　Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU] 分類器誘導を拡張し、再学習なしに補助入力経路を追加 45 拡散モデルの拡張技術【操作性・制御性】【➡補遺E】 Feb 16, 2023 |　MultiDiffusion [WIS] 追加学習なしで任意解像度における空間制御性を付与 Feb 16, 2023 |　T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT] 学習済みモデルに眠る表現力を精緻な制御へ転用 Feb 22, 2023 |　Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA] MCMCに基づく新たなサンプリングと構成的生成の提案 Feb 25, 2023 |　Directed Diffusion [VUW, Google Research] 交差注意マップ誘導による物体描画領域の制御

Slide 50

Slide 50 text

Dec 20, 2021 |　計算効率化のために LDM（Latent Diffusion Models）を提案後述のStableDiffusion開発グループが提案した手法。高品質かつ高速な生成の核となる技術。 ❖ 圧縮された潜在空間でのDiffusionを実現知覚的品質を損なわずに情報圧縮できるよう設計されたオートエンコーダを用いて画像を低次元化。知覚するのが難しい細部の特徴や高周波成分を抽象化することにより、より拡散モデルの尤度最適化に適した潜在空間に射影可能との主張。画像空間より小さな次元で処理するため省メモリかつ高速。一方で、画像空間での高精細なテクスチャが求められる場合、表現が制限される場合もある。 LDMとDDIMを適用した際の生成速度と品質のトレードオフに関する実験では、4~16倍などに適切に圧縮した場合のほうが非圧縮の場合よりも高速化つ高品質であることが示された。 ❖ タスクに特化した入力エンコーダを導入して汎用性を高めた画像生成に関連する様々なタスクに応じた条件付けを反映させるため、条件付け特徴量を変換するドメイン依存のエンコーダ　、およびそれをU-Net内に取り込むCross-Attentionを導入。例えば後にLDMを踏襲して公開されるStableDiffusionでは、テキスト処理部としてCLIPを採用している。 50 Latent Diffusion Models [CompVis, Runway] Figure citation | High-Resolution Image Synthesis with Latent Diffusion Models [Rombach et al., CVPR 2022] [12] ▲ [12: Figure 3] より引用。モデルの全体像。コアとなる拡散モデルは潜在空間で処理を行う。画像を圧縮するためのオートエンコーダは、VAE型、またはCompVisが先立って発表していた VQGAN的構造を流用。後者はエンコーダ　によって空間構造を保ったまま画像を低次元化したのち、デコーダ　で各ピクセルを学習可能な離散的コードブック内の最近傍特徴と置換、画像空間に復元する。ただし、いずれのタイプのオートエンコーダにおいても、学習時はパッチベースの敵対的学習を行う。

Slide 56

Slide 56 text

❖ 超解像用のDiffusionのために Efficient U-Net を提案 U-Netの低解像度部により多くのRes Blockを配置してパラメータを集中させることで、計算コストが大幅に増加することを回避しつつモデル容量を拡大。またそれに伴い、低解像度部のスキップ接続において　　の係数を乗ずることで学習の収束を大幅に高速化。さらに、アップ／ダウンサンプリング層と Conv層の順序を入れ替え、より低解像度部に計算を集中させることで計算量を削減。 U-Netのスキップ接続の位置や集約方法、Attentionの位置や適用方法にもADMやLDMから差異が見られる。一方、コアとなる64x64の拡散モデルにはADMを流用。超解像は 64x64→256x256、256x256→1024x1024の2段階CDM。前段ではU-Netの最下層ブロックでのみSelf-AttentionとCross-Attentionを行う。後段ではSelf-Attentionは廃止し、最下層ブロックでテキスト埋め込みとの Cross-Attentionのみ計算することで、表現力の犠牲を抑えつつ計算量を削減。ただし、前段の超解像ではSelf-Attention部の Key, Value にテキスト埋め込みを結合して Cross-Attentionと見做すことで統一的に処理する。後段の超解像では一般的なCross-Attention（Queryにピクセル列、Key, Valueにテキスト埋め込み）を使用。 ❖ テキスト埋め込みには純粋なNLPモデルを使用複数の手法を比較した上で、CLIPではなく、事前学習済み T5-XXL を採用。 56 Imagen [Google Brain] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [Saharia et al., NeurIPS 2022] [14] Res Block Group Norm Swish Conv2d Group Norm Swish Conv2d Pointwise Conv Res Block Res Block ⋮ (Cross-Attention) AdaGN (Downsample) Time Embedding Text Embedding Attention Pooling Down Res Block Res Block ⋮ (Self-Attention) AdaGN Time Embedding Text Embedding Attention Pooling Up (Upsample) Efficient U-Net ◀▶ 論文中の記述や図表、引用元の内容に準拠。有志の再現実装（e.g., Efficient U-Net の主要改良点のみを適用したADMを超解像に用いている lucidrains/imagen-pytorch）とは異なる部分が存在しうることに留意。余談：Feb 2023 を目処に、Stability AI傘下の DeepFloydより、Imagenに基づくオープンソースモデル『IF』がリリースされる予定の模様。

Slide 57

Slide 57 text

57 Imagen [Google Brain] ❖ 逆拡散過程において、ピクセル領域の値域を適切にクリッピング逆拡散過程の各時刻で出力の値域を動的に制限することで、分類器不使用型誘導において大きな係数を用いても生成画像が崩壊したり飽和したりするのを抑制。従来手法で提案されていた静的なクリッピングの有効性を確認した上で、動的クリッピングの方がより良い効果が得られることを示した。 ❖ Text2Image評価用のベンチマーク DrawBench を提案様々な意味的側面を持つ11カテゴリから成るテキストプロンプトのリストで、計200編を収録。これを用いて生成された画像を人手で評価することによりモデル間の性能比較をおこなった。 ❖ DALL·E系からLDMまでを大きく凌駕する生成品質を達成 COCOやDrawBenchにおいて定性的、定量的両面から評価。また、COCOにおける人物を含まない生成では、写実性やテキスト整合性の観点でオリジナルのデータと遜色ない評価を獲得し、より自然な画像生成が可能であることを示した。 Figure citation | Photorealistic Text-to-Image Diﬀusion Models with Deep Language Understanding [Saharia et al., NeurIPS 2022] [14] ▲ [14: Figure A.9] より引用。各戦略における出力。下側に行くほど分類器不使用型誘導が強い。動的クリッピングでは最も生成結果が安定。 ◀ [14: Figure A.19] より引用。一般通念とは矛盾するよう作られたDrawBench中のプロンプトと、その生成例の比較。上段の『宇宙飛行士に乗った馬』のように、Imagenにおいてもテキストへの忠実さが損なわれてしまう挑戦的な例がある一方、下段の『ラテアートを作るパンダ』のように、従来のSOTAであったDALL·E 2では正しく概念を反映できていないようなプロンプトでも、 Imagenは効果を発揮している。

Slide 58

Slide 58 text

58 Re-Imagen [Google Research] Sep 29, 2022 |　データベースからの画像検索により希少語彙の生成安定化 Imagenは高品質であるものの、出現頻度の低い語彙に対しては依然として不適切な出力を生成する傾向にあった。 Re-Imagenは外部知識の活用によりこの問題を緩和することで性能向上。 ❖ 入力テキストと類似するプロンプトと画像のペアを外部データベースから参照逆過程計算時、検索により得られた画像群をさらなる条件付けとしてU-Netに与える。これにより、希少語表現のために要求されるモデル容量を解放できると主張。検索画像群はモデルへの入力と同様にU- Net のダウンサンプル部で潜在表現化され、U-Net の中間部にてAttentionにより情報集約される。さらに、テキストのみによる条件付けを ∅ と見做す場合と、検索画像群のみによる条件付けを ∅ と見做す場合の2種類の分類器不使用型誘導を考え、それらを適切な割合で交互に適用する誘導方法を提案。テキストか検索画像群のどちらかの誘導が支配的になってしまうという不均衡さを解消した。 ❖ 頻度の様々な描画対象におけるベンチマーク EntityDrawBench を提案動物や食べ物、場所やキャラクタなど、様々なカテゴリの対象を出現頻度が低いものから高いものまでバランスよく取り揃えた250編のプロンプトを構築。提案手法は低頻度語彙をより適切に扱えることから、人手による品質評価において総合的にDALL·E 2やImagen、後述のStableDiﬀusionを大きく凌駕。 Figure citation | Re-Imagen: Retrieval-Augmented Text-to-Image Generator [Chen et al., ICLR 2023] [15] ▲ [15: Figure 2] より引用。 Re-Imagenの概要。 ▲ [15: Figure 1] より引用。 Re-Imagenは参照画像の検索により、Imagenと比較して希少語彙での生成が安定している。

Slide 60

Slide 60 text

❖ 言語的知識や視覚的知識を活用し、特定要素を強調言語特徴においては、サンプルの50%に対して形容詞や名刺などの前に特殊トークンを挿入し、Attentionにおける重みを増加させることで強調。また画像特徴においては、人や建物、テキスト中で言及された物体等の領域をより強調的に学習するため、データセットの50%に物体検出を適用し、そのうちから人目を引く特徴をヒューリスティックに抽出。抽出領域に対する学習を促進するため、拡散モデルの学習において、対応するピクセル領域に関する損失関数の重みを増加させた。さらに、画像とテキスト間の精緻な整合性を担保するため、物体検出した対象がテキスト中に存在しない場合はテキストに付け加える、画像キャプションモデルによって生成されたテキストで本来のプロンプトをランダムに置き換えるなどの工夫を適用。 ❖ MoDE（Mixture of Denoising Experts）の提案逆拡散過程のモデル化において、ノイズ除去の初期は純粋な画像生成に、終盤は画像の精緻化に近い働きをしていることに着目し、その難易度や特性の違いから段階的に異なるモデルを訓練。 ❖ LDMを採用して計算量を削減画像を縦横とも1/8に圧縮するオートエンコーダを事前に学習。10個の異なるU-Netを用意して MoDEにより学習。学習時は1000ステップのDDPM、推論時は50ステップのDDIM。 60 ERNIE-ViLG 2.0 [Baidu] Figure citation | ERNIE-ViLG 2.0: Improving Text-to-Image Diﬀusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [Feng et al., 2022] [16] ▲ [16: Figure 2] より引用。　 ERNIE-VilG 2.0の概要。

Slide 64

Slide 64 text

64 eDiff-I [NVIDIA] ❖ 逆拡散過程のモデル化において、Ensemble of Expert Denoisers を提案ノイズ除去初期は出力のノイズ比が高いためテキスト条件付けが支配的な一方、終盤はある程度出力画像の様相が固定されるため、テキストの影響は薄まり画像自体の精緻化が進行することを解析。これに基づき、ノイズ強度に応じて逆拡散過程を複数フェーズに分割。それぞれで個別モデルを学習することを提案。学習時は効率化のため、初めに通常通り単一モデルで全時刻に対応するモデルを学習し、次第に二分木探索の要領で個別ノイズレベルに対応したエキスパートモデルに分化させていく。ただしモデル数の指数関数的な増加を防ぐため、適切な深さまで分割した二分木の最右端と最左端のみ個別化し、中間のノイズ強度領域は全て同一のモデルで処理することで、逆過程全体を3分割。ERNIE-ViLG 2.0の MoDEと酷似しているが、より注意深く設計されている印象。 ❖ 条件付け入力を処理するために複数のエンコーダを複合的に使用テキストの符号化にCLIPとT5-XXLの両方を使用。またCLIPの画像側エンコーダも使用することで、任意で画像情報を条件付けとして利用できるように。 ❖ レイアウトを与えることで生成を制御する paint-with-words の提案プロンプト中の任意の語彙を用いたセグメンテーションマップをユーザーが自由に編集し与えることで、 Cross-Attentionを用いて追加学習なしで生成結果を誘導することが可能。 Figure citation | eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [Balaji et al., 2022] [18] ▲ [18: Figure 9] より引用。 eDiff-I では、より適切にプロンプト内の構成要素を反映したり、文字を描画可能。 ▲ [18: Figure 6] より引用。　 paint-with-words の概要。

Slide 66

Slide 66 text

66 ❖ 指定セグメンテーションレベルを反映する工夫セグメンテーションの各精度レベルにおいて、デフォルトマスクと指定された対象のテキスト埋め込みを平均化して利用する。左下図に示すように、任意数のセグメンテーションとテキストのペアに対して反映度合いを個別に指定することができ、それぞれ必要レベルまで高精細かされたマップが統合される。いずれの対象マップにも含まれなかったピクセルはデフォルトマスクのみとなり、ブランクを意味することとなる。各レベル帯において、右下図のように対応するテキストの埋め込み表現をマップに沿って敷き詰めたのち、加重平均化する。指定対象の領域が重複することも許容するため、境界付近や、あえて重ねて指定した対象はプロンプト内容を補間したような効果を獲得し表現力に寄与すると主張。 SceneComposer [JHU, Adobe Research] Figure citation | SceneComposer: Any-Level Semantic Image Synthesis [Zeng et al., 2022] [19] ▲ [19: Figure 3, Figure 4] より引用。各セグメンテーションは、画像全域に亘るレベル0を始めとして、指定した精度レベルまで徐々に細かくしたマップに加工される。図では m1, m2, m3がそれぞれレベル2, 1, 0に対応。 ▲ [19: Figure 2] より引用。ユーザーが指定したセグメンテーションマップに対して左図の変換を行ったのち、各プロンプトのテキスト埋め込みをマップに応じた箇所に並べることでテキスト特徴量ピラミッドを作成。これがU-Netの条件付けとして機能し、形状指定を反映した画像生成が実現される。 ❖ Multi-scale guided diﬀusionの提案獲得されたテキスト特徴ピラミッドは、レベル0がU-Netの全ブロックのCross-Attentionに入力されるほか、各レベル帯は対応する解像度のU-Netブッロクの条件付けに用いられる。また学習時はレベル0の特徴マップに0.1のDropoutを適用し、入力 ∅ と確率的に置換する。推論時はテキスト特徴ピラミッドで条件付けした場合と全レベル帯のピクセルを ∅ 入力で埋めた場合を計算し、その間を線形補間することで分類器不使用型誘導を適用する。

Slide 68

Slide 68 text

❖ 追加モダリティを必要としない座標指定通常のテキストプロンプトに続く形で、座標指定トークンと矩形内の対象を記述するプロンプトを結合する形式。通常プロンプトの後ろに <左上x座標> <左上y座標> <右下x座標> <右下y座標> と記述することにより、詳細な矩形選択が可能。任意の数だけ座標指定と追加のプロンプトを続けることができる。 ❖ 複数の評価指標に基づき、範囲制御性能と画像生成品質の向上を確認範囲指定精度については、正解領域に対する分類器の精度、DETR による物体検出結果との比較にて評価。生成品質については、FIDや矩形領域に対するSceneFIDで評価。通常の StableDiffusion との比較において、いずれの指標も大幅な性能向上が見られた。また、 PaintSkillを用いた人手の定性評価においてもReCoの有効性が示された。 ❖ 論文では、後述するStableDiffusionを拡張位置トークンを除く全てのパラメータ（テキストを符号化するCLIP、およびDiffusionを行うU- Net等）は事前学習済み StableDiffusion の重みで初期化。学習データとして、アノテーションした矩形領域にGITと呼ばれる画像キャプションモデルを適用して得られたテキストを利用し、領域指定したテキストを含むデータセットを設計。これを用いて全体をファインチューニングすることにより、元モデルの表現性能を損なわずに、範囲指定を伴う描画能力を獲得。複数の詳細な属性表現を含む長いプロンプトに対しても、より忠実な生成が可能に。 68 ReCo [Microsoft] Figure citation | ReCo: Region-Controlled Text-to-Image Generation [Yang et al., 2022] [20] ▲ [20: Figure 3] より引用。

Slide 70

Slide 70 text

70 ❖ 個別の描画対象ごとにCLIP画像埋め込みを計算して利用訓練時は、Detectron2 と呼ばれるセグメンテーションモデルを用いて個別対象を抽出し、ランダムな非隣接セグメンテーション群の背景を黒塗りして CLIP の画像埋め込みを計算。推論時はユーザーが指定した個別対象のプロンプトについて CLIPテキスト埋め込みを計算後、DALL·E 2 と同様の発想で事前学習したpriorモデルを用い、CLIP テキスト埋め込みをCLIP画像埋め込みに変換。このようにして得られた CLIP画像埋め込みを、訓練時は抽出されたセグメンテーション、推論時はユーザーが与えたセグメンテーションマップの各ピクセル領域に並べたテンソルによってモデルを条件付け。CLIP画像埋め込みを利用することで、COCOを用いた疑似テキストラベルで訓練データを構成していたScene- Composerと比べ、より柔軟で高い表現力の獲得が期待される。 ❖ 画像領域での拡散モデル、およびLDM系のモデルの双方に適用可能前者の例として、DALL·E 2に基づくモデルを再現実装し事前学習。その後、デコーダの各ステップで予測されるノイズ除去画像に提案手法の条件付けテンソルを結合してファインチューニング。潜在空間を用いる後者の例としてはStable- Diﬀusionを採用。潜在特徴は明示的に画像として表現されていないものの、二次元構造であることから出力画像と関連する空間的構造を保持していると仮定し、前者と同様にファインチューニング。セグメンテーションと各特徴量は解像度が異なると思われるが、その整合性の担保については明言されていない（条件付けをダウンサンプリングしていると推察される。セグメンテーションへの鈍感さに関する記述で、マスクを低解像度化している旨の記述あり）。 ❖ 複数の条件付けによる分類器不使用型誘導を提案本手法のように条件付け要素が複数存在するモデルのために分類器不使用型誘導を拡張。各条件付けを個別に ∅ でランダムアウトして学習し、推論時は全てで条件した場合と ∅ で通常通り外挿。 SpaText [Meta AI, Hebrew Univ., Reichman Univ.] Figure citation | SpaText: Spatio-Textual Representation for Controllable Image Generation [Avrahami et al., 2022] [21] ▲ [21: Figure 11] より抜粋。同一のセグメンテーションマップでも、個別指定プロンプトが異なれば生成結果も変容。下図では有名な兎とアヒルの錯視を例にとっている。また、マップへの鈍感さにより、指定していない部分の形状（胴体）を自然に繋げて推論していることがわかる。 ▲ [21: Figure 3] より引用。ただし、図を横並びから縦並びに改変。

Slide 71

Slide 71 text

71 UniD3 [NTU, JD Explore Academy] Nov 27, 2022 |　離散的拡散モデルを用い、言語と画像を同時生成テキストだけでなく画像もトークン化することで、トークン辞書に対する離散的拡散モデルを適用。拡散モデルとして複数モダリティを同時生成する新規性を持った先駆的研究。 ❖ 画像テキストペアの任意欠損箇所を補間する包括的な手法を提案テキストだけを与えればText2Image、画像だけを与えれば画像キャプショニングとなる。何も入力を与えないことで、互いに相補的なテキストと画像を同時生成することも可能。 ❖ 画像はdVAE、テキストはBPEによって離散符号化テキストに関して、近年ではSentence Pieceによるサブトークン化ののち、CLIPやT5などに代表されるTransformerベースの大規模事前学習モデルが用いられることが多い。一方、UniD3ではそのような複雑な処理は行わず、 BPEで分割したテキストを単に埋め込み表現化するだけという、DALL·E と類似したミニマムなフレームワークを採用。先述のような、発展的なテキスト埋め込みを用いることによる精度や表現力の向上については、今後の展望であるとしている。 Figure citation | Uniﬁed Discrete Diﬀusion for Simultaneous Vision-Language Generation [Hu et al., ICLR 2023] [22] ▲ [22: Figure 5] より抜粋。入力画像とテキストの一部をマスクし、さらにテキストの一部を書き換えた上でUniD3により生成した結果例。マスクした画像とテキスト部分が同時に、内容の整合性を保って生成されていることがわかる。また、書き換えたテキスト部分も生成結果に反映されている（『鮮やかな赤い頭上』から『暗緑色の後頸』）。 ▲ [22: Figure 1] より引用。

Slide 72

Slide 72 text

72 UniD3 [NTU, JD Explore Academy] ❖ 離散状態であるトークンIDを確率遷移させる拡散モデルをマルチモーダルに適用通常の拡散モデルと異なり、あるトークンIDが自分自身、別種トークンのID、[MASK] トークンのIDに確率的に遷移する過程を考える。 [MASK] に変化したトークンはそれ以降意味のある他のトークンへ変化しないものとすると、任意のトークン列は最終的に全て [MASK] のみとなる。意味のあるデータが壊れていくこの過程を拡散過程と対応させ、[MASK] で構成されたトークン列から意味のあるトークン列を復元する過程を逆拡散過程と見做したものが離散的拡散モデルである。離散的拡散モデルでは、トークンの潜在ベクトルに直接ノイズを付与するのではなく、トークンそのものが置換されていく。そのため、画像も連続表現ではなく離散化されている必要がある。UniD3 ではマルチモーダルな確率遷移行列と対応する損失関数を提案し、その有効性を実験によって確認。 ❖ Mutual Attentionの提案画像とテキストのトークンが結合された状態でもモダリティ間の相互作用を明に考慮できるよう考案されたモジュール。単なるSelf-Attentionではモーダル内の繋がりを明示的に注視できないとし、相補的にCross-Attentionを行うモジュールを設計し、実験的にその有効性を示した。 Figure citation | Uniﬁed Discrete Diﬀusion for Simultaneous Vision-Language Generation [Hu et al., ICLR 2023] [22] ▲ [22: Figure 3] より引用。 Self-Attentionを適用後、トークン列を画像由来部分とテキスト由来部分に分割し、互いにQueryまたは Key-Valueとして2種類のCross-Attentionを適用。出力は再び結合され、後続の層へ入力される。 ▲ [22: Figure 2] より引用。トークン化した画像とテキストを結合して並べ、確率遷移行列により徐々に [MASK] トークンに起きかわる過程を考える。その逆過程をモデル化することでマルチモーダルな同時生成を実現。

Slide 73

Slide 73 text

Feb 20, 2023 |　条件付けの自由複合による高い操作性をEnd2Endで実現『有限手段の無限活用』というChomskyの一節を引用しつつ、操作性の高い画像生成には条件付けだけでなくその組み合わせが重要であると提起。既存の取り組みは限られた条件付けの範疇に留まっていることを指摘し、多様な条件付けを自由に組み合わせ可能なモデルを提案。さながら組合せ爆発のように多角的な制御性を獲得。 ❖ 分解と複合の学習スキームテキスト以外の条件付けを用いる際には十分量のデータセットを構築することに困難を抱えることも多いが、Composerでは通常のテキスト画像ペアを複数の条件付け要素に『分解』。それらをランダムに『複合』して元画像が生成されるよう訓練することで、操作性の自由度と汎化性能を向上させた。 73 Composer [Alibaba, Ant] Figure citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23] ▲ [23: Figure 2] より抜粋。最左図は元画像で、続く結果はそれぞれの下部に示した様々な条件付けの組み合わせで生成された結果群。例えば、左から2番目の結果は形状に関する条件付けのみのためカラーバリエーションのような結果となっているが、左から3番目では色彩パレットを追加することでさらに色彩スキームを条件付け。また、左から4番目ではCLIP画像埋め込みのみを用いることで、元画像と類似した意味的構成や雰囲気を保ちつつ、異なる画像を生成することができている。 ◀ [23: Figure 1] より引用。　 ❖ 8種の条件付けへの分解テキスト：ペアテキストを利用。画像キャプションモデルも利用可。意味要素とスタイル：CLIPによる画像埋め込みを利用。色彩パレット：CIELab色空間を色相、彩度、明度で量子化、平滑化。スケッチ：エッジ検出モデルとスケッチ単純化アルゴリズムを適用。セグメンテーション：YOLOv5によるインスタンスセグメンテーションを利用。深度マップ：MiDaSを用いて推定。強度：何種かのRGB係数からランダムにグレースケール画像化。マスク処理：二値マスクで操作可能領域を制限。RGBチャネルに結合。

Slide 74

Slide 74 text

❖ アーキテクチャと条件付けの複合基本的なアーキテクチャはGLIDEに倣いつつ、一部にunCLIPから流用された工夫を含む。具体的には、64x64画像を生成するベースモデル、および256x256と1024x1024画像へそれぞれアップサンプリングする非条件付け超解像拡散モデルから構成。超解像モデルは低解像度部のパラメータ数増加やSelf-Attention追加の工夫を含む。また、CLIPテキスト埋め込みからCLIP画像埋め込みを予測するunCLIPの事前分布モデルも選択的に導入。条件付けに関しては、分解した要素を大域的な条件付けと局所的な条件付けに分けて利用。大域的な条件付けでは、CLIP文章埋め込み、画像埋め込み、および色彩情報を線形射影し時刻埋め込みに加算。また、画像埋め込みと色彩情報はさらに8つの追加トークンに射影され、CLIPテキスト埋め込みに連結してGLIDEのCross-Attentionに用いられる。スケッチ、セグメンテーションマスク、深度マップ、強度情報、およびマスクといった空間構造を持つ条件付けは、それぞれ同じ潜在次元数に射影されたのちに加算され、拡散モデルの U-Netが処理する画像に結合して用いられる。これらは加算または結合に基づく条件付けであるため、自由に採用したり欠落させたりして複合できる。訓練時は各条件付けが採用される確率を 0.5、全て利用される、あるいは全て利用されない確率をさらにそれぞれ 0.1 に設定。ただし、強度情報に関しては保持している情報量が大きすぎるため、0.7 の確率で欠落させ、依存度を低めるよう調整した。 74 Composer [Alibaba, Ant] Figure & Table citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23] ▲ [23: Table 1] より引用。パラメータサイズは合計約4.4B。3.5BのDALL·E 2や、1Bに満たない程度の StableDiﬀusionよりも大規模。推論時は後述のDPM-Solver++を利用。 ▲ [23: Figure 7, Figure 8] より引用。条件付けの概要。

Slide 75

Slide 75 text

❖ 多種多様な画像操作ある元画像が存在するとき、元画像から抽出した条件付けの組み合わせ方次第で、高い柔軟性を発揮しつつ自在に変種を生成可能。また、画像間の滑らかな内挿も可能となる。ここで興味深いのは、 unCLIP のように画像埋め込みを単に線形補間するのみに留まらず、任意の条件付けを固定することである特徴群だけを補間する使い方もできる点である。さらに、DDIM Inversionを用いた画像の『再構成』も可能。抽出したオリジナルの条件付けを与えつつ元画像を潜在空間に埋め込み、改変したい条件付けのみ変更した状態で再び画像領域までサンプリングすることで、変更点以外は元画像と類似した変種を生成できる。また、操作領域を明示的に指定するマスクを与えて特定部分のみに適用することも可能。 75 Composer [Alibaba, Ant] Figure citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23] ❖ 古典的な画像生成タスクの再定式化 Composerを用いることで、従来は個別に取り組まれていたタスクを統一的に扱えるようになる。例えば、パレットに基づく着色、スタイル転移、画像翻訳、ポーズ転移、仮想試着など。 ❖ 任意の複合条件における画像生成従来タスクの一般化に留まらず、異種の条件付けを任意に組み合わせることで幅広い画像生成を実現可能な点がComposerの真価といえる。また、特定の設定としてText2Imageを挙げると、COCO におけるFID値やCLIPスコアにおいて ImagenのようなSOTA手法に準ずる性能も報告された。一方、そうした単一条件による生成や、内容が矛盾する複数条件が与えられた際の生成では、非明示的に一部の条件が弱化することも観測され、今後の課題であるとした。 ▲ [23: Figure 2] より抜粋。画像補間の例。最上段では、左と右の画像を完全に補間。中段以下では、最左列に示した条件付けが変化しないように補間している。例えば2段目では色彩が、3段目では形状が固定されたまま、その他の特徴を滑らかに補間した結果が得られている。 ▲ [23: Figure 4] より抜粋。最左の元画像に対して操作可能な領域を限定するマスクを与え、テキストプロンプトで変種を生成した例。いずれも、マスク外の背景、および兎の耳や前足は固定されたまま、マスク領域内のみ条件付けに沿った生成結果を出力できている。 ▲ [23: Figure 6] より抜粋。文字列のような既存手法の苦手とした対象も、形状指定可能な条件付けを適切に用いることで鮮明に描画できている。

Slide 83

Slide 83 text

操作性が高く極めて多機能な拡張UI 最も有名なStableDiﬀusionの派生リポジトリのひとつ。関連解説も豊富で、他の様々な派生モデルも取り込める。分類器不使用型誘導の無条件生成部分をネガティブプロンプトで置換する手法を初めて導入。好ましくない生成内容を明示的に遠ざけることで表現に追加の自由度を与える仕組みで、後続のサービスにも流用されている。ネガティブプロンプトを与えない場合は通常の分類器不使用型誘導と同様に機能する。 ❖ 余談：ネガティブプロンプトネガティブプロンプトはプロンプトを打ち消すものではなく、ネガティブプロンプトを入力したU-Net の出力から、プロンプトを入力したU-Netの出力方向に矢印を伸ばすための始点を定めるイメージ。したがって、プロンプトとネガティブプロンプトを同一にしても内容が相殺されることはなく、プロンプトによる推論点からプロンプトによる推論点に向かう（＝同じ点にただ貼り付く）だけである。つまり、単にネガティブプロンプトを与えずCFGスケールを1にした場合と同様の結果となる（論文的な記述では分類器不使用型誘導の重み　　　と同等）。逆拡散過程の各ステップでは引くべきノイズの推論が先行するため、以上の性質はサンプラがDDIMのように決定論的であるか、DDPMのように確率的であるかに依らない。 83 1.0 Prompt Negative Prompt Stable Diﬀusion web UI 低品質な生成結果を埋め込み特徴化した手法例 bad_prompt Nerfgun3 https://huggingface.co/datasets/Nerfgun3/bad_prompt EasyNegative gsdf https://huggingface.co/datasets/gsdf/EasyNegative Deep Negative V1.x FapMagi https://civitai.com/models/4629/deep-negative-v1x 後述するTextual Inversion系の埋め込み手法により、敢えて質の悪い生成画像（崩壊した手先や四肢等の人体構造、歪んだり融合した物体）を埋め込んだ手法群。これらをネガティブプロンプトに用いることで、生成品質の劣化や視覚的に不快な生成結果を回避できる確率が高まることが確認されている。

Slide 114

Slide 114 text

HuggingFace や Civtai でのモデル公開を中心に、多種多様なモデルが続々と台頭してきている StableDiffusion派生を中心に、新規モデルが氾濫し続けている。学習元や使用データの情報は必ずしも公開されないため、詳細な繋がりは不明瞭なことが多く、NovelAI Diffusionリークモデルの影響も甚大だと推察されている。主眼をイラスト系生成に置くモデルが多いが、特定属性やキャラクタ、NSFW用途に特化して学習されたものを含めると、樹形図の全体像を把握するのは極めて困難。現状では、各々のライセンスや商用可否を適切に把握した上で、モデルやデータセットの透明性等に潜むリスクについても十分に留意することが推奨される。 ❖ Evt 系列 V2ではNovelAI Diffusionリークモデルのチェックポイントのひとつに基づき、pixiv からのクローリング画像やいくつかのNSFWアニメ画像で構成された15000枚で学習。 V3ではさらに35467枚を追加。 ❖ Elysium 系列高品質な写実的生成用のElysium_V1や、多用途アニメ版であるElysium_Anime_V3 などを展開。VAEに関しては、前者はStableDiffusion、後者はWaifuDiffusion v1.4 から学習された。 ❖ Eimis 系列半写実的なイラストで学習したEimisSemiRealisticや、高品質なアニメ画像で学習したEimisAnimeDiffusion_1.0vが展開されている。 ⋮ 114 終わりなき開発螺旋 ❖ 7th Layer 系列 7th_anime_v2_{A, B, C} やAbyss_7th_{layer, layerG1, anime} など複数のモデルを展開。いずれも高品質であり、それぞれの特徴に細かな差異が存在するが、その出自や学習方針などは明らかになっていない。READMEにはAnything v3.0との定性比較が掲載されている。 ❖ Hentai Diffusion 手や曖昧なポーズ、様々なアングルでの生成の強化を目的としたモデル。Seed値を変えたときのスタイルの一貫性や、連続フレームでの生成における一貫性の維持にも取り組んでいる。 ❖ Baka-Diffusion Danbooruタグで学習されたLDM。複数モデルのマージを基盤としており、今後ファインチューニングによりさらなる性能向上を計画している模様。潜在空間アップスケーリングを適用することで飛躍的な品質向上を達成した。

Slide 115

Slide 115 text

⋮ ❖ ACertain 系列後述するモデルパーソナライズ手法のDreamBoothのための基盤として、他のアニメ特化型モデルよりも慎重に設計された ACertainty、高品質なアニメ系生成が可能な ACertainModel、ACertainModelに基づきAnything v3.0でDreamBooth学習を行ったACertainThingを展開。特にACertainThingでは、Anythin v3.0の過学習性（不十分なプロンプトでも高精細な生成が可能な点を指摘しており、コミュニティからの評価は高いが細部を指示したいときの制御性の面で問題があると主張している）に苦言を呈しつつ、そのようなモデルを歓迎する層も尊重するとし、同様に過学習性を排除しきれないものの高精細な生成が可能なモデルとして ACertainThing を提供。一方、プロンプト設計に精通した層には ACertainModel の使用を推奨している。 ❖ Counterfeit 系列モデルマージに加え、補遺にて紹介するDreamBoothとLoRAを適用して調整したアニメ調生成モデル。V1.0、V2.0、V2.5と経るごとに、定性品質が大きく向上している。 ⋮ 115 ❖ Replicant テスト版では WaifuDiffusion v1.4 と StableDiffusion v2.0 に基づき複数のモデルをマージしつつ、Danbooruタグを用いてファインチューニングしていた。V1.0は WaifuDiffusion v1.5 β に基づく。VAEは Counterfeit V2.5 のものを流用。 ❖ OrangeMixs 系列非常に多くのStableDiffusionマージモデルを内包するモデルカード。特に日本コミュニティで広く好まれるモデルへのアクセスを容易にし、知見を蓄積する目的があると述べられている。単なるパラメータマージのみならず、アーキテクチャにも適宜手を加えている。現時点の最高品質モデルは AbyssOrangeMix3 で、前ナンバリング AbyssOrangeMix2 を総合的に品質向上した上で、その SFW / NSFW モデルマージしたもの。AbyssOrangeMix2は非常に高精細で表現力豊かであり、様々なジャンルに応用できるイラスト系モデル。種々のモデルをU-Netの各ブロックで個別に配合することで、指の骨格などの解剖学的な忠実性を実現しつつ、アニメ調の塗りを維持するモデルとして展開していた。特に AbyssOrangeMix から色のくすみや不自然なボケ効果が抑制されたほか、瑞々しく白い肌の色調のようなイラスト調の表現が改善した。他に、Elysium_Anime_V2に基づくElyOrangeMixやEerieOrangeMix系列、 Anythingに基づくBloodOrangeMix系列を展開するなど、豊富なラインナップを取り揃える。有志により AbyssOrangeMix2 とAnything v4.0をマージしたSkyrMixも公開されている。終わりなき開発螺旋

Slide 116

Slide 116 text

116 ⋮ ❖ [LORA] Flat_Color 後述のLoRAを用い、フラットなイラスト（無地塗りや、影・ハイライト・グラデーションの省略）に特化したモデル。独特の淡い雰囲気が特徴的。人物より背景の描画が得意とのこと。 ❖ Theovercomer8's Contrast Fix Low-Key 画像（全体的に仄暗くコントラストが高いためにドラマチックな雰囲気となる）に特化させたLoRAモデル。StableDiﬀusion 系の弱点を克服するアプローチのひとつ。 ⋮ 終わりなき開発螺旋さらに無数の独自学習モデルやマージモデルへと派生していく。 Civitaiでのモデル共有も白熱している。 HuggingFace上での拡散モデル一覧 SDWebUI　モデル一覧　公開用かたらぎ Feb 13, 2023 ~ https://docs.google.com/document/d/1hjtuTGaGsi6RNRAhJhceh2qwA7LlH6a44Kma8BIcjX4/edit diﬀusers-gallery huggingface-projects Feb 15, 2023 ~ https://huggingface.co/spaces/huggingface-projects/diffusers-gallery ❖ ChilloutMix 日本・韓国・中国風なアジア人女性の写実的画像に特化したマージモデル。これに加え、人形のように整った相貌の韓国人風写実生成に特化したLoRAモデルであるKorean Doll Likeness、アズールレーンの特定キャラクタに特化したLoRAモデル HMS Cheshire を組み合わせることで、アニメテイストな衣装を纏いつつ極めて写実的な女性の画像生成を実現したユーザーも現れ、一時期「AIコスプレイヤー」として賛否を呼んだ。実在する人物の再現や、実在する人物の名を冠した派生モデルの作成・公開は控えるよう免責事項で呼びかけられていたが、その写実性の高さゆえに一部の過激な表現や商用目的で利用されるケースが散見され、Feb 28, 2023 に制作者判断で公開停止措置が講じられた。しかしながら、翌日には Civitai に管轄移譲された状態で再公開に至った。

Slide 117

Slide 117 text

制作支援ソフトウェア等にもAIが搭載されていく流れ界隈への影響がセンシティブであることには注意が必要なものの、適切な利用による恩恵の享受を目指して競争は苛烈化していくものと想像される。一方で、CLIP STUDIO PAINTのように利用者からの反発や抗議意見（AIに対する嫌悪感だけでなく、AIを用いて作品制作を行なっていないことの証明が不可能となってしまうことへの危惧）を受け搭載を取りやめたサービスも存在し、慎重なサービス展開が求められる。 ❖ Apple StableDiﬀusionをCore MLへ最適化。macOS Ventura 13.1 Beta 4やiOS and iPadOS 16.2 Beta 4から利用可能。Appleシリコン搭載機器に向けたOSSも公開。 ❖ Adobe PluginとしてPhotoshopにStableDiﬀusionを用いるものが登場。また、独自の技術開発により、クリエイターを尊重したクリーンな支援AIを今後展開する方針としている。 ❖ Figma Text2ImageやText2Iconによりデザイン制作を支援するMagicianを展開中。 ❖ Runway 様々なAI支援機能（AI Magic Tools）を搭載したプラットフォームを展開。特に動画編集に特化した機能が豊富に取り揃えられている。 ⋮ 117 終わりなき開発螺旋 ❖ Prisma Labs Lensa AIと呼ばれる画像・動画編集アプリを展開。Nov 21, 2022 に自撮りからのイラスト風アバター生成機能が追加され、リリース直後から爆発的な人気と売り上げを記録した。 ❖ Roblox 仮想空間での交流や多種多様なゲーム体験を提供するプラットフォーム Roblox にて、 Feb 17, 2023、『今後数週間で2つの生成AIツールのロールアウトを計画している』旨がアナウンスされた。テキストプロンプトからのマテリアル生成、およびコード生成機能である。より広く生成系AIの技術が応用される形。公開されたデモでは、プロンプト入力によって環境内の車体のテクスチャを変更したり、車を浮遊させたり、ヘッドライトを点灯させたり、天候を変化させたりする様子が紹介された。 ❖ Blender 後述するControlNetを搭載したでもスクリプトが有志により開発された。 Blenderで作成した人物のポーズに基づく画像生成を、Blenderを開いたままシームレスに実行可能。

Slide 119

Slide 119 text

VTuberという媒体を通じて、倫理的によりクリーンなモデルの共創を目指す動きも Dec 26, 2022 |　Abstract Engineにより運営されるVTuber『絵藍ミツア』がデビュー。 ❖ CC0または許諾を得た著作画像のみでU-Net部を学習した『Mitsua Diffusion CC0』を公開 StableDiffusion v2.1のテキストエンコーダとVAE部を流用しつつ、画像生成の肝であるU-Net部をフルスクラッチで学習。現段階では極めて低品質で多様性に欠けると断りを入れつつ、既存モデルやサービスよりも倫理軸を重視したモデルとなっている。VAE部の学習もさらなる展望であるとしている。 ❖ 『#みつあ勉強用』でツイートされたテキストや画像を取り入れて段階的に学習していくハッシュタグを含むテキストツイートから連想される画像をオプトイン申請済みのTwitterアカウントのみから収集し、Mitsua Diffusion CC0への追加データセットとして用いる。加えて、ハッシュタグ付きの画像ツイートを選択的に学習データに取り込む。これらの追加学習データはモデルの方向性に大きく寄与することから、提供数に応じた返礼を展開する方針。一連の追加学習は都度 Mitsua Diffusion CC0 から改めて行われることとなっており、各時点でデータセットから除外された画像は、以降のモデルに影響を及ぼさない設計となっている。したがって、任意の時点でオプトインを解除した場合、それ以降のモデルに影響が残り続けることはない。リリース当初はオプトアウトに基づくデータ収集過程を含んでいたが、オプトアウトに依存するデータ除外は転じて「沈黙によるデータ利用を是とする一方的な意思確認である」旨の批判意見を受け、極めて迅速に完全なオプトイン方式への転換が決定された。終わりなき開発螺旋 119 Mitsua Diffusion CC0 Model Card Mitsua https://huggingface.co/Mitsua/mitsua-diffusion-cc0 『絵藍ミツア』公式サイト Abstract Engine https://elanmitsua.com/

Slide 120

Slide 120 text

最新技術の動向にキャッチアップする最初の入り口に一次資料を直接読み解いていくことに困難さや抵抗がある場合は、情報集約ポータルから興味を持ったプレスリリースや解説記事を中心に参照していくのもおすすめ。 120 大きなうねりを俯瞰し続けるために『日刊画像生成AI』やまかず変化が速すぎる画像生成AI界隈の最新情報を毎日お届けいたします。AI界全体から、最近流行りのStable Diffusion、OpenAI、Midjourney、Disco DIffusionや、Arxivに登場した関連技術まで紹介。日刊画像生成AI (2022年11月1日) やまかず画像生成AI界は、今認識できないスピードで進化をし続けています。 DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開され、日々とても早いスピードで変化しています。[...] https://note.com/yamkaz/n/n528194813303 ?magazine_key=mad0bd7dabc99 https://twitter.com/i/events/1560957489730179077 日刊画像生成AI (2022年9月1日) やまかず画像生成AI界は、今認識できないスピードで進化をし続けています。 DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。[...] https://note.com/yamkaz/n/nba7ab0f74699? magazine_key=mad0bd7dabc99 … https://note.com/yamkaz/m/mad0bd7dabc99 … https://note.com/yamkaz/n/n0a0ae2872c0b ?magazine_key=mad0bd7dabc99 日刊画像生成AI (2022年11月26-27日) やまかずジェネレーティブAI界は、今とても早いスピードで進化し続けています。そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。[...]

Slide 121

Slide 121 text

最新技術の動向にキャッチアップする最初の入り口に一次資料を直接読み解いていくことに困難さや抵抗がある場合は、情報集約ポータルから興味を持ったプレスリリースや解説記事を中心に参照していくのもおすすめ。 121 大きなうねりを俯瞰し続けるために https://note.com/yamkaz/m/mad0bd7dabc99 『日刊画像生成AI』やまかず変化が速すぎる画像生成AI界隈の最新情報を毎日お届けいたします。[...] https://note.com/yamkaz/n/n0a0ae2872c0b ?magazine_key=mad0bd7dabc99 日刊画像生成AI (2022年11月26-27日) やまかずジェネレーティブAI界は、今とても早いスピードで進化し続けています。そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。[...] https://twitter.com/i/events/1560957489730179077 ジェネレーティブAIの実験, 最新情報 [まとめ] やまかず最新のAIツールの情報、実験を発信しています。もっと詳しく知りたい人は日刊にまとめてるのでぜひ [...] … やまかず　 @Yamkaz 7:30 AM · Dec 7, 2022 https://twitter.com/Yamkaz/status/1600256341175504896 やまかず　 @Yamkaz 6:18 AM · Dec 6, 2022 https://twitter.com/Yamkaz/status/1599875848114688001 やまかず　 @Yamkaz 8:06 PM · Dec 4, 2022 https://twitter.com/Yamkaz/status/1599359560078479360 … … 特にやまかず氏のTwitterアカウントは、国内で生成AI界隈の話題を迅速に情報提供してくれる貴重な発信源のひとつ。まとめだけでなく、ホームを直接訪れるのもおすすめ。

Slide 122

Slide 122 text

そして我々はどこへいくのか実際にこれまでに膨大な量の画像を生成し、数ある表現の奔流から作品たりうる何かを選び取る作業を続けてきたデザイナーが綴る思索の海。蓄積された人々の芸術的営み、その歴史を功罪と共に取り込んだ画像生成技術は、いわば集合知として凝集された数多の発想の揺り籠であり、時に非実在の意図すら画面上に創発させる。作品を著す行為とは、作家性とは、そして新たに広がる道具性の地平とは。AIとの付き合い方を巡る、これまでとこれからの可能性についての考察。 122 AI画像生成の潮流は我々に何をもたらしたのか AIは表現のどこにいるのか Domain [...] 欲しかったものはこれだったろうか？そんな疑問が頭をよぎる。満足はできても、味わうことができない。薄ぺらく最高に「それらしい」視覚像たちがただただ堆積していく。2万枚。視覚ポルノという表現があるが、まさにそれだ。快楽のためにのみ存在する図像(イメージ)たち。日夜、我々はSNSなどを通じて確かにそこに視覚的快楽を求めている。しかしそれ以上を求めたい気持ちもある。純粋な刺激の快楽以上に満たされるものを求めている。感じる空虚さはより高い快楽を求めているにすぎない。強欲である。そしてその先には知的好奇心と人生と芸術とが待ち構えている。そこに画像生成AIは存在しているだろうか。[...] https://domaindesign.co/column/where-is-ai-in-expression Oct 25, 2022 筆者による記事の紹介や作例 sabakichi 　 @knshtyk 8:20 PM · Oct 25, 2022 https://twitter.com/knshtyk/status/1584867562160287747 sabakichi 　 @knshtyk 3:35 PM · Oct 20, 2022 https://twitter.com/knshtyk/status/1582983822244974593 sabakichi 　 @knshtyk 9:18 PM · Oct 20, 2022 https://twitter.com/knshtyk/status/1583070100617592834

Slide 124

Slide 124 text

124 著作権など権利関係の話 AIによる画像生成は方々で物議を醸している ❖ 画像生成AIの浸透に伴い、国内でも注目度が高い領域国産サービスの mimic が停止に追い込まれ、規約を再訂してリリースしたのは記憶に新しい。慎重な決定は英断だったと思われる傍ら、著作確認を都度行うなど人的負担も大きく、同様の対応でスケールし続けることには困難を伴うことも予想される。一方、昨今の技術ではユーザーが特定の対象や画風を模倣するモデルを自前で学習することはますます容易になっており、課題意識は解決するばかりかより広範に認知されつつある。 ❖ 生成画像による出版物も増加傾向にある黎明期は特にR18対象の作品が氾濫した。また、SFW用途でも画集が企画されたり、漫画や動画、ゲームの素材として活用されるなど、需要と注目が高まっている。権利関係の議題や対応が成熟するより早く、生成画像の販売産業に人が流入している。 ❖ 拡がるグレーゾーンと座礁地帯特にドメイン特化型モデルの学習に関して、著作権者の利益を不当に害することとなる場合や、既存作品と酷似した生成画像の著作権侵害性がどのように解釈されるかなど、議論は尽くされていない。また、高品質ゆえに広く浸透してしまったリークモデルの派生についても、問題視する向きが広がりつつある。 ❖ 法の専門家が権利関係の解説記事を出すなど影響力は大きい生成画像に著作権は生じるのか？勝手にデータを収集していいのか？収集したデータで学習したモデルは商用利用できるのか？創作物が学習データに勝手に含まれることを止める手立てはないのか？権利侵害が発生した場合誰が責任を負うのか？ Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権（その2） STORIA法律事務所 Sep 21, 2022 https://storialaw.jp/blog/8820 画像生成AIと著作権を弁護士が解説　Stable Diffusion流行やmimic炎上 KAI-YOU Sep 22, 2022 https://premium.kai-you.net/article/574 Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権 STORIA法律事務所 Aug 31, 2022 https://storialaw.jp/blog/8820 進化する機械学習パラダイス～改正著作権法が日本のAI開発をさらに加速する～ STORIA法律事務所 Sep 2, 2018 https://storialaw.jp/blog/4936 弁護士が解説するAIイラストの法律問題-著作権で保護される／保護されないAIイラスト弁護士　谷　直樹 Nov 11, 2022 https://note.com/naokitani_lawyer/n/n431da710c77e

Slide 125

Slide 125 text

125 著作権など権利関係の話生成画像に著作権は生じるのか？ ❖ 本邦でも一意に解釈が定まらない論点一般に、日本国内で著作権が認められるためには、対象となる作品に対する『創作的寄与』の介在が必要不可欠である。この創作的寄与をどの段階から認めるかについては専門家の間でも意見が分かれる部分であるが、最も基本的な解釈では、AIにより単に自動生成された画像に著作権は存在しないとの見方がベースとなる。一方で、現在の生成画像界隈では『試行錯誤の末に設計された複雑なプロンプトに基づき、大量に生成した画像群から自身で選択する』流れも一般的となりつつあるが、これらの行為には創作的寄与が認められるとする立場もある。さらに、生成画像に人手で加筆修正等の加工を施した場合についても、どの程度から著作権が認められるかについての統一的な見解はない。そもそも、全体に対して著作権が認められうる十分な加工割合を明確に策定するのは難しい（全体に対する加工割合を定量的観点・定性的観点をバランスよく踏まえつつ判断すること自体が難しいため、事例ごとの個別判断となりえてしまう）。 ❖ 米国では、MidJourneyを用いた漫画の著作権登録が修正された生成画像の著作権の有無を巡る注目度の高い事例のひとつとして、Feb 21, 2023、米国の著作権局がKristina Kashtanova氏の漫画作品『Zarya of the Dawn』内の画像に著作権を認めない見解を示したことが話題となった。当該作品はもともと、証明書発行までを含めた著作権登録が Sep 15, 2022 までには為されていたが、作品中に MidJourney にて生成した画像を含むことを踏まえて再審査され、最終的には当初の著作権登録の取り消しと、作者の寄与が認められる部分（文字情報と視覚的要素の選択や調整、および配置）に関する著作権保護を明文化した証明書の再発行に至った。本件では、MidJourneyを用いた画像生成における制御性が十分でない点が指摘された。また、プロンプトを勘案するユーザーは実際に画像を形作っているわけではなく、したがって、その背後の創造的主体とは見做されないとも主張された。作品内で施された著者による画像編集についても、それを理由にして著作権を認めるほどの創造性は認められないとした。本件が今後にひとつの指針を示す先行事例であることは論を俟たないが、一方あくまで個別事例への判断であること、および裁判所による司法判断ではないことには留意が必要である。 Re: Zarya of the Dawn (Registration # VAu001480196) United States Copyright Oﬃce Feb 21, 2023 https://copyright.gov/docs/zarya-of-the-dawn.pdf

Slide 126

Slide 126 text

訓練データセットの不透明性先述のDanbooruは海外のイラスト掲載サイトであり、pixivやTwitter等の作品も大量に収集されている。無断転載であるとの声が主流な一方、作品に作者名やURLなどの出展元情報も併記されており、フェアユースの範疇であるとの意見も一部ではある（Pinterest等と同様にキュレーションを行っているだけとの見方）。いずれにせよ、運営元が海外であることから、本邦の著作権法のみならず、必要に応じて米国のフェアユース思想や国際的なベルヌ条約等の枠組みを総合して考える必要があり、事態は複雑である。 ❖ 権利逃れできる大規模データセット抽出の温床として機能してしまっている Danbooruでは豊富なタグづけがなされており、Text2Imageの学習と相性が良い。検索性もよく、pixivやTwitter等での検索や、単純なWEBクローリングよりもデータを収集しやすい点も利用に拍車をかけた要因と見られる。Danbooru 2021(4.9M) などへのデータセット化も為されているほか、大規模画像データセットである LAION-5B の一部にもDanbooru由来の画像が含まれていることが知られている。よりNSFW寄りの画像掲載サイトとして Gelbooru や rule34、yande.re なども存在し、問題を根本から断つことは難しい。 ❖ DanborouではDMCA申請により無許可の転載を削除可能画像権利者の申し立てにより、既に数万件の転載画像が削除された模様。しかしながら、既に学習されてしまったモデルから影響を除去することは難しい。データセット未開示の MidJourney 系列も、生成結果から学習元の透明性が危惧されつつある例えば NijiJourney では、キャラクタ名を指定した二次創作風生成、手書きイラストを撮影した写真風の生成、アニメのキャプチャ風生成など、非常に幅広いテイストで生成可能であることが複数のユーザーにより確認されている。そのような背景から、データセットの構築過程に関心が高まるが、現段階では詳らかになっていない。今後のAI開発では、WaifuDiﬀusionやNovelAI Diﬀusionで見られたように市井の反発感情を煽ってしまうリスクを回避する目的で、使用データセットについては秘匿する流れが広まっていく可能性もある。 126 著作権など権利関係の話

Slide 129

Slide 129 text

立場の違いによる軋轢や不和も起きはじめている ❖ AIを積極的に創作活動に利用する層呪言体系の構築を楽しんでいたり。生成絵を加筆、修正、組み合わせて用いたり、構図の参考にしたりするなどの利活用をしたり。道具として今後益々AIが普及する未来を想定し、情報収集や試行錯誤で最先端の知見を蓄積しようと努める層も。一方、Text2Imageの大衆化から一定の期間が経ち、利用派や推進派の間でも主義主張の違いで軋轢が生じる場面も観測されている。興味深く注視しているが、体裁的に反対表明している人も。 ❖ AI反対運動法的拘束力はないものの、AI学習に画像提供をしないよう注意書きをする運動が起きたり。「もうインターネットにはイラストを上げない」と主張するクリエイターが現れてしまったり。自身で技術を会得したわけではない人々が「イラストレーター」や「絵師」を名乗ることへの拒否反応が生じたり。「AIで描いていないこと」自体がアピールできる価値と見做されるようになったり。「絵を描く行為」の価値や歴史が踏み躙られたり、文化盗用であると感じ、AI生成画像やそのコミュニティに拒否反応を示す人も多い。国内では、ツールの一部としてAIの使用方法を解説したクリエイターが抗議意見や脅迫により動画を取り下げるに至った事例も。 Dec 13, 2022 頃には、巨大画像共有プラットフォーム ArtStationで多くの海外アーティストが画像のサムネイルを「AI禁止マーク」に準ずるものに差し替えるなど、AI画像生成技術に対する抗議運動が大きなムーブメントとして発生していた。一方で Dec 28, 2022 頃には既に、運営元のEpic Gamesにより、そのような抗議画像は徐々に非表示化されはじめていた模様。 129 二分されるクリエイターの反応

Slide 130

Slide 130 text

デジタルの世界で簡単に流通するデータを完全に規制するのは難しい AI生成画像が普及する以前から認知されていた問題が、より重篤な色を帯びて立ちはだかっている。 ❖ どのような技術も必ず悪用されうる母数の急速な拡大に伴い、ユーザー間の潜在的な価値観の差が浮き彫りとなる形に。訴求力の高い技術ならなおさら負の側面も強まりうる。中には、絵を描けない人がルサンチマンを解消する手段にしているとの指摘や、これまで承認欲求を満たす手段のなかった人々の一部が道具を手に入れたことで見境のない活動に傾倒しているとの指摘も。AI反対派のイラストレーターに対し、その著作を無断で画像生成に利用し敢えて公開するユーザー層の存在も確認されるなど、推進派の内部からも溝を深める動きが散見される。 ❖ 悪用者のモラルに訴えるやり方だけでは問題は根治しない高水準な技術ほど、利用者の最低モラルを想定したリスク管理が重要な世の中へなることが予想される。法整備から影響力の大きい企業の積極的な問題への関与、個々人のモラル啓蒙のレベルまで、様々なレイヤーで包括的な仕組みを構築していく必要性。 130 倫理と法はどこまで遵守されうるのか ❖ 配信中のイラストにImg2Imgが適用され、無断投稿される事件も発生例えば、最初期に特に大きく取り沙汰された Oct 13, 2022 の事案では、Twitchにてまさに筆を走らせている途中だった作品が無断でスクリーンショットされ、 Img2Img 適用後にオリジナルより早く投稿されるという事案が発生した。このとき、無断利用したユーザーは『自身の方が 5~6時間も早く投稿した事実』を盾に、注意喚起をしていた被害者のイラストレーターがむしろ自身のAI作品を参考にしたのではないかと、自己の行為について正当性を主張した。本件は人目に明らかであったため、幸いにも収束。事件は大きな話題を呼び、無断利用したユーザーは後にアカウント削除に至った。しかしながら、類似事案が増加すると取り締まれなくなってくる恐れも。実際に国内でも、他者の創作作品をImg2Imgした疑惑が濃厚な画像群を自作のAI 生成作品として公開していたアカウントが有志の検証によりその後追及を受けるなど、類似事案が複数観測されている。この際、元画像を左右反転した形跡が確認されるなど、自覚的な隠蔽操作の介在が疑われたことも、AI画像生成界隈の印象を悪化させた一因であった。

Slide 131

Slide 131 text

Dec 15, 2022 - Mar 03, 2023 | 　StableDiffusion v3.0 の学習に先立ち、Spawningがアーティストにオプトアウト申請を呼びかけ Spawningは、LAIONデータセットに著作画像が含まれていないかを確認できるサイト「Have I Been Trained?」を運営するなど、アーティストとAI開発の中庸を目指す企業。StableDiffusionの開発組織のひとつであるStabilityAIと提携し、StableDiffusionの次期バージョンの学習時、著作画像をデータセットに含めて欲しくないアーティストの意向（オプトアウト）を反映する態勢を整えていることを公表した。 ❖ アーティストの意向を尊重したAI学習への最初の一歩現状では検索した画像を1枚1枚設定するほかなく、同一作者やドメインの画像をまとめて設定するような使い勝手の良いUIは今後の課題だとしている。また、厳密な著作者確認は介在しないため、悪意をもった仕組みの利用者が存在する場合に混乱が生じる可能性も否めない。加えて、現段階ではHave I Been Trained? にて検索可能な画像群での対応に留まるため、そのほかのドメインで収集した画像群がデータセットとして利用される限りにおいてはスコープ外となる。一方、これまで一方的に推し進められてきたAI学習がアーティストの感情や信頼を損ねている現状を改善するための、一定の有意義なマイルストーンではあると考えられる。 Feb 25, 2023 にはさらに、本人確認を経た上でのオプトイン方式の導入が進行していることも公表された。とはいえ、オプトアウトとの併用ではオプトイン方式の強みが十全に活かされるとは言いがたく、今後、一般への影響力を持つAIサービス提供者全体にとっての標準や指針となるような、より包括的な仕組み作りが期待される。 Dec 27, 2022 |　先述した『絵藍みつあ』ではオプトイン方式を採用データ利用禁止表明のみに基づくデータ収集は一方的であるというオプトアウトの性質を改善するため、利用者から明確な許諾意思表示があった場合にのみデータを使用するオプトイン方式の重要性が高まっている。『絵藍みつあ』はCC0およびオプトインに基づく画像のみからモデルを学習するスキームであり、よりクリーンな学習を目指す。一方で、CC0のみの利用でさえも苦言を呈する声もあり、そのような主張の理想的な行き先は既存画像を全く利用しないゼロベースのモデル学習である。現行技術では極めて困難であり、議論は平行線となりうる。 131 著作画像が無断で用いられないための枠組み作りに向けて Have I Been Trained? Spawning https://haveibeentrained.com/ Haveibeentrained.com: Opt out of AI training Spawning https://www.youtube.com/watch?v=4lf8feiiVLg

Slide 134

Slide 134 text

134 Video Diffusion Models [Google] Apr 07, 2022 |　Diffusionを用いた初のText2Videoモデルテキストにより条件付けされた16フレームの64x64動画生成を実現。動画長の延長や解像度の向上も可能。 ❖ 動画生成のために3D U-Netを採用 3D Conv層の計算量の高さを回避するため、時空間方向に要素分解したモデルとして、空間方向の Conv層、空間方向のAttention、および時間方向のAttentionでU-Netを構成。16フレームを固定長生成する。また、時間方向のAttentionを必要に応じてマスクすることで各フレームを独立に扱うこともでき、これによって動画と画像の同時学習を可能とした。 VDM ではランダムな他動画のフレームを画像的に挿入することでバッチ内統計量を安定化させ、最終的な性能向上に寄与したとしている。将来的な展望として、動画よりも豊富に存在する画像データの利活用が挙げられている。 ❖ 条件付け自己回帰により任意長の動画生成が可能フレーム補間や後続フレーム群の生成モデルを明示的に学習するモデルは用意せず、上記の3D U- Netを再利用して既に生成した動画の続きを生成する条件付け手法を提案。置換手法と称されるこの手法では、既に生成した動画部分　と、これから生成したい後続部分　を繋げたノイズ付与フレーム群　　　　　に対して学習済みモデルを適用しつつ、既存部分　については都度　に拡散過程を適用したもので置き換えていき条件付けを行う。ただし、ナイーブにこの方法を適用すると前後半の境界部分が不自然になるという観察結果から、さらに正確な理論導出を行い、接続した潜在フレーム群　が与えられたときの　の生成確率を近似して逆過程の推論に用いることで品質向上。同様の知見を解像度のアップサンプリングにも応用した。 Figure citation | Video Diffusion Models [Ho et al., ICLR WS 2022 & NeurIPS 2022] [24] [参考] Video Diffusion Modelsのデモ動画 https://video-diffusion.github.io/ ▲ [24: Figure 2, Figure 5] より引用。提案手法によるテキストからの動画生成例。それぞれ上段が元となる16フレームの64x64動画。下段は、超解像と自己回帰延長により上段の結果を64フレームの128x128動画に拡張したもの。

Slide 138

Slide 138 text

138 Imagen Video [Google Brain] Imagenをベースに時間方向へモデル構造を拡張 Make-A-Videoと異なり、テキストと動画のペアを有効に活用するための仕組み。 ❖ テキストから複数フレーム生成後、段階的に時空間方向へ超解像事前学習済み T5-XXL によってテキストを符号化したのち、コアとなる拡散モデル、3 段階の空間方向超解像、3段階の時間方向超解像が控える。それぞれのモジュールは独立して学習できるほか、超解像モジュールについては実動画に対するモジュールとしても機能する。空間方向はフレームごとに共通の重みで独立して処理。コアとなる拡散モデルは空間方向の Conv層、空間方向のAttention、および時間方向の Attentionから成る。メモリ効率化のため、超解像では時間方向のAttentionをConv層で置き換えているほか、最高解像度の空間超解像モデルは完全な CNNs となっている。各モデルはノイズではなく、後述するProgressive Distilationで提案された、DDIMを回転角解釈することで登場する速度の概念を代替の予測対象として学習する。 Figure citation | Imagen Video: High Deﬁnition Video Generation with Diﬀusion Models [Ho et al., 2022] [26] ❖ 画像と動画は別々ではなく同時に学習画像は1フレームの動画と見做し、適切にマスクしてバッチに加える。動画テキストペアよりも圧倒的に豊富な画像テキストペアを利用した同時学習により、大幅に品質向上。さらに、画像から動画への知識転移が発生する興味深い副次効果も確認。実世界の動画から学習したモデルは自然界の動きしか表現することはできないが、そこに画像テキストペアにより獲得された様々な画像スタイル（スケッチや絵画など）が混合されることにより、より多様な動画生成が実現された。データセットには内部保有の1400万件のテキスト動画ペアと6000万件のテキスト画像ペア、およびLAION-400Mを使用。 ▲ [26: Figure 6] より引用。 Imagen Videoのパイプライン。 ▲ [26: Figure 7] より引用。動画を処理するU-Netの構造。フレームは独立に処理され、その出力が時系列的に統合される。

Slide 140

Slide 140 text

140 MagicVideo [ByteDance] ❖ フレーム間処理において、計算量低減のための適合器ブロックを提案各フレームは事前学習済み StableDiffusion の VAE によってフレームごとに潜在空間に圧縮されたのち、まず 2D Conv層が適用され、その後、適合器に通される。適合器は 1D Conv層や線形層より単純な仕組みで、特徴量の統計量を調整するために、単にパラメータとの要素積や加算が計算される。 ❖ 時系列を考慮した動作特徴抽出のため有向 Self-Attention を適用適合器に通された特徴量は、先行研究と同様に U-Net の複数の解像度ブロックでAttentionが適用される。空間方向ではSelf-AttentionおよびCLIPによるテキスト埋め込みを用いた Cross-Attentionを計算、フレーム間では各ピクセル座標ごとに時系列的な特徴量を抽出するための有向Self-Attention を適用し、それぞれの計算結果を加算する。有向 Self-Attentionでは三角マスクを適用することで、全てのトークンが自身より過去のトークンのみに影響され、未来のトークンの情報を用いないようにした。Transformerによる自己回帰生成のデコーダに適用する因果的マスクと同様な発想。 ❖ フレーム補間と超解像により最終出力を獲得学習時は訓練データの一部から一様に16フレームを切り出し使用。この際、Transformerの位置埋め込みと類似の発想で動画のFPSを埋め込み、条件付けに加えている。推論時は16枚のキーフレームを生成し、2段階のフレーム補間により61フレームへ。LDMの256x256の出力は画像データによって学習された超解像モデルにより、フレームごとに1024x1024へアップサンプリングされる。 Figure citation | MagicVideo: Efficient Video Generation With Latent Diffusion Models [Zhou et al., 2022] [27] ▲ [27: Figure 4, Figure 5] より抜粋。 2種類のAttentionを組み合わせることで、生成動画の多様性と一貫性を考慮できると主張。また、FPS埋め込みによってフレーム間の遷移の滑らかさや全体としての動きの大きさが制御できている。 ▲ [27: Figure 3] より引用。　 MagicVideoの概要。

Slide 141

Slide 141 text

141 Tune-A-Video [Show Lab, ARC Lab, Tencent, NUS SoC] Dec 22, 2022 |　One-Shot動画生成の提案大量の動画データを用いる高コストな学習を行わず、事前学習済みText2Imageモデルを有効活用する手法。単一のテキスト動画ペアに基づいて多様な動画を生成する。 ❖ 既存Text2Imageモデルの特性解析 LDMの性質を実験的に調べ、動詞句の反映性が高いこと、およびSelf-Attentionを拡張して複数画像を同時生成すると、動きに連続性はないものの、生成対象のコンテンツには一貫性が見られることに着目。これらに基づき、既存モデルを時間方向に拡張しつつ、入力動画から One-Shot で連続的な運動力学を捉える手法を考案。事前学習済みモデルを利用できる点、および用意する動画がひとつでよい点から、既存の動画生成モデルよりも低コストとなる。 ❖ One-Shot動画生成 Text2Videoにおける新たなタスク設定としてOne-Shot動画生成を定義。まず、mフレームから成る単一の動画と、その説明文が与えられる。タスクの目的は、与説明文と動詞を共有する任意のテキストを入力に、新たな動画を生成することである。このときの入力テキストは、元の説明文から主語や述語、背景、属性等が変わりうる。 Figure citation | Tune-A-Video: One-Shot Tuning of Image Diﬀusion Models for Text-to-Video Generation [Wu et al., 2022] [28] ▲ [28: Figure 1] より引用。与えられたテキスト動画ペア（最上段）に対し、様々なプロンプトで変換した例。元動画の特徴を残しつつ、時系列的に一貫した異なる動画を生成することができている。 [参考] Tune-A-Video のデモ動画 https://tuneavideo.github.io/ ▲ [28: Figure 9] より引用。ただし、図を縦並びから横並びへ改変。先行研究 CogVideo（上段）と提案手法（下段）の定性比較。

Slide 142

Slide 142 text

142 Tune-A-Video [Show Lab, ARC Lab, Tencent, NUS SoC] ❖ Text2Image用U-Netの拡張 Video Diffusion Modelsのベースラインを参考に、空間方向のConv層は時間方向に伸ばさず（e.g., 3x3 Conv→1x3x3 Conv）、因果的マスクを伴う時間方向のSelf-Attention を追加。ただし、単に軸分解したこれらの構成では一貫した内容の生成には不十分であるとし、空間方向を見つつ因果的な処理を行うAttentionをさらに追加することを提案。 ❖ SC-Attention フレームごとに独立処理する通常の空間方向 Self-Attention を、時空間領域に拡張。ただし、全てのフレームを同時に処理するのは計算量の観点で非現実的なことから、時空間的にスパースな因果的マスクを適用する SC-Attention を提案。SC-Attentionでは、各フレームにおいて、動画の最初のフレームと自身の直前のフレームのみに注目する。これにより、計算量増加を大幅に抑制しつつ、動画全体に共通する情報と動きの連続性情報を効率的に考慮したAttentionが可能となる。自己回帰の要領で長時間生成も可能。 Figure citation | Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [Wu et al., 2022] [28] 時空間的にフレーム間の特徴を抽出するAttentionの例。図最右のスパースな因果的マスクを提案。　　　　　 ▼ [28: Figure 6] より引用。 ❖ One-Shotチューニング時間方向に拡張したU-Netを、与えられた単一の動画を再構成するようファインチューニング。ここでの目的は、与えられた動画の動きの情報を抽出することである。学習するパラメータは、新たに追加され時間方向のSelf-Attention、および SC-Attentionと空間方向のAttentionそれぞれのQueryを射影する重みのみとする。モデルの挙動を極力維持しつつ、効率的に学習可能。 ❖ 多様な応用と評価先述のように、与動画の主体や背景、属性を変えた動画を生成できるほか、画像生成におけるスタイル転移のような応用（e.g., イラスト調生成）もできることを示した。生成品質に関しては、フレームごとのCLIPスコアや人手の品質評価において、先行研究のCogVideoを大きく凌駕した。実験では学習済みの StableDiffusion を用いて Tune-A-Video を学習したが、大量の動画データで学習された CogVideo と比較しても、より高品質な生成ができていることを定性的に確認。Text2Imageモデルの事前知識を有効に転用できることを示した。 ▲ [28: Figure 4] より引用。 Tune-A-Videoのパイプライン。

Slide 144

Slide 144 text

144 Gen-1 [Runway] Feb 06, 2023 |　テキストや画像による動画編集新たな誘導手法で時系列的な一貫性を明示的に制御しつつ、画像と動画で同時学習。動画の内容と構成の詳細な操作や、少数の参照画像による動画のカスタマイズなど、多様な応用例を提示した。学習データは動画およびテキスト画像ペアであり、既存の画像生成技術の知見を応用しつつ、テキスト動画ペアを潤沢に用意することが困難であるという課題を回避する。 ❖ 動画内容と構成の制御論文では、語の用法として、『動画の意味や外観を表現する、色や描画対象のスタイル、シーンライティング等の特徴』を動画の内容、『対象の位置や形状といった幾何的要素、および時間変化に伴う動作を表現する特徴』を動画の構成と定義している。提案手法の目的は、動画の構成を保ちながら内容を編集すること。 ❖ LDMの応用動画学習と同時に大量の画像データを有効活用したいという意図から、 LDMに時間方向の処理を追加しつつ、動画入力の際にのみ追加モジュールを使用する。その他のパラメータは動画と画像の処理で共有される。また、LDMのオートエンコーダは凍結。動画をフレーム単位で独立に潜在空間へ射影したり、潜在空間から画像空間へ復元したりする。 Figure citation | Structure and Content-Guided Video Synthesis with Diﬀusion Models [Esser et al., 2023] [29] [参考] Gen-1 のデモ動画 https://research.runwayml.com/gen1 ▲ [29: Figure 1] より引用。中段が入力動画。上段はプロンプトから、下段は参考画像に基づき編集生成された動画。 ▲ [29: Figure 8] より引用。上段の入力動画に対し、中段のマスク部分を変化させないようにして動画生成した例。背景のみが編集されていること、また背景の外観が維持されたままプロンプトに応じて別のシーンに変化していることが見てとれる。

Slide 145

Slide 145 text

❖ 時間方向へのU-Netの拡張と条件付け右下図に示すように、時間方向の1D Conv層と1D Attention層をそれぞれ追加。後者については学習可能なフレーム番号埋め込みも導入。またGen-1では、動画の内容と構成を明示的に条件付けとして与えることで、制御性の向上を図る。具体的には、訓練時は入力動画から内容と構成の埋め込み表現を獲得するモジュールを学習し、推論時は入力動画から構成の埋め込みを、編集指示となるプロンプトや画像から内容の埋め込み獲得し、モデルを条件付けする。 ❖ 内容と構成の埋め込み表現の獲得動画内容の表現にはCLIPの画像埋め込みを採用。訓練時は、入力動画からランダムなフレームを埋め込んで用いる。推論時にテキストが与えられる場合は、DALL·E 2と同様の発想でCLIP のテキスト埋め込みから画像埋め込みを推定し、Cross-Attentionにて条件付け。一方、動画構成の表現には、内容表現と分離性能の高い特徴として深度推定を採用。MiDaSの推定結果を　で符号化し、U-Netの入力に結合して条件付け。 145 Gen-1 [Runway] Figure citation | Structure and Content-Guided Video Synthesis with Diﬀusion Models [Esser et al., 2023] [29] ▲ [29: Figure 2] より引用。 Gen-1の概要。訓練では、動画の各フレームを潜在空間に射影し、内容と構成の条件付けを与えながら時空間的な拡散モデルを学習。空間的な2D Conv層の後には時間方向の1D Conv層を、空間的な2D Attentionブロックの後には時間方向の1D Attenionを追加することで、画像処理用のU-Netを動画用に拡張。 ▼ [29: Figure 3] より引用。 ❖ 複合的な分類器不使用型誘導 Gen-1は2種類の条件付けを持つほか、画像データを1フレームの動画として訓練しているため、同一の入力からいずれの生成もできる。これを利用し、画像予測としての結果を原点に動画予測方向に延伸するような誘導を加えることで、時系列的な一貫性を促進することに成功。このとき、動画予測の各フレームに対し、同じ画像予測を用いて誘導する。結果、次のように複合した誘導を提案。 ❖ 訓練は複数段階に慎重に分割学習済み StableDiﬀusion で初期化し、CLIPテキスト埋め込みを画像埋め込みに変更して画像のみで15Kステップ訓練。その後、時間方向の改修を加え、動画と画像で75Kステップ同時学習。次いで、構成条件付けを加え25Kステップ訓練。最後に、構成条件付けである深度マップを段階的にぼかしたり低解像度化したりするオーグメンテーションを適用し、10Kステップ訓練。画像予測内容構成動画フレーム予測時系列的一貫性の誘導動画内容に関する誘導

Slide 160

Slide 160 text

Aug 25, 2022 |　与えられた固有概念特化型としてText2Imageモデルをファインチューニング課題設定はTextual Inversionと類似している。DreamBoothでは固有識別子に加えて対象を表す大まかな名詞（e.g., dog）も与えることで、事前学習済みの知識を効率よく活用する。 ❖ 固有識別子と対象のクラス名をセットで用いることで、より高精度なパーソナライズを実現固有識別子はTextual Inversionのように新規埋め込みベクトルが設けられるのではなく、トークナイザの既存辞書の中から汚染影響力の小さい希少語彙をピックすることで設計される（便宜上 [V] と表記される）。論文中ではImagenに対してDreamBoothが適用されたが、その後StableDiﬀusionに適用する実装が有志により公開された際は、固有識別子として「sks」が用いられた。 160 DreamBooth [Google Research, BU] Figure citation | DreamBooth: Fine Tuning Text-to-Image Diﬀusion Models for Subject-Driven Generation [Ruiz et al., 2022] [39] ▲ [39: Figure 1] より引用。 3~5枚の画像を与えるのはTextual Inversionと同様だが、DreamBoothではモデルそのものを新規概念に特化したものに再調整する（＝特化型フォトブースを作成する）。姿勢や光源などの自由度がさらに改善。新規概念について、固有識別子でそのクラス名を修飾したプロンプト（e.g., A [V] dog）によって入力画像群を生成できるよう、学習済みText2Imageモデルを追加学習。一方で、そのクラスのみのプロンプト（e.g., A dog）による生成結果は元のモデルから不変であるよう制約を加えることで、既に獲得された意味的知識を毀損せず維持できるよう工夫した。 ▼ [39: Figure 4] より引用。

Slide 161

Slide 161 text

Nov 21, 2022 |　わずか1枚の画像を元に、従来手法より鮮明で多様、かつ操作性の高いパーソナライズを実現 LAION-5BやDanbooruを用いた包括的な実験を行い、自然画像やアニメ系画像の両側面において既存手法を凌駕する結果を示した。 ❖ Textual InversionやDreamBoothと比較して様々な点で優位性を確認新規概念に対して3~5枚の画像を必要とする従来手法に対し、DreamArtistでは1枚のみで学習が可能。モデルサイズも、埋め込みのみを学習するTextual Inversionの2倍、モデル全体をファインチューニングするDreamBoothの20万分の1程度と軽量である。生成品質はアーティファクトやモザイクの発生、過度な平滑化もなくより鮮明であり、生成の多様性やプロンプトによる操作性（e.g., 姿勢、内容、背景文脈、スタイル）も大幅に向上したと主張。定性・定量評価によって主張を裏付けている。Textual Inversionは苦手としていた、複数の新規概念を空間的に配置するプロンプトでも生成可能。 161 DreamArtist [SYSU] Figure citation | DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning [Dong et al., 2022] [40] ▲ [40: Figure 2] より引用。 Textual Inversionと同様、DreamArtistでは新規概念に対する埋め込み表現のみを学習する。一方で、正の埋め込みと負の埋め込みの2種類が用意される。これは、正のプロンプトのみを考慮したText2Image手法では特に少数データセットで過学習や形状崩壊、また多様性の乏しさが引き起こされるとの分析に基づく工夫であり、論文中ではそうした既存手法を「楽観的である」とさえ述べている。DreamArtistでは対照的なプロンプト調整により「内省」しながら入力の特徴を獲得できるとしており、人が絵を上達させる過程とのアナロジーに触れている。具体的な提案手法はシンプルであり、同一のノイズから正の疑似単語と負の疑似単語を含むプロンプトで個別にLDMの潜在特徴量を生成し、それらを適当な係数で正方向へ外挿するだけ。このようにして得られた潜在特徴を用い、与えられた画像に対して通常の方法で逆拡散過程を学習する（U-Netによるノイズ学習と、デコーダによる最終的な出力画像に対するピクセルレベルでの誤差の学習を損失関数に含む）。負の埋め込みを導入することで、正の埋め込みの不十分な部分を是正する効果が期待でき、その結果として正の埋め込みが入力画像に過剰に適合せず多様性や操作性を担保する余地が残るとの主張。 ▲ [40: Figure 4] より抜粋。

Slide 162

Slide 162 text

Nov 30, 2022 |　様々な解像度で新規概念を適用するTextual Inversion 学習した疑似単語の適用度合いを連続値で指定することにより、概念をどれだけの精緻さで反映させるかを操作できるよう拡張。 ❖ 逆拡散過程の各時刻と学習される特徴量の解像度を対応づけ、時刻ごとに埋め込みを学習テキストによる条件付けが作用する範囲の例示として、逆拡散過程時のモデルに入力される画像がわずかにノイズの乗った猫の画像（綺麗な画像に近い時刻）であれば細部のテクスチャなどを、逆にノイズが支配的な画像（逆拡散過程の初期）であれば、猫か犬かといったクラス情報や全体的な色などを捉えるための情報量が多くなるはずであると指摘。この考えに基づき、Textual Inversionと同様に事前学習済みモデルに対して疑似単語の埋め込みを学習する際、逆拡散過程の各時刻に応じて異なる埋め込みを学習することを提案。 ❖ 学習した埋め込みを推論時に利用する3種類の方法を提案異なる解像度で学習した埋め込みを反映するために、各手法では共通して0から1の連続値を指定する。ただし、0は「最も精緻な細部特徴」を意味し、1は「最も粗い大域的な特徴」を意味する。第一手法の固定解像度サンプリングでは、指定された解像度の埋め込みを逆拡散過程の全ての時刻の条件付けとして用いる。これにより、各解像度の特徴が何を学習したかを視覚的に確認することができる（右図上段）。第二手法の半解像度依存サンプリングでは、指定解像度の時刻以上の時刻（より解像度の粗い、逆拡散過程における初期側）においてのみ、それぞれの時刻の埋め込みで条件付けを行う。つまり、指定した解像度の時刻までで条件付けを止め、それ以降のより細かい解像度に対応する時刻では条件付けを行わない（右図中段）。第三手法の完全解像度依存サンプリングでは、第二手法で条件付けを停止した区間においても、指定解像度に対応する時刻の埋め込みで条件付けを行う。これにより無条件生成の区間がなくなり、どの解像度を指定しても一定程度の制御性を担保できる（右図下段）。 162 Multiresolution Textual Inversion [UT Austin] Figure citation | Multiresolution Textual Inversion [Daras et al., NeurIPS WS SBM 2022] [41] ▲ [41: Figure 3] より引用。 ▲ [41: Figure 1] より引用。

Slide 163

Slide 163 text

Dec 07, 2022 |　自然言語処理の分野で提案された低ランク適応手法を応用 DreamBoothの倍の速度でStableDiffusionのファインチューニングが可能。パラメータサイズも小さく、保存や共有が容易。 ❖ パラメータ更新分の残差を考え、さらに低ランク近似することで省メモリ・高速化通常のファインチューニングではモデル全体を更新するため、モデルサイズと同等のメモリ領域が必要となる。一方LoRA では事前学習済みモデルのパラメータは凍結し、各層で学習可能な低ランク行列の積による疑似的な残差経路を設けてファインチューニングを行う。ファインチューニングによるモデルパラメータの更新分は一般に微小であることから、良い近似が成立するとの主張。推論時は追加分のパラメータ積を予め計算して元モデルに足し合わせることで同等の計算量を実現できるため、計算量の増大や遅延もない。 ❖ 低ランク近似する層を絞ることでさらに省メモリ化 LoRAの元論文では、Transformerベースのモデルの中で、特に精度に大きな影響を及ぼすAttention層のパラメータのみに低ランク近似を適用し、精度を担保しつつ要求パラメータサイズを縮小している。 cloneofsimo/lora でもこれを踏襲。 ❖ 拡張性元論文や cloneofsimo/lora では、クロネッカー積を用いた適応手法である先行研究 COMPACTER: Efficient Low-Rank Hypercomplex Adapter Layers [Mahabadi et al, NeurIPS 2021] [43] などと組み合わせることによるさらなる計算効率性の向上を今後の展望としている。 163 LoRA ▲ [42: Figure 1] より引用。 Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning cloneofsimo https://github.com/cloneofsimo/lora Figure citation | LoRA: Low-Rank Adaptation of Large Language Models [Hu et al., ICLR 2022] [42] ユーザーによるコンセプト特化モデルの学習や共有の流れを加速させた立役者

Slide 164

Slide 164 text

Dec 08, 2022 |　複数の新規概念を組み合わせた高自由度の画面構成を実現従来手法が苦手としていた課題で品質向上。 ❖ ファインチューニングするパラメータの制限と学習の工夫一般名詞のないパーソナライズしたい新規概念の表現には、DreamBoothと同様に希少語彙を固有識別子として学習。複数の新規概念には個別の識別子を与え、同時学習する。加えて、テキストが条件付けとして作用するU-Net中のCross-Attentionにおいて、KeyとValueを射影するパラメータのみ学習可能とする。これにより、表現能力を維持しつつ省メモリで高速なファインチューニングを実現。また、新規概念に付随する既存単語（e.g., 図中のchairやcat、また、新規名詞としてmoongateを学習する際はmoonとgateなど）とCLIP 類似度の高い画像をLAION-400Mから200枚抽出し、既存概念の忘却や棄損を防ぐための正則化として用いた。 ❖ 個別にファインチューニングしたモデルを統合する方法も提案複数の概念を個別に追加学習したモデルがそれぞれ存在するとき、その更新された重みをひとつの重みに近似的に統合する最適化手法をラグランジュの未定乗数法を用いて導出。個別概念に対して学習したモデルが予め用意されている場合、この最適化手法は2秒程度で完了するため非常に高速である。実応用の側面を考えると、様々なユーザーが自身の好みの概念についてパーソナライズしたモデルを公開、共有すれば、それらを追加学習なしに自由に複合して用いることができる点でカスタム性に優れるといえる。 164 Custom Diﬀusion [CMU, Tsinghua Univ., Adobe Research] Figure citation | Multi-Concept Customization of Text-to-Image Diﬀusion [Kumari et al., 2022] [44] ▲ [44: Figure 7] より引用。最左列に示す複数の新規概念から各行で2つをピックアップし、提案手法とDreamBoothを定性比較。各列について、joint trainingは2つの概念を同時学習、optimizationは個別に学習した上で最適化により統合したモデルによる結果を表している。提案手法はいずれもDreamBoothによる生成品質を凌駕しており、特に同時学習手法は最適化手法と比較してもより良い結果が得られていることが確認できる。

Slide 165

Slide 165 text

Feb 23, 2023 |　1枚の画像から、新規概念を極めて高速かつ柔軟に獲得学習済みの拡散モデルに対し、『未学習気味』となるように新たな概念を取り込ませることで、汎化と高速な学習を両立。1枚の画像と1分に満たない時間でパーソナライズが完了する Textual Inversion の亜種。 ❖ 入力画像をトークン埋め込み化するエンコーダを設計 Textual Inversionのように単に新規概念に対する埋め込み特徴を学習するのみでは、新規概念を精度良く反映できるようになるほど、未知のプロンプトと組み合わせた際の自由度が損なわれる点を指摘。StyleGAN Inversionのような研究から着想を得て、画像生成の過程で繰り返しリファイン可能な埋め込みの学習を提案した。具体的には、新規概念（e.g., ペットの猫）が属する既存ドメイン（e.g., 猫）のテキスト埋め込みから摂動する範囲に新規概念の埋め込みが位置するよう制約しつつ、この埋め込み自体が逆拡散過程の各時刻で動的に修正されていくスキームを構成。 ❖ 反復的に修正される新規概念埋め込み新規概念画像をOpenCLIPの画像用バックボーンであるViT-H/14に入力し、特定の層から [CLS] に相当する特徴量を階層的に集約。同時に、逆拡散過程で生成中のノイズ付き画像（LDMであれば潜在特徴）を事前学習済みU-Netのエンコーダ部に入力し、各ブロックの中間特徴をプーリングして集約。これらの特徴はそれぞれ線形層に通され、平均プーリングで固定長の特徴ベクトルに落とし込まれたのちに、最後の活性化関数と線形層が適用され符号化される。この符号化特徴に微小な係数を乗じ、新規概念が属するドメイン（e.g., 猫）のテキスト埋め込みに加算することで、各時刻での埋め込み表現が得られる。この埋め込みは Textual Inversion における　の役割を果たし、テキストプロンプトに結合されて画像生成のための条件付けとなる（下図左側および中間の処理）。一度埋め込みを定めて凍結する従来手法と異なり、生成しながら『今何を出力しようとしているのか』を監視しつつ埋め込み特徴を変化させられる点が、最終的な性能に寄与していると考えられる。 165 E4T [TAU, NVIDIA] Figure citation | Designing an Encoder for Fast Personalization of Text-to-Image Models [Gal et al., 2023] [45] ▲ [45: Figure 2] より引用。 ▲ [45: Figure 3] より抜粋。既存手法との比較。最左が入力画像。E4Tは1枚の画像からよく汎化し、様々なプロンプトに応じた生成を実現。特に中段の漫画風表現では、他手法が入力を反映できず一般的な概念に侵食されているのに対し、E4Tはより忠実な結果となっている。

Slide 166

Slide 166 text

❖ パラメータオフセットモデル全体のファインチューニングでは容易に過学習する恐れがあるため、パーソナライズの実現には十分、かつドメインに対する元の表現力を損なわない程度のパラメータサブセットを特定し、その部分を限定的に学習することを考える。著者らはまず、 HuggingFace 上の 50種類の追加学習された拡散モデルを用意。それらがファインチューニングによって変化した度合いに基づき、層ごとの重要度を定量的に評価した。結果、 Self-Attention および Cross-Attention が飛び抜けて重要であることを特定（従来の知見とも整合する）。この知見に基づき、Attention層において入力を Query, Key, Value に射影するパラメータのみが学習により変化するよう制限。その上で、パラメータそのものではなく更新差分を学習するるように工夫。この差分が低ランク行列となるよう設計することで、表現力を適切に制約した。 ❖ 事前学習任意のパーソナライズを実現する前に、E4Tにて導入したエンコーダとパラメータオフセットを対象ドメインの大規模データセットで事前学習する必要がある。訓練は通常の拡散モデルに準拠。顔ドメインでは30K ステップ、猫ドメインでは60K、アートドメインでは100Kの事前学習をおこなった。 ❖ パーソナライズ 1枚の新規概念画像をモデルに取り込む際は、追加モジュールだけでなく事前学習済みモデルも同時学習する。重要な知見として、入力画像は1枚でもバッチサイズは複数にしたほうが学習が安定する（学習時のノイズレベルは様々であるため）。論文では実験に StableDiﬀusion を用い、顔ドメインでは 15ステップ、猫やアートのドメインではわずか5ステップのみで学習。バッチサイズは16かそれ以上とした。 166 E4T [TAU, NVIDIA] Figure citation | Designing an Encoder for Fast Personalization of Text-to-Image Models [Gal et al., 2023] [45] ◀ [45: Figure 5] より引用。入力画像からのスタイル抽出や、新規概念の画風や背景の変更にも汎化している。また、新規概念を複数描画することも破綻なく行えている。 ▲ [45: Figure 4] より引用。新規概念の同一性とプロンプト類似性のトレードオフ。右上にあるほど良い。左図の他手法との比較ではE4Tが圧倒。右図ではE4Tの設定差異を比較し、提案した各手法を組み合わせた場合がバランスの良い結果を与えることを示した。

Slide 170

Slide 170 text

Oct 17, 2022 |　画像の一貫性を保ったままプロンプトで編集する技術入力画像と編集後の状態を表すテキストから、画像の大局を維持しつつ必要箇所だけ変更されたような画像生成を実現。ただし画像全体が改めて生成されるため、背景等の厳密な一致は期待できない。 ❖ 3ステップの学習で画像編集編集内容を指示したテキストの埋め込みを　　とする。初めに、事前学習済みText2Imageモデルのパラメータを凍結した状態で、与えられた編集前画像が生成できるように　　を最適化して　　を得る。ただし、埋め込みが互いに潜在空間内で近傍に留まるよう、最適化は少ないステップ数で行う。次に、　　を入力して編集前画像が生成できるように、拡散モデル全体をファインチューニングする。ここまでで、モデルは編集前画像を忠実に再現できるよう再調整されている。最後に、　　と　　を適当な比率　で線形補間することにより、元の画像の表現を極力維持した状態で所望の画像編集が達成される。 ❖ 埋め込みの線形補間係数　による品質のトレードオフを定量評価　が 0.6~0.8 程度の範囲にあるとき、編集性（テキスト合致度）と生成品質のバランスが良いことが観察された。 170 Imagic [Google Research, Technion, WIS] Figure citation | Imagic: Text-Based Real Image Editing with Diﬀusion Models [Kawar et al., 2022] [47] ▲ [47: Figure 7] より引用。右に向かって編集テキストの影響を強めていく様子。上段はモデルのファインチューニングを行わず、下段は行った場合における結果を表している。上段では右に行くほど元画像の性質が失われ、単なるText2Imageの様相を呈している。一方、下段では元画像の全体的な形を残したまま、プロンプトに即した生成が実現されていることがわかる。 ▲ [47: Figure 1] より引用。

Slide 171

Slide 171 text

Oct 20, 2022 |　編集に必要なマスクを自動推定し編集性向上明示的なマスク入力なしに、変更の必要のない背景等を不変に保つ編集が可能。事前学習済みモデルを活用するが、追加の学習は不要。 ❖ 編集指示と参照テキストを比較しマスク生成参照テキストとして、入力画像に関するキャプションが与えられていればそれを、与えられていなければ∅を考える。入力画像に50%の強度でガウスノイズを付与し、参照テキストと編集指示をそれぞれ条件付けとして拡散モデルによりノイズ推定。その差分が閾値を超えたピクセルをマスク化する。安定したマスクを生成するため、異なるガウスノイズをデフォルトで10種類用意して同様の処理を行い、外れ値を除いた上で平均化、および正規化する。 ❖ ODE化したDDIMの利用により精緻で自然な編集を実現 DDIMを常微分方程式（ODE）と見做すことで、元画像を任意の時刻のノイズ付与画像へ符号化・復元できる性質を利用。まず、元画像を非条件付けDDIMによって特定時刻まで符号化。その後、編集指示と生成済みマスクを用いて復元過程を処理することで、最終的に編集された画像が出力される。具体的には、編集指示によってDDIMの復元過程を条件付けしつつ、マスクの外側は各時刻で元画像を符号化して得られたピクセルに都度置換する。これにより、最終出力ではマスクの外側が元画像から変化しないことを担保しつつ、領域境界などをより自然に生成することが可能。 171 DiffEdit [Meta AI, Valeo.ai] Figure citation | DiffEdit: Diffusion-based semantic image editing with mask guidance [Couairon et al., ICLR 2023] [48] STEP1でマスクを生成。STEP2で元画像をある程度ノイズが付与された状態へ符号化。STEP3にて、編集指示とSTEP1で生成したマスクを用いてノイズ除去を行い、画像編集を実現。 ▼ [48: Figure 2] より引用。 ▲ [48: Figure 1] より引用。　

Slide 172

Slide 172 text

Nov 17, 2022 |　部分的な編集指示に応じて画像編集可能な汎用モデルを学習入力画像に特化した学習や事前準備を必要としない画像編集手法として、画像編集用のモデルを新たに学習するアプローチ。 ❖ 動詞ベースの編集指示に対して編集前後の画像を紐付けたデータセットを構築し、StableDiffusionを拡張初めにLAION-Aesthetics V2 6.5+から700編のプロンプトを選び、動詞ベースの編集指示とそれによって書き換えられたプロンプトの組を人手で作成（e.g., 「乗馬する少女の写真」という元プロンプトに対し、「彼女を竜に乗せなさい」という指示と「竜に乗る少女の写真」という変更後のプロンプトを作成）。これらを用いてGPT-3 Davinciをファインチューニングし、任意のプロンプトについて編集指示と変更後のプロンプトを出力できるモデルを得る。これらの編集前後のペアから画像生成を行い、編集指示と編集前後の画像ペアというデータが揃う。ただし、単純に編集前後のプロンプトで画像生成するだけでは大幅に異なる画像ペアとなる可能性が高いため、編集前後の類似度を変えた100種類の画像ペアをPrompt2Promptを用いて生成し、さらにCLIPによるフィルタリングを経てデータを厳選。このようにして構築されたデータセットに基づき、編集前画像と編集指示を条件付けとして編集後の画像が出力されるようStableDiffusionをファインチューニングする。 172 InstructPix2Pix [UC Berkeley] Figure citation | InstructPix2Pix: Learning to Follow Image Editing Instructions [Brooks et al., 2022] [49] ▲ [49: Figure 2] より引用。編集指示と、それにより編集される前後の画像ペアのデータセットを構築。これを用いてStableDiffusionを学習し、任意の編集指示に対して画像を編集できるモデルを獲得。これをInstructPix2Pixとした。 ▲ [49: Figure 1] より引用。

Slide 173

Slide 173 text

Dec 01, 2022 |　編集領域を明示的に指定した画像編集ユーザーによるセグメンテーションマスクが利用できる場合には有効な手法となりうる。StableDiffusionのマスクを用いたInpainting機能等と比較しても、より形状や編集指示に忠実な生成が可能となることを示した。 ❖ Inside-Outside Attentionの提案テキストを条件付けとしたCross-Attentionにおいて、各トークンが与えられたマスクの内側と外側のどちらの画像領域に影響すべきかでグループ分け。同様に、ピクセルに対するSelf-Attentionではマスクの内外でピクセルをグループ分けする。各Attention層において、Keyとなる要素が内側グループに属する場合は計算結果の注意マップの外側を、 Key となる要素が外側グループに属する場合は注意マップの内側をそれぞれマスクすることで、マスク内外の要素が適切に分離されることを促す機構を考案した。 ❖ Inversion DDIMによる画像の符号化を行うことで、元画像の情報を含んだ初期状態となるノイズ画像を得る。このとき、元画像を表すプロンプトで条件付けし、かつ Inside-Outside Attention を適用する。これにより、特に編集前後で共通のトークンが存在する場合、元プロンプトの内容とそれに対応する形状の情報が後続の処理に伝達されやすくなると主張。このようにして元画像から符号化されたノイズをもとに、編集された画像を表すプロンプトとInside-Outside Attention を用いて画像生成を行うことで編集画像を得る。 173 Shape-Guided Diffusion [UC Berkeley, Meta AI, HKU, BMW] Figure citation | Shape-Guided Diffusion with Inside-Outside Attention [Park et al., 2022] [50] プロンプト中の「horse」が張る注意マップの比較。通常のAttentionでは画像中の馬以外の領域にも曖昧に重みが分散しており、編集結果は馬の頭部が消失するなど指示通りの生成ができていない。一方、Inside-Outside Attentionでは与えられたマスク内部にのみ重みが分布するため、より適切な編集結果が得られている。 ▼ [50: Figure 4] より引用。手法の全体像。元画像を符号化したノイズを用いて編集画像を生成する。 ▼ [50: Figure 2] より引用。

Slide 174

Slide 174 text

Dec 08, 2022 |　画像全体のスタイルや解像度変更などを含む柔軟な編集を実現事前学習モデルの表現力を活かしつつ、元画像の特徴や構図を適切に反映させた編集を行うため、モデルを2つ用いる。 ❖ モデルベース分類器不使用型誘導の提案テキストだけでは元画像と同じ構図を維持できないという課題、および1枚の画像だけではモデルが容易に過学習してしまうという問題に対し、元画像でファインチューニングしたモデルを用いた誘導手法を考案。まず、DreamBoothと同様に「a photo/painting of a [∗] [class noun] 」というプロンプトから入力画像を生成できるよう、事前学習モデルをファインチューニング。画像編集の際は、事前学習モデルに編集指示のプロンプトを与えた出力と、このファインチューニングしたモデルの出力を線形補間し分類器不使用型誘導を行う。このとき、ファインチューニングモデルを用いるのは逆拡散過程の初めの数割のステップのみとすることで、初期の構図確定の誘導としての役割を期待。残りのステップは事前学習モデルと編集指示のみで通常通り画像生成を行う。 174 SINE [RU, Snap] Figure citation | SINE: SINgle Image Editing with Text-to-Image Diﬀusion Models [Zhang et al., 2022] [51] ファインチューニングの際は元画像をランダムクロップしてパッチ化し、事前学習モデルの想定解像度に正規化して使用。フーリエ変換に基づく各パッチの位置埋め込みを追加の条件付けとし、パッチ部分が出力されるよう拡散モデルを学習する。この工夫により、拡散モデルが画像の意味的内容と位置を直接結びつけて学習してしまうのを緩和。画像編集時に元画像とは異なる任意の解像度で自然に生成できるようになる。 ▼ [51: Figure 2] より引用。ただし、縦並びを横並びに改変。 ▲ [51: Figure 1] より引用。スタイルの変更、描画対象の改変、解像度の変更など、様々な種類の編集を統一的に行うことができる。

Slide 175

Slide 175 text

Feb 06, 2023 |　編集元のプロンプトや追加学習の不要な画像編集事前学習済みStableDiﬀusionとGPT-3を用いた画像編集手法。入力画像に対する詳細なキャプションは不要。また、入力画像にモデルを特化させるための追加学習も不要の、Zero-Shot転移を実現する。 ❖ DDIM Inversionを正則化して画像符号化 DDIM Inversion では画像を決定的にノイズ空間へ変換できるが、多くの場合でそのような変換後の画像が正規分布の要件を満たさなくなっている（＝DDPMで仮定される事前分布と乖離する）点を指摘。これを解消するため、推定ノイズに対し解像度を繰り返し半分にプーリングした 4階層のノイズマップを用意し、空間方向の自己相関係数を用いた正則化項による誘導を設計した。符号化の際は、予めBLIPにより元画像に付与したキャプションをCLIPで埋め込み、条件付け。 ❖ 画像編集右に示すように、GPT-3とCLIP特徴を用いて編集前後のテキストに基づく編集方向を算出。これを U-NetにおけるCross-Attentionに反映させることで、DDIM Inversionにより符号化されたノイズから編集指示に従った画像生成を実現する。ただし、単にこの差分を加えただけでは元の空間構造を保持した生成ができないことから、元画像へのキャプション埋め込みを条件付けとして、元画像を再構成。この時のAttentionマップと、編集方向を適用して画像生成した際のAttentionマップのフロベニウスノルムを制約に誘導することで、元画像の構造情報が編集後にも維持される。 175 pix2pix-zero [CMU, Adobe Research] Figure citation | Zero-shot Image-to-Image Translation [Parmar et al., 2023] [52] ▲ [52: Figure 1] より抜粋。編集前後を端的に指定するだけで画像を編集できる。 ◀ [52: Figure 2] より引用。編集前後のテキストそれぞれに関連する文章をGPT-3によって大量生成し、CLIP埋め込みの平均をとって編集方向と見做す。 ▲ [52: Figure 3] より引用。　 pix2pix-zeroのパイプライン。

Slide 179

Slide 179 text

Dec 09, 2022 |　プロンプトを分解し要素同士のもつれをほぐす手法 CLIPではテキスト処理に因果的注意マスク（i.e., Transformerのデコーダにおける三角マスク）が適用されるため、各トークンは自身より前の要素全てから情報を集約する。このとき、元データセットでは稀少な不自然な指示が暗に補正されてしまう現象が指摘されている（e.g., 「a yellow apple and red bananas」では、 bananasはyellowともredとも結びつく結果、より自然な黄色のバナナを生成しやすい）。このように、プロンプトを一連の系列として入力する従来手法では意図せぬ属性混合や変化が生じてしまう問題を緩和。 ❖ 構文解析器を用いてプロンプトを個別に処理構文解析器でプロンプトを名詞に紐づく階層的な部分領域に分割。各部分テキストをそれぞれ CLIP で符号化し、プロンプト全体を符号化した特徴ベクトル列と該当トークン部分を入れ替えて、プロンプトと同じ系列長の特徴ベクトル列を部分領域の数だけ作成。これらをそれぞれCross-AttentionのValueに射影して用いる。ただし、Keyは全体のレイアウトを適切に決定するため元プロンプトからのみ作成する。このようにして分岐させた処理と元プロンプトによる結果を併せた平均を取り、Cross-Attentionの最終出力とする。 179 StructureDiﬀusion [UC Santa Barbara, UC Santa Cruz, Google] Figure citation | Training-Free Structured Diﬀusion Guidance for Compositional Text-to-Image Synthesis [Feng et al., ICLR 2023] [55] ▲ [55: Figure 1] より引用。俗に「色移り」として知られる現象など、プロンプトが意図通りに反映されない問題を改善。 ▲ [55: Figure 3] より引用。

Slide 181

Slide 181 text

❖ プロンプト長削減と性能劣化の関係を分析一般的な自然言語モデルでは、複数のテキストを同時にバッチ処理する際、テキストの最大系列長に合わせて後半部分を便宜上 [PAD] トークンで埋める処理を行うが、この部分は Attentionにおいてはマスクにより無視され、出力に影響を及ぼさないよう工夫されることが多い。一方、StableDiffusionはCLIPを用いる際にこのような [PAD] へのマスク適用をしておらず、最大系列長の77トークンまで並べた [PAD] が Attention 中でそれぞれ個別に他トークンと相互作用し、情報を集約・伝達している。本論文ではCLIPの出力において、この [PAD] を全て残した場合、プロンプト末尾の隣にあるひとつだけを残した場合、全て除外した場合、さらに極端に [BOS] と [PAD] ひとつだけ残した場合を比較し、性能劣化の度合いを調べた。その結果、プロンプトと [PAD] ひとつの組み合わせは [PAD] を全て残す場合と比較して大きな性能劣化は見られないことを確認。また、[BOS] と [PAD] だけの極端なケースは定量値は大きく劣化するものの、画像全体の構図や配色は概ね保存されていることを確認し、このような特殊トークンに多くの文脈情報が集約されていることを定性的に示した。以上の結果に基づき、プロンプトと [PAD] ひとつの組み合わせを用いることで、品質を維持しつつ計算量を削減できることを示唆した。特にStructureDiffusionは構文解析により複数のValueを計算することから計算量が増大するため、有効な緩和策となりうる。 181 StructureDiffusion [UC Santa Barbara, UC Santa Cruz, Google] Figure citation | Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [Feng et al., ICLR 2023] [55] ▲ [55: Figure 7] より引用。いずれもレイアウトは大まかに共通しており、特殊トークンが担う役割の大きさを窺わせる。 ▲ [55: Figure 7] より引用。 FIDは低い方が、ISは高い方が品質が高いことを示す指標。全ての [PAD] を用いる場合が最高品質だが、[PAD] をひとつにしても同程度の品質。 ▲ [55: Figure 5] より引用。 CC-500における定性比較。色移りや物体消失の問題を緩和。

Slide 182

Slide 182 text

Oct 28, 2022 |　意味混合という新たなタスクとベースラインの提案画像またはテキストの入力に対し、異なる意味を持つテキストを与えて意味的に混合した概念を画像として生成する手法。スタイル転移や新規概念生成、種族混合などの応用例を提示。 ❖ 事前学習モデルを用い、レイアウトと内容の生成段階に分解して実現入力が画像の場合、まず逆拡散過程の中間区間におけるノイズ付与画像群　　　を生成。混合したい概念を表すテキストを条件付けに　　からノイズ除去を行いつつ、その結果と先程用意したノイズ付与画像群の対応する時刻の画像を線形補間して、次のステップの入力としていく。　　まで生成することで元入力によるレイアウトが反映される仕組み。以降は条件付けテキストのみで最後まで生成する。入力がテキストの場合は事前学習モデルで予め　　まで画像を生成し、同様に生成を行う。レイアウト生成のための時刻や線形補間の度合いを調整することで、入力と条件付けの間の混合度を調整できる。 ❖ 概念強調や概念除去も画像テキスト間の Cross-Attentionの重みを特定トークンに関して調整することで、条件付けの強さを調整可能。また、重みを負符号にすることで、形状を維持したまま条件付けテキストの要素を漂白していけるという興味深い性質も示された（e.g., ハンバーガーの画像に対しテキストでハンバーガーと条件付けしつつその重みを負にすると、形や配色が同じ飛行船や蟹に変化する）。 182 MagicMix [ByteDance] Figure citation | MagicMix: Semantic Mixing with Diﬀusion Models [Liew et al., 2022] [56] ▲ [56: Figure 1] より引用。提案手法による意味混合の例。 ▲ [56: Figure 4] より引用。　 MagicMixのパイプライン。

Slide 183

Slide 183 text

Dec 07, 2022 |　プロンプトをテキストだけでなく画像を含む形へ拡張画像とテキストを任意に組み合わせたマルチモーダルな入力に基づく画像生成を実現。複数対象の同時配置や意味的混合、バリエーションの創出、スタイル転移など、応用の幅は広い。 ❖ S-MAGMAの提案マルチモーダルな入力を処理するため、GPT-3から派生したLuminous 13Bと呼ばれる事前学習済み自然言語処理モデルを拡張。MAGAMAと呼ばれる先行研究に倣い、CLIPの画像エンコーダといくつかの適応層等を付け加え、画像キャプショニングタスクでファインチューニング。このとき、画像入力は144個のトークン列に符号化される。また、SGPTと呼ばれる手法で提案された対照学習に基づき Luminous 13B のバイアス項を別途ファインチューニング。これらを組み合わせたマルチモーダルなモデルを Luminous S-MAGAMAとし、提案手法の入力部に使用した。 ❖ M-VADERの提案モデルの学習時は、通常のText2Imageモデルと同様に画像とテキストのペアを使用する。 8割の確率で通常通り学習。 2割の確率で、出力すべき画像自体をLuminous S-MAGAMAで符号化し、これを条件付けとしてStableDiﬀusionを追加学習。推論時は [, , , , ...] のように任意数の画像とテキストのペアを互い違いに並べ、それぞれを符号化したものを結合して用いる。ただし、画像部分のトークン数が一般に多くなりやすいことから、Attentionにおける画像トークンへの重みを一律で下げることでバランスを調整する工夫を設けた。 183 M-VADER [Aleph Alpha GmbH, TU Darmstadt] Figure citation | M-VADER: A Model for Diﬀusion with Multimodal Context [Weinbach et al., 2022] [57] ▲ [57: Figure 3] より抜粋。テキストと画像を自由に組み合わせたプロンプトから画像生成する例。 ▲ [57: Figure 2] より引用。

Slide 185

Slide 185 text

プロンプト以外のモダリティを追加入力する機構を備え、描画対象の位置や姿勢を自在に制御する拡張手法従来のプロンプト駆動型Text2Imageでは、人物等を複雑な姿勢で描画しようとしたり、複数の物体が配置されたシーンを意図通りに生成したりすることに困難があった。このような課題を解決するため、独自の記号操作をプロンプトに導入したり、セグメンテーションマップやポーズ表現用のボーンリグで画面構成をより精緻に描画可能にしたりする手法が次々と提案されはじめている。これらは既存の学習済みモデルに適用可能であるため拡張性が高く、コミュニティでも急速に広まりつつある。 Jun 03, 2022 |　Composable Diffusion [UIUC, MIT] 組み合わせ可能な拡散モデル Jan 17, 2023 |　GLIGEN [UW–Madison, Columbia Univ., Microsoft] 接地情報に基づく補助入力で学習済みモデルを制御 Feb 10, 2023 |　ControlNet [Stanford Univ.] 学習済み拡散モデルに多様な補助入力経路を追加 Feb 14, 2023 |　Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU] 分類器誘導を拡張し、再学習なしに補助入力経路を追加 185 拡散モデルの拡張技術【操作性・制御性】 Feb 16, 2023 |　MultiDiffusion [WIS] 追加学習なしで任意解像度における空間制御性を付与 Feb 16, 2023 |　T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT] 学習済みモデルに眠る表現力を精緻な制御へ転用 Feb 22, 2023 |　Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA] MCMCに基づく新たなサンプリングと構成的生成の提案 Feb 25, 2023 |　Directed Diffusion [VUW, Google Research] 交差注意マップ誘導による物体描画領域の制御

Slide 186

Slide 186 text

Jun 03, 2022 |　組み合わせ可能な拡散モデル表現力の高い昨今の拡散モデルでも、指示した属性と物体の対応を誤ったり、複数物体の位置関係が正しく反映されないことも多い。このような課題に対し、各描画対象に対して個別適用した拡散モデルの出力を組み合わせることで、従来手法より極めて複雑なシーンに対しても汎用的に表現力を向上させる手法を提案。事前学習済みモデルにも適用可能で、Zero-Shotで難易度の高い指示での生成を実現。 ❖ エネルギーベースモデル（EBM）と拡散モデルの類似性を利用 EBMでは一般に指数型分布族を扱い、ある変数の確率密度は指数関数の形で表現され、サンプリング過程は対数確率密度の勾配を利用する。補遺F-2-1 にて後述するように、データの対数確率密度勾配を推定する『スコアマッチング』と拡散モデルのサンプリング過程は同値であり、したがって EBMとも本質的に同一視できることから、拡散モデルで推定される各ステップのノイズを非明示的にパラメータ化されたEBMと見做して理論展開。Text2Image の文脈において、プロンプトにて指定された複数概念の接続（AND）と否定（NOT）を提案。以下概要は簡単のため時刻変数を省略。 186 Composable Diﬀusion [UIUC, MIT] Figure citation | Compositional Visual Generation with Composable Diﬀusion Models [Liu et al., ECCV 2022] [58] ▲ [58: Figure 1] より引用。複数概念や位置関係、複数属性、あるいは「ある属性でないこと」を自由に組み合わせた生成の品質向上。(e)では、各物体の座標値を射影する線形層を追加で設け、時刻埋め込みと同様にモデルの条件付けに用いた。対数密度勾配（スコア）エネルギー関数 EBM 定数の違い定数の違い定数の違いを無視すれば本質的に同一視可能

Slide 188

Slide 188 text

Jan 17, 2023 |　接地情報に基づく補助入力で学習済みモデルを制御 StableDiﬀusionのような成功裡にある学習済みモデルについて、その表現力を損なわずにテキスト以外の条件付けを用い、制御性を改善することを目指した。提案手法では、事前学習済みモデルのパラメータは凍結し、追加層のみを学習することでこれを実現。言語情報を効果的に取り込む工夫により、データセット中で矩形領域等とのペア情報が与えられていなかったような、接地（情報同士を適切に結びつける）問題としては未知の対象への汎化性能も獲得。 ❖ 入力の定義通常のテキストプロンプトに加え、任意数の『接地体』と『空間的接地設定』のペアを与える。接地体は生成画像中で空間的な条件を操作される対象で、テキストや参考画像で指定。接地設定はペアとなる接地体への空間的な描画指示で、矩形領域やキーポイントを与える。 ❖ 接地情報のトークン化例えばテキストと矩形領域のペアでは、テキストを通常プロンプトと同様のモジュールで符号化した特徴ベクトル（e.g., StableDiﬀusionであればCLIP最終出力の [EOS]）と、矩形領域の角座標をフーリエ埋め込みで特徴ベクトル化したものを結合。これを線形層に通して接地情報ペアそれぞれのトークンを得る。接地体が画像の場合は、CLIP 画像埋め込みの [CLS] をテキストの特徴空間側へ射影して利用。また、接地設定がキーポイント入力の場合は矩形領域と同様の特徴ベクトル化に加え、同一人物に帰属する点群であることがわかるよう人物番号の埋め込みを接地体の埋め込みに加算する。 188 GLIGEN [UW–Madison, Columbia Univ., Microsoft] Figure citation | GLIGEN: Open-Set Grounded Text-to-Image Generation [Li et al., 2023] [59] ▲ [59: Figure 10] より引用。拡散モデルを利用するため、自然に画像接地のInpaintingも可能。 ▲ [59: Figure 1] より引用。補助入力に接地した多様な生成制御。例はそれぞれ、領域とテキストの結びつけ（左上）、領域と参考画像の結び付け（右上）、領域とテキストの組み合わせ、およびスタイル画像の適用（左下）、キーポイントによる生成（右下）。

Slide 189

Slide 189 text

❖ 条件緩和したデータセット作成で多様性を確保理想的には、キャプション、およびキャプション中の各名詞句の矩形領域がアノテーションされたデータが望ましい。一方、 GLIGEN の問題設定に完全にそぐうようなデータセットは潤沢ではないため、物体検出用のCOCOのように、固定されたクラスラベルと矩形情報が与えられたデータに空のキャプションを付与して用いたり、物体検出用の情報とキャプションが別々に与えられたデータを用いたりしてデータセットの規模拡大を図った。この効果もあり、GLIGEN の推論時はプロンプト中に存在しない接地体を指定しても問題なく動作する。全ての描画対象の説明を含むような長大なプロンプトの必要性が緩和された。 ❖ Gated Self-Attention の導入右図のように、学習済みモデルのAttention層に挟まれる形で、接地情報で条件付けする新たなAttention層を追加。前の層から受け渡されたトークン列に接地情報トークンを結合し、はじめに Self-Attention を適用。その結果から画像の潜在特徴に対応する元のトークン列のみ取り出し、学習可能なスカラ係数等を乗じた上で元のトークン列に加算する。学習安定化のため、この係数は学習初期は0となるよう設計されている。Cross-Attentionのパターンよりも良好な結果が得られたとのこと。 ❖ 推論時のスケジューリング提案手法で訓練されたモデルも全体的に高品質だが、オリジナルのStableDiﬀusionに生成品質が劣る場合もあることを観測。したがって、推論時はノイズ除去のある任意ステップまでGated Self-Attentionを適用して接地情報を利用し、それ以降は情報経路を遮断することで事前学習済みモデルそのものの挙動となるようスケジューリングする工夫を提案。逆拡散過程の初期では全体的な構図決定が、後期では出力の精緻化が進行していることを踏まえている。これにより視覚的な品質が向上。 189 GLIGEN [UW–Madison, Columbia Univ., Microsoft] Figure citation | GLIGEN: Open-Set Grounded Text-to-Image Generation [Li et al., 2023] [59] ▲ [59: Figure 2] より抜粋。訓練データの種類。左例が最も理想的。中と右は、既存の大規模な物体検出用データセットを転用する工夫の例。 ▲ [59: Figure 3] より引用。事前学習済みモデルに、接地情報トークンを取り込むモジュールを追加。

Slide 190

Slide 190 text

Feb 10, 2023 |　学習済み拡散モデルに多様な補助入力経路を追加課題意識はGLIGENと類似。事前学習済みの StableDiﬀusion などのモデルに対してテキスト以外の条件付けを取り込む経路を学習させることにより、操作性の向上を実現。汎用的な学習方式を提案し、幅広い種類の条件付けに対して、各々に特化した忠実な制御モデルが獲得できることを示した。 ❖ 追加パラメータの導入を工夫し、高速で効率的な学習を実現学習済みモデルの表現力を維持するため、端的には学習済みパラメータをそれぞれ複製し、重みゼロで初期化された Conv層を通して元のモデルに接続する経路を設ける。元のモデルパラメータは凍結。これにより学習初期は元モデルと同等の挙動を示し、安定的に学習可能。通常のファインチューニングのように元モデルの破壊的変更が起こらないため、比較的小規模なデータセットでも過学習しにくく、よく汎化する。 ❖ Zero Convolution の提案前述のように、重みとバイアスがゼロで初期化された 1x1 Conv層を導入。複製された層を挟む形でこのZero Conv層を適用し、条件付け入力を処理するモジュールとする。 190 ControlNet [Stanford Univ.] Figure citation | Adding Conditional Control to Text-to-Image Diﬀusion Models [Zhang et al., 2023] [60] ▲ [60: Figure 9] より抜粋。 OpenPoseのボーンから条件付け生成。右例のように同時にプロンプトを与えることも可能。 ▲ [60: Figure 11] より抜粋。セグメンテーションから条件付け生成。ADE20Kで定義された色と対象の対応を学習している。 ▲ [60: Figure 15] より抜粋。線画からアニメ風生成。　 ◀ [60: Figure 1] より引用。左上の元画像から、左下のCannyエッジを抽出。このエッジを条件付けに画像生成。 Zero Conv 複製パラメータ（学習可能）条件付け元パラメータ（凍結）

Slide 191

Slide 191 text

❖ 使用可能な計算資源に応じた訓練戦略を提案家庭用計算環境など比較的計算資源に乏しい場合は、ControlNetからStableDiffusionへの接続をU-Netの中間ブロックのみとすることで、要求計算量を下げる方法を提案（RTX 3070Ti にて約 1.6倍の高速化）。条件付けが獲得されてきたことを確認できた段階で、切断した接続を復活させて継続学習させる。一方で、GPU クラスタなどの強力な計算資源と大規模なデータセットが使用可能な場合は、十分に（50Kステップ程度）学習させたのち、凍結していた元モデルのパラメータも学習可能としてモデル全体を同時学習する方法を提案。よりタスク特化型のモデルの獲得が期待できる。 ❖ 細かな特徴を指定しやすい画像ベースの条件付けを包括的に実験空間的な特徴を指定できる条件付けを網羅的に調査。通常の画像テキストペアに加え、以下に示すような特徴をペアとしたデータセットを構成し、それぞれでControlNetを学習して実験。ただし、もともとテキストが付随していないデータについては、BLIP と呼ばれる画像キャプションモデルで対応するテキストも作成して用いた。StableDiffusion v2系で追加された深度マップ学習手法を流用する場合と比較して、ControlNetは定性的に同等かより明瞭な結果に。また、訓練の途中で突如としてモデルが条件付けに適応できるようになる『突然の収束現象』も確認された。 Cannyエッジ：Cannyエッジ検出器で3Mのデータを用意。また、解像度順にサブセット作成し規模ごとに実験。 Hough変換：Places2から直線検出し、BLIPでキャプションを付与して計600Kのデータを用意。 HED境界：HED（Holistically-Nested Edge Detection）の境界検出器で計3Mのデータを用意。スケッチ：HEDと強いオーグメンテーションを組み合わせて500Kの落書きデータセットを合成。ポーズ：OpenPifPafやOpenPoseの検出器を用い、30%以上のキーポイントが検知できた画像から構成。セグメンテーション：COCOやADE20KにBLIPでキャプションを付与し、それぞれ164Kのデータセットを構成。深度：MiDaSを用いて3Mのデータを用意。200Kのサブセットも用意し、学習可能な最低件数を検討。法線マップ：DIODEにBLIPを適用して構成。また、深度から推定した粗い法線で選択的にデータセットを拡張。線画：Anime2sketchによる線画検出により、インターネット上の画像から1Mのデータを用意。 191 ControlNet [Stanford Univ.] Figure citation | Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60] ◀ [60: Figure 2] より引用。パラメータ複製とZero Conv層の導入。 ▲ [60: Figure 3] より引用。 StableDiffusionのU-NetへControlNetを適用する概要図。エンコーダ部と中間ブロックを複製し、出力をそれぞれ対応するスキップ接続に加える。条件付け入力は、はじめに簡単なCNNsでLDMの潜在空間と同じサイズに縮小されてから処理される。

Slide 192

Slide 192 text

❖ StableDiffusion系の画像生成界隈に新たなパラダイムを引き起こした詳細で複雑なテキストプロンプト研究が蓄積されてもなお、姿勢や物体位置調整は十分とは言い難い制御性であったが、ControlNetの台頭がゲームチェンジャーとなり、特に OpenPose を活用した人体の姿勢制御が爆発的に界隈に普及。反映されやすい入力の工夫や web UI への拡張機能など、発表から数日で目覚ましく進展する様子は、さながら StableDiffusion の登場初期を彷彿とさせた。応用は複雑な姿勢での画像生成に留まらず、例えば、動画をフレーム単位でImg2Imgしてアニメ風動画に変換する取り組みにも、OpenPose や Cannyエッジ、HEDによる、細部まで自由度が高く高精細な制御を中心に、ControlNet を積極的に取り込む動きが広まりつつある。 ❖ 複数の条件付けを同時適用する Multi-ControlNet の実装もオリジナルの ControlNet は特定タスクに特化したモデルの提案だが、複数モデルによる条件付けを複合することでさらなる制御性を実現する拡張手法が公開された。実装観点では、単に複数の条件付けを線形結合してU-Net各層へ与えている模様。潜在的な応用可能性は広いが、とりわけ、従来から難易度の高い描画対象として知られている手指の改善に関する取り組みは盛んなもののひとつ。例えば OpenPose を用いても手指を十分に制御することは困難だが、Cannyエッジや HED、深度マップなどで手先の形状のみ条件付けたモデル、および姿勢のためにボーンを指定したモデルを複合することで、姿勢の自由度を保ったまま従来より忠実な手先を描画することに成功した事例も。 192 ControlNet [Stanford Univ.] Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60] ControlNet lllyasviel https://github.com/lllyasviel/ControlNet sd-webui-controlnet Mikubill https://github.com/Mikubill/sd-webui-controlnet

Slide 194

Slide 194 text

Feb 14, 2023 |　分類器誘導を拡張し、再学習なしに補助入力経路を追加既存の様々なモデルを流用可能な誘導手法を提案。分類器不使用型誘導の潮流にあって、分類器誘導の可能性を改めて示した。拡散モデルを追加条件に合わせて学習し直す必要がなく、既存モデルを自由に組み合わせられる点が強力。 ❖ 拡散モデルと分類器誘導の和解分類器誘導の最も基本的な考え方は、ある特定クラス（e.g., 猫）の画像を生成したいとき、分類器によるそのクラスの予測確率が大きくなる方向の勾配を利用して逆拡散過程を誘導するというものである。しかしながら、逆拡散過程の各時刻における画像は一般に強いノイズを含むため、自然画像でしか学習されていない分類器は多くの場合で正しい予測確率を出力できないという問題点が内在することが共通認識されており、これが分類器不使用型誘導のパラダイムの一因でもあった。一部の従来手法ではノイズの乗った画像でCLIP等を再学習することでこの問題を解決しようとしたが、そのようなアプローチはさらなる計算量を要求するため好ましくない。したがって著者らは、サンプリングのスキームを工夫することで、既存の分類器を再学習することなしにこの問題を解決することを試みた。結果的に、提案手法は分類器に留まらない様々なモデルを用いた普遍的な誘導を実現した。 ❖ 普遍的誘導 DDPMの逆拡散過程②補足に基づいて、最終的なノイズ除去画像の推定値　を逆拡散過程の各時刻で計算できる。特に逆拡散過程の初期では非常に平均的でぼやけたものになってしまうなど、不完全ではあるが、この推定値を活用することで普遍的な誘導手法を導く。提案手法は順普遍的誘導、逆普遍的誘導から構成される。また、最終的な生成品質を改善する自己再帰的な手法も考案された。 194 Universal Guided Diﬀusion [UMD, UNC Chapel Hill, NYU] Figure citation | Universal Guidance for Diﬀusion Models [Bansal et al., 2023] [61] ▲ [61: Figure 1] より引用。既存モデルをそのまま活用し、多様な誘導を実現。

Slide 195

Slide 195 text

❖ 順普遍的誘導ここでの論点は明快である。まず、各時刻でノイズの乗った画像が分類器に与えられてしまう既存課題は、先述の推定された綺麗な画像を用いることで緩和する。また、分類器誘導における係数を時刻に関する任意関数とすることで、分類器不使用型誘導のように、誘導の強さを柔軟に指定できるようにした。綺麗な画像を利用する考え方自体は、例えば UPainting でも採用されている。 ❖ 逆普遍的誘導順普遍的誘導だけでは、生成結果の『本物らしさ』が過剰に重視されて条件付けが無視される場合があることを確認。一方で、誘導係数を大きくしすぎると生成が不安定になってしまう。そこで、分類器への入力画像をより尤もらしいものに補正することを考える。具体的には、分類確率がより高くなるような画像を、　周辺の摂動として求める。この計算は順普遍的誘導より一般に軽量（分類器は学習しないため）なので、複数ステップの勾配降下法が利用できる。これをもとに推定ノイズをさらに補正することで、追加条件がより反映される方向へ誘導が強化されることが期待できる。 195 Universal Guided Diﬀusion [UMD, UNC Chapel Hill, NYU] Figure citation | Universal Guidance for Diﬀusion Models [Bansal et al., 2023] [61] ▲ [61] より引用。普遍的誘導のアルゴリズム。ただし、ここでの　は、本資料中の　に相当することに留意。任意の追加条件（e.g., 猫とその矩形領域）任意の既存モデル（e.g., 物体検出器）負の対数尤度 ➡ 任意の損失関数　負の対数尤度の最小化 ➡ 予測確率の最大化　微小な差分求めた摂動を加味した上で、この拡散過程の関係性が成り立つようなノイズ項を逆算。　を代入。

Slide 196

Slide 196 text

❖ ステップ単位での自己再帰生成画像の本物らしさと条件に対する誘導性を両立することは難しく、順普遍的誘導と逆普遍的誘導を組み合わせても品質が不十分な場合も確認された。誘導関数の情報損失が大きいとき、生成中の画像が自然な軌跡から逸脱することが原因だと推察されるが、これらの品質のトレードオフを改善するちょうど良いバランスが軌跡上に常に存在する保証はない。そこで、サンプリングの各時刻において、時刻に応じたノイズを付与しては前の時刻に戻すという操作を規定回数繰り返す方法を提案。簡易的な焼きなまし法にも見えるこの対処によって解の探索空間が広がり、生成品質の改善が観測された。 ❖ 様々な条件付けへの汎用性実験は以下の条件付けについて StableDiffusion に基づき行われた。また、CLIP誘導と物体位置に関しては、ImageNet で学習された非条件付け拡散モデルでも実験。いずれにおいても定性的に提案手法の有効性と高い汎用性が確認された。 CLIP誘導：生成画像をCLIPで埋め込み、入力テキストとの負のcos類似度を利用。セグメンテーション：MobileNetV3-Large を利用。与セグメンテーションとのピクセル単位のクロスエントロピーを平均。顔認識：顔検出の MTCNN と顔認識の FaceNet を併用。検出領域に関して顔埋め込みを計算し誘導。物体位置：FasterRCNN を利用。アンカー予測や矩形座標回帰、ラベル予測といった一通りの損失関数で誘導。スタイル：入力画像と生成画像のCLIP埋め込みについて、負のcos類似度を利用。 196 Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU] Figure citation | Universal Guidance for Diffusion Models [Bansal et al., 2023] [61] 誘導ノイズ ▲ [61, Figure 2] より引用。最左が条件付けとなるセグメンテーション。続いて、自己再帰を各時刻でそれぞれ 1, 4, 10回適用した結果。 ▲ [61, Figure 8] より引用。 ImageNetで非条件付け学習した拡散モデルに対し、提案手法でCLIP誘導した結果。Text2Imageの文脈で学習していないにも関わらず、プロンプトに沿った生成を実現。 GLIDEの悲願を達成したという印象を受ける。 ▲ [61, Figure 10] より抜粋。複数の誘導を同時適用した例。左がセグメンテーション条件で、中央がクラス分類器のみでInpaintingした結果。右は分類器とセグメンテーションによる誘導を併用。

Slide 197

Slide 197 text

Feb 16, 2023 |　追加学習なしで任意解像度における空間制御性を付与事前学習済みモデルによる推定ノイズを融合することで、任意のアスペクト比を扱えるように。同時に、粗い領域指定による空間的制御性を兼ね備える。余剰計算量もなく、効率的に機能する。 ❖ MultiDiffuser StableDiffusionのような事前学習済みモデルが用意されているとき、これを用いて任意解像度、かつ異なる条件付けでの拡散モデルを構成する問題を考える。簡単のため、対象解像度が元モデルが扱う解像度より大きいとすると、対象解像度から元解像度に相当する領域を複数切り抜くことができる。このそれぞれの切り抜きに対して、学習済みモデルと可能な限り同一の挙動をしつつ、全体として滑らかに繋がった画像を生成するモデルを MultiDiffuser とし、最適化問題の閉形式の解としてこれを定義した。汎用的な定式化が為されているが、本質的には、可能な全ての切りで元モデルを適用した際の加重平均を考える問題に帰着する。 ❖ 応用元モデルよりも遥かに大きな任意解像度、アスペクト比へ拡張することで、パノラマ画像を容易に生成可能。また、任意のマスクとテキストペアが与えられたとき、MultiDiffuser のフレームワークで領域に基づく生成も可能となる。具体的には、与えられたプロンプト全てに対して条件付け生成し、各ピクセルでマスク指定されているプロンプトに対応するノイズ集合でのみ加重平均を取ればよい。マスク付き生成の品質を向上させるため、さらにサンプリング時のスケジュールを提案。初期から一定時刻（20%程度）まではマスクと単色背景画像の重ね合わせで重み付けし、残りはマスクを撤廃して逆拡散過程を進める。 197 MultiDiffusion [WIS] Figure citation | MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [Tal et al., 2023] [62] ▲ [62, Figure 1] より引用。任意解像度で多様な条件付け生成が可能。図はセグメンテーションとテキストペアによる制御例。 ▲ [62, Figure 2] より引用。学習済みモデルに基づく MultiDiffuser の概要。

Slide 198

Slide 198 text

Feb 16, 2023 |　学習済みモデルに眠る表現力を精緻な制御へ転用 Text2Imageモデルが空間制御性に乏しいのは、モデルの表現力不足ではなくテキスト表現の限界のためであるとし、元モデルを凍結したまま、追加の条件付けを学習する適合器のみを学習する手法を提案。複数の条件付けを扱う汎用性や、条件同士の自由な複合機能を有する。問題設定や手法は ControlNet と類似しているが、追加の学習パラメータが比較的小さく済むのは利点である。一方、複合可能性や、同一モデルからファインチューニングされたモデルへはパラメータ転移できる点などは、先述した ControlNet の拡張機能と競合するといえる。 ❖ 適合器の構造ピクセルシャッフルによりLDMの潜在特徴と同次元まで条件付け入力を低解像度化したのち、Conv層と Res Block を繰り返しながら解像度を下げていき、それぞれの段階で U-Net の対応する解像度帯の中間特徴に加算するという単純な構造。複数条件を扱う際は任意係数で重み付けすれば良い。訓練時は所望の条件付けデータを用いて通常通り拡散モデルを学習。このとき、元モデルは凍結する。 ❖ 適合器の構造実験は StableDiffusion に基づいて行われた。対象とした条件は以下。単体での効果もさることながら、相補的な条件を複合することにより、単体では忠実に再現できなかった部分の品質向上が確認された。スケッチ：エッジ検出モデルを用い、COCOの120K枚の画像に適用して学習。セグメンテーション：COCO-Stuffから164K枚の画像を使用。キーポイント：LAION-AESTHETICSから150K枚を抽出し、MMPoseでポーズ推定。 198 T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT] Figure citation | T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models [Mou et al., 2023] [63] ▲ [63, Figure 4] より引用。 T2I-Adapterのパイプライン。条件ごとに適合器を学習して用いる。 ▲ 抽出したスケッチによる条件付け生成。[63, Figure 10] より抜粋。 ▲ [63, Figure 7] より抜粋。ポーズによる条件付け生成。

Slide 199

Slide 199 text

Feb 22, 2023 |　MCMCに基づく新たなサンプリングと構成的生成の提案拡散モデルのスコアベース解釈やEBM解釈を通じ、拡散モデルの条件付けや改変、再利用法を再考。さらに、複数の対象を扱う構成的生成について、既存モデルが不得意とする種類が存在すること、その対処法、および新たなサンプリング手法を提案。 ❖ 拡散モデルで扱える確率密度の複合範囲を拡張複数の確率モデルの積で表されるような複合モデルを考えたとき、その正しい対数勾配は元の対数勾配の単なる和ではなくなることから、既存の拡散モデルの複合手法の課題点を指摘。 Hamiltonian Monte Carlo（HMC）と呼ばれるMCMCサンプリング手法の一種を用いてこの課題に対処した。また、EBM解釈に基づき、モデルがノイズ推定ではなく対数密度を推定するようパラメタライズしなおすことで、確率積だけでなく確率混合を扱えるように。複数の拡散モデルの複合といえばComposable Diffusionのような複数概念の混合が想像しやすいが、実際には分類器誘導や分類器不使用型誘導も条件付けの異なる出力を複合しているため、提案手法を適用する恩恵を受けうる。 ❖ 複数の確率密度を併用する様々な問題設定にて有効性を確認 2次元の合成点群データやCLEVRによる評価で提案手法の有効性を確認したのち、分類器による条件付けやText2- Imageでも実験評価。前者では、非条件付け拡散モデルとノイズの乗った画像で条件付けされたImageNet分類器を学習し、分類器誘導の要領でクラスによる条件付け生成を評価した。結果、通常の逆拡散過程に基づくサンプリングよりも、EBMに基づくパラメタライズとHMCを組み合わせた場合が定量的・定性的に高品質となった。また、後者のText2Imageにおける実験では Composable Diffusionに倣い、プロンプトを複数要素に分解した上でANDやOR で結合し条件づける方式を採用。 EBM に基づくパラメタライズでは対象の確率密度をより明示的に反映でき、複合条件での忠実性が向上した。一方、論文中の実験は 64x64 で生成した画像を 1024x1024 に超解像している関係上、生成品質にはアーティファクトも目立ち、改善の余地が見受けられる。 199 Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA] Figure citation | Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [Du et al., 2023] [64] ▲ [64, Figure 4] より引用。 ImageNet 128x128における分類器誘導。上段が通常の逆拡散過程、下段が提案手法。 ▲ [64, Figure 7] より引用。テキスト条件の複合（下段）により、より意図に沿った生成が可能に。 ▲ [64, Figure 8] より引用。複数の領域とテキストペアの条件付けを複合した生成結果。

Slide 203

Slide 203 text

Sep 29, 2021 |　逆拡散過程に必要なステップを徐々に減らすようにモデルを蒸留無条件生成およびクラス条件付け生成において、必要なサンプリングステップを数桁削減。 ❖ 教師モデルの半分のステップで生成する生徒モデルを繰り返し学習最初の教師モデルとして任意の拡散モデルを学習。次に教師モデルをコピーして生徒モデルを用意。教師モデルにDDIMを2ステップ連続で適用した出力を 1ステップのDDIM で再現できるように生徒モデルを学習することにより、教師モデルの半分のステップで生成可能な生徒モデルを獲得する。この手続きを繰り返すことにより、必要なステップ数を半分にした生徒モデルが段階的に学習されていく。 ❖ パラメータ化と損失関数の変更 DDPMのようにノイズ差分を予測するモデルでは、蒸留が進んでステップ数が小さくなるほど予測誤差が増幅することを指摘。これを避けるため、最終目的である綺麗なデータそのものや、DDIM を回転角解釈することで登場する速度の概念を代替の学習対象とする方法を提案。加えて、時刻ごとの損失関数の重みをSNR（信号対雑音比）に基づいて調整し、学習安定化を図った。 203 漸進的蒸留 [Google Brain] Figure citation | Progressive Distillation for Fast Sampling of Diﬀusion Models [Salimans et al., ICLR 2022] [65] [65: Figure 4] より抜粋。 ▶ CIFAR-10、ImageNet 64x64、LSUM系のデータセットでステップ数を減少させた際の品質比較。提案手法は品質の劣化が少なく、極端に小さなステップ数でも一定程度の品質を保っていることがわかる。 ◀ [65: Figure 3] より引用。 ImageNet 64x64にて各ステップ数まで蒸留されたモデルを用い、ランダムシードを固定して生成した例。極端に小さなステップ数でも定性品質がある程度保たれていることが見てとれる。ただし、特に1ステップの例では、構図が部分的に変わったり、形状が崩れてしまったものも存在。

Slide 219

Slide 219 text

Feb 20, 2022 |　DDPMが作る多様体上での擬似数値解法の提案 ❖ 古典的な数値解法を2段階に分割 DDIMのODE化における①’式を用いてそのまま古典的な数値解法を適用すると、ステップ数を削減するにつれ顕著に性能が劣化する。その原因として、古典的な数値解法は対象となる関数が理想的にあらゆる場所で定義されることを暗に仮定しているが、ニューラルネットワークにより学習された関数は限られた定義域でしかよく定義されていないためである（任意入力に何らかの値は返すが、学習過程で経験していない入力領域ほど出力の信頼性は低下する）。以上の考察から、古典的な数値解法をまず「勾配補正部」と「遷移部」に分け、勾配に沿った単なる線形推移である遷移部をDDPM に応じた非線形な遷移に置き換えた。具体的には、DDIMのODE化における①’式の導出過程を利用して以下のように推移させる： ❖ 勾配補正部に既存の数値解法を適用既存の高性能なODEの数値解法では、ある時刻における勾配だけでなく、付近の異なる時刻の勾配を利用して遷移方向を補正する。 PNDMでは特に4次のRunge–Kutta法と線形多段（LMS）法を組み合わせた手法をF-PNDMとして提案し、DDIMや古典的な数値解法をそのまま適用した方法と比較。10ステップから1000ステップまでの広い範囲にてPNDMの有効性を確認した。また、勾配補正部は任意の数値解法で置換できるため、他に2次解法を利用したS-PNDMも提案している（F-PNDMには精度は劣る）。 219 PNDM [ZJU] Figure citation | Pseudo Numerical Methods for Diﬀusion Models on Manifolds [Liu et al., ICLR 2022] [71] ▲ [71: Figure 2] より引用。時刻とデータノルムの密度分布の関係。ほとんどの時刻で幅0.1程度の狭い領域に集中していることがわかる。補正した推定ノイズ ▲ [71] より引用。 Runge–Kutta法で初期の必要時刻数の勾配を求めつつ遷移させ、残りをLMS法で解く。

Slide 221

Slide 221 text

Nov 02, 2022 |　誘導付きでも安定して高品質生成可能なサンプリング手法の提案従来手法は大きな誘導係数で不安定になりやすく、生成中の画素値が範囲外に逸脱したり飽和しやすいという課題を抱えていた。 ❖ 被積分関数内の予測値をノイズではなく各時刻の出力そのものに変更変数設定がODEを解く上での安定性に寄与しているとし、DPM-Solverを踏襲しつつ、 DDPMのprobability ﬂow ODEをさらに式変形。 DPM-Solverと同様、サンプリング時刻間の時刻を用いてモデル出力の導関数を近似する2次解法として DPM-Solver++(2S) を提案（それ以上の高階解法は不安定になるため今後の展望としている）。さらに、導関数近似のために関数評価回数が増加するのを抑制するため、事前に計算したステップでの値を再利用するAdams-Bashforth法のような多段解法であるDPM-Solver++(2M) を提案。同じ計算回数のもとで一段法よりも細かいステップサイズを設定できるため、同規模の計算量のもとでDPM-Solver++(2S) よりも僅かに高性能となる。 ❖ 閾値処理による生成品質向上各ピクセルのRGB値の範囲が定まっている画像のようなデータの処理では、生成中のデータが指定範囲を逸脱しないように各時刻で閾値処理をすることで最終品質が向上することが知られている。特に誘導付きの推論では、生成を高速化するためにステップ数を減らすほど画素値が範囲外に飛びやすくなるため、閾値処理は提案手法の安定性に寄与する。 221 DPM-Solver++ [THBI Lab, Tsinghua Univ., GSAI, +] Figure citation | DPM-Solver++: Fast Solver for Guided Sampling of Diﬀusion Probabilistic Models [Lu et al., 2022] [73] ▲ [73: Figure 1] より引用。 ImageNet 256x256で学習した拡散モデルにおいて、分類器誘導のスケールを8.0として推論した結果の比較。関数評価回数は15回で固定。従来の高次解法を中心に生成結果が破綻しているが、提案手法は定性的に最良のサンプルを生成できている。 ▲ [73: Figure 3] より抜粋。ピクセル空間やLDMにて誘導スケールを変えて品質比較した例。提案手法は少ない関数評価回数でも一貫して高品質を実現している。

Slide 232

Slide 232 text

❖ 複数のモデルサイズを用意層数や潜在空間の次元数、Attention のヘッド数を変え、パラメータが大きくなる順にDiT- S、DiT-B、DiT-Lおよび DiT-XL を提案（e.g., DiT-XLは28層、1152次元、16ヘッド）。かつ、潜在特徴をパッチ化する際の1辺のピクセル数を末尾に付け加え、モデル設定を表現。 ❖ 4種類のTransformer Blockを提案し、性能比較逆拡散過程の時刻情報、クラス情報やプロンプト等、様々な条件付けを DiT のTransformer Blockに取り込む方法として、以下の4種類を提案。 In-context conditioning : 条件付けをそれぞれトークン化し、入力のトークン列に結合する（[CLS] などの特殊トークンと同様の扱い）。モデルアーキテクチャへの変更が不要。 Cross-Attention block : 条件付けをトークン化して結合し、追加のCross-Attentionの Key-Value として取り込む。 adaLN block : LN（Layer Normalization）を、ADMにおける adaGN のように適応的な層に改変。条件付けのトークンの和から LN のパラメータを求めて用いる。候補中で最小の計算量。 adaLN-Zero block : adaLNに加えて残差接続の前に線形層を設け、出力が0ベクトルとなるよう初期化。学習初期は残差接続が恒等関数となり、学習の安定化や加速が促進される。 ImageNetにおけるDiT-XL/2設定の実験にて、adaLN-Zero blockが最も優秀なFID値を達成。このとき、解像度256x256の画像において、DiT-XL/2の計算量は118.6Gﬂops。 232 DiT [UC Berkeley, NYU] Figure citation | Scalable Diﬀusion Models with Transformers [Peebles et al., 2022] [74] ▲ [74: Figure 3] より引用。 DiTのコアとなる構造。LDMの潜在特徴を受け取り、逆拡散過程におけるノイズとその分散を予測する。 ▲ [74: Figure 5] より引用。　 adaLN-Zeroが安定して高性能。 ▲ [74: Figure 4] より引用。 ViTに準拠した入力方法。空間的な潜在特徴をパッチ化して直列に並べ、Transformerに通す。

Slide 233

Slide 233 text

❖ Transformerモデルのスケーリング則を実証モデルの各設定を網羅的に調査し、モデルが大きいほど、またパッチサイズが小さい（画像を表現するトークン数が多い）ほど性能向上することを確認。これらを合わせ、モデルサイズそのものではなく、モデル全体の計算量が生成品質と強い相関があることを示した。 ❖ 大きなモデルほど学習時の計算効率性が高いことを確認誤差逆伝播も含めた学習時の総計算量を概算し、各設定ごとに性能比較。モデルサイズが大きくパッチサイズが小さいほど、同じ訓練計算量でより良い性能に到達することを実証。 ❖ 大きなモデルほど推論時の計算効率性が極めて高いことを確認推論時のサンプルステップを変えて各設定間の生成品質を比較。同水準の計算量を消費しても、より小さい設定はより大きな設定の品質から乖離することを示した（e.g., DiT-L/2 にて1000ステップで推論した場合と DiT-XL/2 にて128ステップで推論した場合を比較すると、後者は5倍以上高効率でありながらより低いFID値を達成）。 ❖ 上記の性質を定性的にも確認各設定を400Kステップ学習させ、様々なクラスで条件付けした画像をそれぞれ同一のノイズから生成（右図）。DiT-XL/2 の設定が最も自然で高品質な生成ができている。パッチを大きくしたりモデルを小さくすると、全体構造が壊滅的に崩壊する様子が見てとれる。 233 DiT [UC Berkeley, NYU] Figure citation | Scalable Diﬀusion Models with Transformers [Peebles et al., 2022] [74] ▲ [74: Figure 7] より抜粋。各画像で右に行くほどモデルサイズが大きく、下に行くほどパッチサイズが小さい設定。右下がDiT-XL/2を表す。 ▲ [74: Figure 9] より引用。 DiT-XL/2が最も学習計算効率が高い。 ▲ [74: Figure 10] より引用。ステップ数 [16, 32, 64, 128, 256, 1000] での生成品質。

Slide 237

Slide 237 text

❖ 第二段階：報酬推定 CLIP 画像埋め込みとテキストプロンプトを入力に、第一段階で得られた二値評価を予測する報酬関数を MSE で学習。このとき、評価値に基づくデータオーグメンテーションを導入。具体的には、『良い』と評価された画像テキストペアに対し、元テキストの亜種を複数作成（e.g., 元が『緑色の犬』なら『赤／青／…／黄色の犬』）。それぞれの組み合わせにおける報酬推定値を温度付きSoftmaxに通し、正しいペアの予測確率が高くなるようにクロスエントロピーを取ることで補助的な損失関数とする。 ❖ 第三段階：Text2Imageモデルのファインチューニングプロンプトと生成画像のペアに対し、その報酬推定値で重み付けした負の対数尤度を最適化。これは、フィードバックに基づいて直接テキストと生成画像の整合性を改善する指標として設計されている。ただし、生成画像のみを用いた学習では多様性が損なわれる可能性があるため、事前学習に用いたデータセットも併用。通常データセットにおけるキャプションから実際の画像を生成する負の対数尤度を最適化し、生成画像の品質や自然性を担保する。InstructGPT における RLHF ではPPOと呼ばれる強化学習手法が採用されたが、そのような手法はより高品質な結果を導くことが期待される傍らでハイパーパラメータ調整等の難易度が高いことに触れ、今後の展望としている。 ❖ 棄却型サンプリング DALL·E や Parti で用いられたように、入力プロンプトに対して複数枚の画像を生成した上で、ある指標における最良の結果を返す方法を試行。提案手法を適用しないオリジナルのStableDiﬀusionについて、16枚の生成後、報酬推定値に基づき上位4枚を抽出した結果、画像とテキストの整合性が優位に改善することを確認。これをもって、学習された報酬関数の重要性が裏付けられた。一方で、提案手法によりファインチューニングされたモデルでは棄却型サンプリングに優位な効果は見られず、学習を通じて適切なバランスがモデル内に内包されていることが示唆された。 237 二値報酬推定に基づく整合性改善 [Google Research, UC Berkeley] Figure citation | Aligning Text-to-Image Models using Human Feedback [Lee et al., 2023] [76] ▲ [76: Figure 4] より引用。 120プロンプトにおいて、元モデルの生成画像と提案手法による生成画像を人手で評価した結果。生成品質（右）はほぼ同水準といえる一方で、画像とテキストの整合性（左）は提案手法が優位に勝る評価を得た。 ▲ [76: Figure 6] より抜粋。元モデルに棄却型サンプリングを適用した評価結果。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text