Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DiffusionによるText2Imageの系譜と生成画像が動き出すまで

 DiffusionによるText2Imageの系譜と生成画像が動き出すまで

2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。

明日にでも世界が一変しうる流動的な分野において、情報のまとめとは必然的に古くなっていくものです。そんな奔流の中にあっても、本資料が、これまでの歴史を俯瞰し、これからの成長を見据えるための礎として、幾許かでも皆様のお役に立てればと心より願い、ここに筆を置きます。

はまなすなぎさ

February 28, 2023
Tweet

Other Decks in Technology

Transcript

  1. DiffusionによるText2Imageの
    系譜と生成画像が動き出すまで
    清水 遼平
    株式会社ディー・エヌ・エー
    Oct 13, 2022 first edition
    Mar 06, 2023 last update

    View Slide

  2. 清水 遼平
    ❖ DeNA 22新卒
    データ本部AI技術開発部在籍。ZENKIGENで業務委託。
    最近『30分で完全理解するTransformerの世界』という記事を書きました。
     学生時代の研究とか
    ❖ 双曲空間上の深層学習
    Hyperbolic Neural Networks++ [Shimizu et al., ICLR 2021]
    ❖ 幾何学的な深層学習分野の何か
    修論(未発表のためぼかし)
    ❖ バイトや先輩の研究のお手伝い
    音声合成・声質変換・自然言語処理
     趣味 
    ❖ 絵を描いたりゲームしたり
    2
    あなたは誰?
    @RosaRugosaBeach
    [email protected]
    “An abandoned aubade, or what is one remove from a curse. ”, https://www.pixiv.net/artworks/86146476

    View Slide

  3. 3
    最近Diffusionが熱い
    近年の画像生成技術はもはや研究領域に留まらない
    『Text2Image=テキストからの画像生成技術』が、極めて急速に一般層に浸透し、
    産業構造にも変革をもたらそうとしている。
    ❖ 爆発的なバズりの背景に共通する仕組みを知りたい
    『AIイラスト』がTwitterのトレンド入りしたり。
    ❖ 発展の経緯は?
    技術的なところから人口に膾炙した理由まで。
    ❖ 乱立する新規サービスが抱える問題点?
    時代の転換点は、必ずしも万人に受け容れられて始まるわけではない。
    ❖ 今後の発展性は?
    生成画像が動画として滑らかに動くようになりつつある。
    “フラットカラーで液体金属的なエネルギーが渦巻き、静かに踊りながら、次に来る革命の時を待ち侘びている”

    View Slide

  4. Diffusionの仕組みを詳しく知りたい人から、
    昨今の画像生成AIの流れをざっと眺めたい専門外の人まで
    ❖ 序章 ~ 2章2節, 4章, 補遺
    仕組みの話や、数式が多め。特に、補遺は発展的な研究紹介がメイン。
    眺めるだけでもお気持ちは追えるようにしたつもりですが、専門外の人には少し難しい
    かも。より厳密な議論に興味のある方は、各出典をご覧いただくのがおすすめです。
    4
    どんな方向けに書いたか
    参考文献は各ページ右上に表示しており、論文タイトルの右側にそれぞれ通し番号を振って
    います。論文からの図表は、対応する文献番号を付記して引用しています。論文の内容は筆
    者により翻訳・翻案されており、本文からの直接の文章の引用はありません。また数式に関
    しては、資料を通して変数表記が極力統一されるよう、筆者により適宜咀嚼・再解釈されて
    いますが、基本的には各ページ右上に表示する論文内容に準拠しています。
    コードの使い方や応用というよりは、各手法のアイデアや背景を理解できるよう、乱立する
    手法群を俯瞰する目的で執筆しました。具体的なGitHubリポジトリの使い方や応用方法等は
    すでに様々な方が非常に有益な記事を公開してくださっているので、本資料がそれらに興味
    を持つ(そもそもどういう手法が存在するかを知る)ための橋渡しとなれば幸いです。

    View Slide

  5. Diffusionの仕組みを詳しく知りたい人から、
    昨今の画像生成AIの流れをざっと眺めたい専門外の人まで
    ❖ 2章3節 ~ 3章
    お話ベース。仕組みの話は最低限。
    作例を交えつつ、各トピックの繋がりや、界隈がどのように発展してきたかを中心に。
    5
    どんな方向けに書いたか
    大人の事情もあり、画像や投稿内容の掲載は叶いませんでしたが、多くの方々のご協力によ
    り様々な作例をご紹介させていただくことができました。各リンクから元投稿をご覧いただ
    いたり、他の作例に触れたりするきっかけづくりのお手伝いができましたら望外の喜びです
    (残念ながらSpeakerDeckではスライド上でハイパーリンクが機能しないため、ぜひお手元
    に資料をダウンロードいただき、そちらのPDFからご参照ください)。
    生成画像の雰囲気が資料中で幾許かでも掴めたら、という考えから、
    一部で筆者の投稿のみ内容を引用しています。
    Closeted maiden
    はまなすなぎさ
    1:57 AM · Nov 24, 2022
    https://www.pixiv.net/artworks/103047659

    View Slide

  6. ツイートやブログ記事などの引用を快諾してくださった皆様へ、心よりの謝意を申し上げます。
    目まぐるしく変化する世の中の動向や盛り上がり、その多様性を時勢と共に反映したいという意図から、様々な方に実際のツイートや記事の引用をご依頼させていただきました。
    ご協力いただいたお一人お一人に、この場を借りて改めて御礼申し上げます。これまでを担い、これからを切り拓いていかれる皆様に、幸多からんことを。
    前書きに代えて

    ChromedSets (Stable Diffusion + Waifu Model)
      @ChromedSets

    にきもなか
      @nkmonaka

    未定
      @msts_stu

    エクスヴェリア【nZk】【emU】
      @nZk1015

    三崎律日@『奇書の世界史2』発売中!
      @i_kaseki

    sabakichi
      @knshtyk

    小猫遊りょう(たかにゃし・りょう)
      @jaguring1

    たまご
      @tamago_gamer

    Ai love Higokko
      @AiloveHigokko

    Coco 🥜
      @setawar

    KOMI_NATION
      @komi_nication

    Muacca
      @Muacca

    鳩。
      @hato_po__ppo

    鶴賀🔞
      @tsuruga_0010

    大曽根宏幸@AI BunCho運営中
      @OsoneHiroyuki

    ぴぽ
      @pipohi

    𝒏🅞𝒈𝒖𝒊𝒔𝒔
      @n0guiss_y

    トザン
      @miyakozan

    ネコノクロミン
      @dementiumxx

    AYA-cis🔞
      @GinMei182

    あるふ
      @alfredplpl

    chomo
      @tkaz2009
    6

    かたらぎ@NovelAI初心者教本
      @redraw_0

    NovelAI
      @novelaiofficial

    852話
      @8co28

    やまかず
      @Yamkaz
    "TWITTER, TWEET, RETWEET and the Twitter Bird logo are
    trademarks of Twitter Inc. or its affiliates."

    View Slide

  7. 7
    目次
    01 | Diffusion基礎
    02 | Text2Imageの系譜
    03 | 爆発的な普及による弊害と警鐘
    04 | そしてText2Videoへ
    00 | 前提知識
      +α(補遺A-G)

    View Slide

  8. 8
    00 前提知識

    View Slide

  9. 9
    そもそも深層学習って?
    ニューラルネットワークと呼ばれる仕組みを用いた機械学習手法のこと
    ❖ 入力データをベクトルやテンソルで表現
    深層学習の文脈におけるテンソルとは、単純に複数軸方向に並んだ数値集合程
    度の意味。数学や物理学における厳密なテンソルの要件は必ずしも満たさない。
    画像 : 画素値(RGB)× 幅 × 高さ
    動画 : 画素値(RGB)× 幅 × 高さ × 時間
    言語 : トークンに分解し、各語彙に埋め込みベクトルを付与
    音声 : 波形やスペクトログラムなど
    ❖ 何かを予測したり生成したりする
    クラス分類 : 犬、猫などのクラス分類
    物体検出 : 画像中の対象領域を矩形で囲う
    セグメンテーション : 画像中の対象領域をピクセル単位で塗り潰す
    検索 : 何らかの距離空間で入力と近いものを検索する
    生成 : 各モダリティのデータを新たに生み出す
    Height
    Width
    RGB
    ▲ 画像の3階テンソル表現。画像平面上の各ピクセル位置に、それぞれ
    RGBの3次元ベクトルが並んでいるという見方ができる。
    ▲ 言語のテンソル表現。トークン(単語より小さく分解されることもあ
    る)ごとに、潜在空間内の学習可能な座標を割り当てるイメージ。図で
    は3次元だが、実際は数百から数千などより高次元。これをトークン列
    方向に並べるので、形としては2階のテンソルとなる。

    View Slide

  10. ニューラルネットワークと呼ばれる仕組みを用いた機械学習手法のこと
    ❖ ベクトル演算や行列演算を用いた「層」を重ねてモデルを構成=深層
    線形層(Linear) : 入力に行列をかけてベクトルを足す
    活性化関数(Activation) : モデルに非線形性を付与
    正規化(Normalization) : ノルムを操作し発散防止
    畳み込み層(Convolution) : 学習可能なフィルタ演算
    回帰型(RNN) : 時刻に沿って順番に処理
    グラフ(GNN) : ノードとエッジ間の関係を学習
    量子化(VQ-) : 特徴を離散化したベクトル辞書を学習
    注意機構(Attention) : 要素同士の類似度を計算して情報集約

    ❖ ある損失関数  を小さくするように学習
    予測対象との誤差やモデルパラメータへの制約を記述した損失関数を定義し、その値を小さくする方
    向の微分勾配を出力から入力へ流すことで徐々にパラメータを更新する誤差逆伝播法が深層学習の核。
    損失関数の設計は学習結果にかなり影響する。
    Linear
    = ・ +
    10
    そもそも深層学習って?
    出力 重み(学習) バイアス(学習)
    入力

    View Slide

  11. 訓練データを表現する確率分布を学習し、その分布からデータサンプリングする機械学習手法
    手法によって、生成モデルを明示的に最適化する場合も、暗黙的に学習する場合もある。
    11
    生成モデル概観
    ▼ 訓練データ  の集合
    生成モデルは与えられた  の確率密度を表現できる
    よう学習される。 (モデルパラメータ)が添字につ
    く変数や関数は学習の対象。
    生成
    学習
    生成モデル

    View Slide

  12. 訓練データを表現する確率分布を学習し、その分布からデータサンプリングする機械学習手法
    手法によって、生成モデルを明示的に最適化する場合も、暗黙的に学習する場合もある。
    ❖ VAE(変分オートエンコーダ)
    データを圧縮した確率的な潜在表現を学習する手法。データを潜在空間に射影するエンコーダと、潜在空間から
    元のデータ分布上に点を写すデコーダから構成される。
    ❖ GAN(敵対的生成ネットワーク)
    これまでの生成モデルの主流。データ生成器と識別器を互いに競争させ、生成品質を向上させる手法。潜在空間
    から本物と見紛うようなデータを生成する生成器と、データの真贋を見分ける識別器から構成される。
    ❖ Flow
    可逆な写像を繰り返し適用し、データを対応する多変量正規分布上の点に射影する手法。確率密度関数を明示的
    に計算できるため、モデル性能を定量的に評価可能。
    ❖ AR(自己回帰型)
    出力の各要素を順番に生成していくアプローチ。生成済みの過去要素を条件付けに、次に生成すべき要素の尤度
    が最大化されるように学習する。例えば、言語であればトークンを先頭から順に生成する手法が、画像であれば
    ピクセルを左上から右下へ順に生成する手法がベーシックな考え方となる。評価指標が明確で、表現力も高い。
    12
    生成モデル概観
    GAN
    z Generator x’
    x
    Discriminator 0/1
    VAE
    x Encoder z Decoder x’
    Flow
    x
    Flow
    f(x)
    z
    Inverse
    f-1(x)
    x’
    AR
    x
    i-1
    x
    i+1
    x
    N

    x
    0
    x
    1
    x
    2
    x
    i

    x
    3
    x

    View Slide

  13. 13
    Transformer概観
    Attention(注意機構)を最大限に活用した伝家の宝刀的モデル
    初出は翻訳タスクであったが、その汎用性から自然言語処理を越えて多岐にわたる分野で活躍している。
    ❖ Attention
    特徴ベクトルが並んだ2系列の関係性を抽出し、 フィードバックする仕組み。系列間で結びつき
    が強い要素同士の情報を集約していく機能に長けている。異なる系列同士の関連を抽出するもの
    をCross-Attention(交差注意機構)、自分自身との関連を抽出するものを特にSelf-Attention
    (自己注意機構)という。
    ❖ Attentionの応用
    自然言語処理では、文章を単語以下の『トークン』と呼ばれる単位に分割し、それらに個別のベ
    クトルを割り振ることでAttentionを適用する。 この考え方は汎用的で、例えば画像領域では、
    画像を小さなパッチに分割してそれぞれをトークン化する Vision Transformer(ViT)と呼ばれ
    る手法が主流となっている。
    Figure citation | Attention Is All You Need [Vaswani et al., NeurIPS 2017] [1]
    ◀ 右列のモジュールは、系列の出力に対応するデコーダ
    と呼ばれる部分。ここでは系列を先頭から順に推論して
    いくため、各トークンが自身より未来の情報を参照しな
    いように上図のような上三角のマスク処理を行う。
    ◀ 左列のモジュールは、入力系列の情報を集約するエン
    コーダと呼ばれる部分。ここはデコーダに与える条件付
    けを獲得する役割のため、入力系列全体を見渡してよ
    く、上図のようなマスク処理は行わない(上図のグレー
    アウトしたグリッドにも色がつくイメージ)。
    30分で完全理解するTransformerの世界
    株式会社ZENKIGEN
    Feb 14, 2023
    https://zenn.dev/zenkigen/articles/2023-01-shimizu
    このトピックは先日執筆した記事に詳しいです。
    ▲ [1: Fig. 1] より引用。枠線と右上図追加により一部改変。

    View Slide

  14. 14
    01 Diffusion基礎

    View Slide

  15. 『データが崩壊していく過程を巻き戻す』新しいタイプの生成モデル
    ❖ 非平衡熱力学から着想
    分子運動の系をモデル化するLangevin動力学
     → 数理最適化に応用した確率的勾配Langevin動力学
     → 効率的なサンプリングのために焼きなましを適用
     → 拡散過程の逆過程を定式化する際に応用
    ❖ 多様で複雑なデータ分布を安定して学習可能
    VAE : 出力がぼやけやすい
    GAN : 学習が不安定で多様性も損なわれがち
    Flow : 可逆関数しか使用できないという制約
    AR : 要素数が多いほど推論に時間がかかる
    Diffusion : 時刻数が多いほど推論に時間がかかる
    ❖ Jun 19, 2020 | DDPM(ノイズ除去拡散確率モデル)が昨今の火付け役
    15
    Diffusion Models(拡散モデル)って?
    ↪ Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    Deep Unsupervised Learning using Nonequilibrium Thermodynamics [Dickstein et al., ICML 2015] [2]
    Diffusion
    x
    0
    x
    T
    x
    1
    x
    2

    GAN
    z Generator x’
    x
    Discriminator 0/1
    VAE
    x Encoder z Decoder x’
    Flow
    x
    Flow
    f(x)
    z
    Inverse
    f-1(x)
    x’
    AR
    x
    i-1
    x
    i+1
    x
    N

    x
    0
    x
    1
    x
    2
    x
    i

    x
    3
    x

    View Slide

  16. 目的 
    16
    DDPMのこころ
    対象分布のデータ がランダムノイズ に崩壊する過程
    [方法] 時刻に応じて徐々にノイズを混合し、元の綺麗なデータの情報を薄めていく(   )。
    [方向] から を表現。
    逆拡散過程
    拡散過程
    ランダムノイズ から対象分布のデータ を獲得
     理論背景
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    ある時刻の状態から(少しだけ
    変化した)次の時刻が決まる。
     ノイズを加える。
    微小な係数
    議論の出発点。

    View Slide

  17. Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    DDPM:前提となる拡散過程の定式化
    17



    拡散過程
    和に関する正規分布の再生性を利用。
    標準正規分布
     理論背景
    対象分布のデータ がランダムノイズ に崩壊する過程
    [方法] 時刻に応じて徐々にノイズを混合し、元の綺麗なデータの情報を薄めていく(   )。
    [方向] から任意の の生成分布を表現。
    … …
    拡散強度
    (微小)
    現時刻の影響
    を弱めた平均
    順番にノイズを付与せずとも、
    元の綺麗なデータから任意時刻
    を表現できる。
     ノイズを加える。
    変数表記にし、各時刻の結果を展開して集約していく。
    ひとつ次の時刻への確率遷移を、多変量正規分布として定義。
    次の時刻の
    確率密度

    View Slide

  18. 18
    DDPM:逆拡散過程の定式化
    ランダムノイズ から対象分布のデータ を獲得
    [方法] 時刻に応じてノイズを除去。
    [方向] から を推定。
    ① ②
    前の時刻の
    推定確率密度
    時刻を遡る確率密度を、元の綺麗なデータがわかってい
    ない状態で機械学習モデルにより推定したい。
    ➡ これが精度良く獲得できれば、モデルを繰り返し適
    用することにより、ランダムノイズを徐々に綺麗なデー
    タに近づけていくことができるようになる。
    逆拡散過程
    目的 
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    推定平均 推定分散
    【設定】ある時刻のノイズが乗ったデータが与えられたとき、その前
    の時刻(少し綺麗な方)のデータを推定したい。
    実は、元データ(ノイズ除去を繰り返した結果、最終的に得られる答え)が仮にわかっていれば、時刻を遡る確率密度は陽に表せる。
     ベイズの定理
      拡散過程の②を式変形して代入。
    拡散モデルの初期研究である Deep Unsupervised Learning using Nonequilibrium
    Thermodynamics [Dickstein et al., ICML 2015] では、『拡散強度 が十分小さいと
    き、逆拡散過程も正規分布で表せる』という性質を用い、時刻を遡る変化が正規分布
    であることを仮定していた。一方、DDPMでは事後分布を考えることによって、逆拡
    散過程が自然に正規分布として扱えることを示した。



    View Slide

  19. 19
    DDPM:逆拡散過程の定式化
    ランダムノイズ から対象分布のデータ を獲得
    [方法] 時刻に応じてノイズを除去。
    [方向] から を推定。
    ③ ④
    逆拡散過程
    目的 
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    ②で得られた表式を参考に、逆拡散過程の平均そのものではなく、
    各時刻で付与されたノイズを推定する形に置き直す。
    ここまででモデルをパラメタライズできたので、推定値を
    真の値に近づけるための指標を設計する。
    理想的には、最終的に獲得したい綺麗なデータ  をモデ
    ルが出力する確率密度を直接最適化したい。しかしながら
    一般にその定式化は困難なので、右のように、代替となる
    指標で負の対数尤度を上から抑え、損失関数とする。
    モデル出力
    【変分下限】拡散過程の全てのステップで出現したデータ列の同時確率と、
    モデルにより推定された同時確率の一致度(KLダイバージェンス)を展開
    し、綺麗なデータに関する負の対数尤度(未知)を上から抑える。
    理想的な指標
    代替指標
    分散は定数となる。

    View Slide

  20. 20
    DDPM:逆拡散過程の定式化
    ランダムノイズ から対象分布のデータ を獲得
    [方法] 時刻に応じてノイズを除去。
    [方向] から を推定。
    目的 
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    ⑤ ⑥
    ノイズ項の誤差学習に帰着。
    パラメータを
    含まない定数項
    損失関数を展開していくと、各時刻ごとに独立した損失関数へさらに分解できることがわかる。
    逆拡散過程
    損失関数の一般項をさらに展開。
       ベイズの定理 

      相殺項の打ち消し

    View Slide

  21. 21
    DDPM:逆拡散過程の定式化
    ランダムノイズ から対象分布のデータ を獲得
    [方法] 時刻に応じてノイズを除去。
    [方向] から を推定。
    目的 
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]

    パラメータを含まない
    定数項に収束する。
    特に画像領域で最適化するため、対数尤度を画素値境界で積分し離散化。
    (条件付き回帰モデルなど、より強力にモデル化する余地はあると述べられている)
    係数を除いたノイズ項のみの学習が品質・実装容易性の両面から良い、との経験則
    に基づき、損失関数を単純化(より困難なノイズの学習が促進される)。
    また、各データごとに全てのステップを一度に最適化するのではなく、最適化対象
    のステップも一様分布からサンプリングして学習を効率化する。
    画像領域での最適化において、  のように確率密度を離散化するのは同様。
    256階調の画素値を正規化
    ⑦ 両端時刻の損失関数はやや特殊。
    損失関数の一般項が本質的にノイズの二乗誤差であることを踏まえ、DDPMにおいて
    最終的に提案された損失関数は以下:
    逆拡散過程

    View Slide

  22. 逆拡散過程の微分方程式化
    ランダムノイズ  から対象分布のデータ   を獲得

    逆拡散過程
    目的 
    … …
    Score-Based Generative Modeling through Stochastic Differential Equations [Song et al., ICLR 2021] [67]
    この逆過程では、時刻 は逆方向(   )に流れる。
    時刻が逆向きの標
    準Wiener過程
    (負の)微小時間
    ② あらゆる時刻における任意データの
    対数密度を厳密に得ることは困難で
    あるため、その勾 配であるスコアも
    一般には求まらない。
    したがって、機械学習によるスコア
    の最小二乗近似を考える。十分量の
    データが 与 えられればモデルによる
    良い近似が期待でき、ランダムノイ
    ズから①に 基 づきサンプリングする
    ことで所望のデータ分布に近いデー
    タを獲得することができる。
    モデルによるスコア推定
    また、上式と同じ周辺確率密度を共有する微分方程式として、確率
    流常微分方程式(probability flow ODE)が対応することも導出さ
    れている。こちらはノイズ項を持たない決定的な過程である。
    【おさらい】SDE化したDDPMは Itô SDE と
    して表現される。
    Itô SDE の逆過程は、同様に、時間が逆向きの Itô SDE で表現できるこ
    とが、先行研究 Reverse-time Diffusion Equation Models [Anderson,
    Stochastic Processes and their Applications, 1982] にて示されている。
    対数密度勾配(スコア)
    【予告】拡散モデルの微分方程式化【➡補遺F】

    View Slide

  23. 逆拡散過程の定式化に基づき、対象となるデータ分布を学習する
    ❖ 学習は、モデルが正解ノイズを予測するように
        に従ってモデルパラメータを更新。画像のように明示的に定式化不能な複雑な分布を一気に予測するのでは
    なく、各ステップで正規分布という扱いやすい分布を予測する問題に落とし込んでいる。
    ❖ 生成は、ランダムノイズを初期状態として徐々に推定ノイズを減らす方向に
    モデルにより推定した平均と定数値の分散に従って時刻を遡るように確率的にサンプリング。多峰性のある複雑な
    分布でも単一の局所解に陥りにくく、様々なモードへ辿り着く多様性を内包できる。
    23
    DDPM:学習と生成の手続き
    Figure citation | Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    ここでの        は、単にデータセット
    からのサンプリングを意味している。
    ▲ [3] より引用。

    View Slide

  24. 後続研究の基礎となるアーキテクチャが提案される
    ❖ Wide ResNetベースのU-Netを改良
    U-Netは入出力の形状が不変なため拡散モデルに好都合。
    + 「時刻表現にTransformerの位置符号化を応用」
      「重み正規化をグループ正規化に変更」
      「ダウンサンプリングはプーリングではなくストライド2のConv層で行う」
      「16x16の解像度と中継部分にのみPixelSNAIL型のSelf-Attentionを挟む」
    24
    DDPM:モデル構造
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    余談:論文では「PixelCNN++のバックボーンに基づく」と記載され
    ているが、自己回帰型生成モデルであるPixelCNN++のようなマスク
    処理やピクセルシフトは不要であるほか、公式実装を参照しても基本
    的にはU-Netなので、単にU-Netベースだと考えて差し支えない。
    (Down)
    32 x 32
    Down
    8 x 8
    Middle w/ Attn
    4 x 4
    (Up)
    32 x 32
    Up
    8 x 8
    Pre Conv Post Conv
    (Downsample)
    Res Block
    Res Block
    Self-Attention
    Res Block
    Self-Attention
    Self-Attention
    Res Block
    Self-Attention
    Res Block
    Self-Attention
    Res Block
    Upsampling
    Res Block
    Res Block
    Res Block
    (Upsampling)
    U-Net proposed in DDPM
    Down w/ Attn
    Down
    Up
    Up w/ Attn
    Downsample
    Res Block
    Down w/ Attn
    16 x 16
    Down
    4 x 4
    Up w/ Attn
    16 x 16
    Up
    4 x 4

    View Slide

  25. 後続研究の基礎となるアーキテクチャが提案される
    ❖ Wide ResNetベースのU-Netを改良
    U-Netは入出力の形状が不変なため拡散モデルに好都合。
    + 「時刻表現にTransformerの位置符号化を応用」
      「重み正規化をグループ正規化に変更」
      「ダウンサンプリングはプーリングではなくストライド2のConv層で行う」
      「16x16の解像度と中継部分にのみPixelSNAIL型のSelf-Attentionを挟む」
    Self-Attention
    25
    DDPM:モデル構造
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    Res Block
    Group Norm
    Swish
    Conv2d
    Group Norm
    Swish
    Dropout
    Conv2d
    Time Embedding
    Swish
    Linear
    Key Projection
    Query Projection
    SoftMax
    Linear
    Value Projection
    Pointwise Conv

    View Slide

  26. 26
    DDPM:生成結果例
    高品質で細部まで高精細な生成が実現できている
    ❖ 比較的小規模なCIFAR10では、StyleGAN2等の当時のSOTAに匹敵する性能を記録
    一方で、より高解像度な大規模データセットではGAN系手法に定量評価で劣っていた。
    Figure citation | Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    CelebA-HQでの生成例
    ▼ [3: Figure 1] より抜粋。
    LSUN Churchでの生成例
    ▼ [3: Figure 16] より抜粋。
    余 談 :shutterstock
    という有料画像素材の
    透かしが、かなり明 瞭
    に生成結果にも反映さ
    れている。
    SOTA=State Of The Art(最先端)

    View Slide

  27. 27
    逆拡散過程の性質をより直感的に理解しやすい生成結果
    DDPM:生成におけるノイズ除去の推移
    Figure citation | Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    左から右へノイズ除去されていく様子。
    ▼ [3: Figure 6] より引用。
    各図右下を入力した際の生成結果例。ノイズ付与数が少ないほど元の画像の情報が残っているため、出力の多様性は失われる。
    ▼ [3: Figure 7] より引用。

    View Slide

  28. Oct 06, 2020 | ランダム性制御により速度と品質のトレードオフを改善
    ❖ ある強度の標準偏差  を用い、      を  を条件とする形に展開
        のとき、DDPMで導出された逆拡散過程の分布と一致。    のとき、ランダム性が排された振る
    舞いに収束する。後者の決定論的過程を一般にDDIMと呼称する。 ただし、  は逆拡散過程②補足の式を
    用いて各時刻にて推定し、これを下記式に代入することで逆拡散過程を推定していく。
    ❖ DDIM Inversion
    DDIMは常微分方程式(ODE)と関連付けることができる。通常はこれを逆拡散過程を解くために用いるが、
    ODEの適用方向を反転させることで、綺麗なデータ  から任意の時刻までノイズを付与した  を決定的
    に計算できる。これはいわば『元データを復元できる埋め込み』として機能するため、潜在空間における意
    味的な補間も可能に。後続手法では、生成画像間の一貫性を担保する目的で用いられることも多い。
    ❖ 飛ばし飛ばしの時刻で逆拡散過程を再定式化
    訓練時に十分なステップ数で学習し、推論時はより少ないステップ数で生成するアプローチが可能に。
    28
    DDIM
    [Stanford Univ.]
    Figure & Table citation | Denoising Diffusion Implicit Models [Song et al., ICLR 2021] [4]
    和に関する正規分布の再生性から分散項を調整。
    DDIMに対応する     では極端に推論ステップ数を減らしても一定の生成品質を保ってお
    り、訓練時と同等の最大ステップ数を用いるとDDPMよりもFID値が改善。また、   より
    大きな分散を用いる では、訓練時と同等ステップ数の場合にのみ性能向上を確認。
    ▼ [4: Table 1] より引用。
    ▲ [4: Figure 5] より引用。
    推論ステップ数を落としても、大きく品質が損なわれてはいないことが見てとれる。

    View Slide

  29. 29
    改良型DDPM
    [OpenAI]
    Feb 18, 2021 | より適切なノイズ強度の学習により生成速度と品質のトレードオフを改善
    ❖ ノイズ強度のスケジューリング
    線形なノイズ付与とcos関数に基づく遅めのノイズ付与を比較。後者は、逆過程の際により早く鮮明な状
    態に近づく。実験の結果、cos関数型の優位性が示された。
    ❖ DDPMでは固定していたノイズの分散を推定する損失関数を追加
    有効な値域が極めて小さい分散項の学習を安定化させるため、対数スケールでのパラメタライズを提案。
       における を学習対象とすることで、DDPMで有効とされた分散
    の範囲から逸脱しない形で学習可能に。
    ❖ 段階的に逆拡散過程のステップをスキップして推論を高速化
    推論時、飛ばし飛ばしの時刻でもサンプリングできるよう簡易的に分散項を調整する方法を提案。
    Figure citation | Improved Denoising Diffusion Probabilistic Models [Nichol et al., ICML 2021] [5]
    ▲ [5: Figure 8] より引用。枠線追加により一部改変。
    推論ステップ数と生成品質の関係。上段は ImageNet 64x64、下
    段は CIFAR-10 での結果。各図の左下にあるほど、より少ないス
    テップ数でより高品質であることを示す。
    ▲ [5: Figure 3] より引用。
    上段が線形、下段がcos関数型のノイズスケジューリング。線形の付与では、後半の時刻のほとん
    どでノイズが支配的な状態となってしまう。一方、cos関数型はよりゆっくりとノイズ付与。

    View Slide

  30. 30
    超解像への応用
    [Google Brain]
    Apr 15, 2021 | Diffusionを用いた超解像モデルSR3を提案
    顔画像や自然画像における超解像において、人手の評価により従来手法のFSRGANやPULSEを凌駕。実在画像と遜色ない結果を得た。
    ❖ DDPMのモデルアーキテクチャを超解像用に改良
    BigGANのRes Netの使用、Res Blockの個数増加、U-Netのスキップ接続に乗ずる係数の調整など、幾つかの観点でU-Net
    を変更。また、逆過程の各ステップで得られる画像に、元となる低解像度画像をバイキュービック補間したものをチャンネ
    ル方向で結合することで条件付けし、超解像モデルとして学習させた。
    ❖ より鮮明で尤もらしい超解像を実現
    FIDやIS値、超解像画像のResNet-50による分類精度、人手による2AFC評価など多角的に評価し、従来手法よりも好成績。
    Figure citation | Image Super-Resolution via Iterative Refinement [Saharia et al., 2021] [6]
    ▲ [6: Figure 1] より引用。 ▲ [6: Figure C.5] より抜粋。

    View Slide

  31. May 11, 2021 | DDPMのU-Netを改善した ADM(Ablated Diffusion Model)の提案
    拡散モデルによる高い生成品質が実証される契機となった。
    ❖ 拡散モデルのためのアーキテクチャ探索
    拡散モデルはGANほどの十分なモデル検討が行われていないとし、DDPMをベースに網羅的なアブレーションスタディを
    実施。Conv層は深さより幅優先、時刻とクラス情報で特徴量を適応的に線形変換するAdaGNの提案、Attention head↑、
    Attention使用解像度帯↑、BigGAN型のRes Blockを流用すると良い等、様々な知見。
    ❖ Classifier guidance(分類器誘導)の提案
    DDPMを条件付け生成に対応させるという動機の下、学習済み分類器による目的クラスへの誘導手法を提案。
    推論時は分類器の勾配に従って予測ノイズを修正し、徐々に目的クラスに近づくようなデノイズを実現する。
    31
    生成品質が BigGAN を超えるまで
    [OpenAI]
    Table citation | Diffusion Models Beat GANs on Image Synthesis [Dhariwa et al., NeurIPS 2021] [7]
    Res Block in ADM
    Group Norm
    SiLU
    (Up / Downsampling)
    AdaGN
    SiLU
    Dropout
    Conv2d
    Embedding
    (Time and Class)
    SiLU
    Linear
    Pointwise Conv
    Conv2d
    (Up / Downsampling)
    ▲ 各解像度帯でアップ/ダウンサンプリングを担うRes Block。解像度を変えな
    いRes Blockは下図からアップ/ダウンサンプリング部分を除いたものを使用。活
    性化関数や正規化層はBigGANから変更された。
    ▲ [7: Table 1] より引用。枠線追加により一部改変。
    ▲ [7: Table 3] より引用。枠線追加により一部改変。

    View Slide

  32. 32
    生成品質が BigGAN を超えるまで
    [OpenAI]
    FIDや多様性でStyleGAN2、BigGANを抑えSOTA
    それまでの「高品質な画像生成といえばGAN」という風潮を覆した。
    Figure & Table citation | Diffusion Models Beat GANs on Image Synthesis [Dhariwa et al., NeurIPS 2021] [7]
    ImageNet 256x256における生成結果。右列の訓練データの画像と比較すると、左列のBigGANによる生成結果は高
    品質なものの、各生成クラスにおいて似たような描画対象や画角ばかりが出力され、多様性に欠けることが見てとれ
    る。一方、中列のADMでは、BigGANと同程度以上の品質を保ちつつ多様な生成が可能となっている。
    ▼ [7: Figure 6] より引用。
    ▼ [7: Table 5] より引用。  

    View Slide

  33. 33
    さらなる高解像度生成を目指して
    [Google]
    May 30, 2021 | 低解像度から段階生成する CDM(Cascaded Diffusion Models)の提案
    ❖ 低解像度側U-Netの出力を条件付けとして、より高解像画像を生成するU-Netを学習
    論文中では32x32で生成した画像をバイリニアやバイキュービック補間でアップサンプリングし、SR3に倣って64x64にて条件
    付け。同様にその出力で256x256を条件付け。段階的に超解像を適用することで高解像なより画像生成を実現し、ImageNetに
    おいてBigGAN-deepやVQ-VAE-2、ADMを大きく上回るFIDを記録するなど精度改善。
    ❖ 低解像度よる条件付けを改善する幾つかのデータオーグメンテーションを提案
    最も単純なものとして、学習中の50%のサンプルにおいて、低解像度画像をガウスフィルタでぼかすと効果的であることを報告。
    また、低解像度の逆過程を途中で停止し、中途半端にノイズ除去された画像で高解像度側を条件付けする省略型条件付けを提案。
    さらに、低解像度画像を完全に生成したのち、適当なステップまで拡散過程を適用することで同様のオーグメンテーションを行
    う非省略型条件付けを提案。これにより、切断ステップ数のパラメータ探索におけるメモリ効率が向上。
    Figure citation | Cascaded Diffusion Models for High Fidelity Image Generation [Ho et al., JMLR 2022] [8]
    ▲ [8: Figure 1] より引用。
    CDMの概要。ベースモデルで小規模の画像を生成し、後段のモデルで解像度を上げていく。

    View Slide

  34. Sep 28, 2021 | Classifier-free guidance(分類器不使用型誘導)の提案
    ❖ 分類モデルは用意せず、クラスで条件付け可能な拡散モデルと非条件付けモデルを学習
    単一モデルにランダムで正解ラベルか無条件を意味する ∅ を与えることで効率的にこれを実現。
    ❖ 生成時は任意の強さでラベル方向へ寄せてサンプリング
    条件付けをしない出力を始点に、条件付けをした出力方向に任意の強度で推論ノイズを線形補間(外挿)する。これによって逆
    拡散過程の各ステップのノイズを誘導し、生成結果を条件に沿うように寄せていく。誘導強度が強いほど目的の対象に近い生成
    結果が得られる一方で、多様性を損なうトレードオフが存在。Diffusion系画像生成AIでは「CFG」としても知られるパラメータ。
    34
    さらなるEnd2Endの条件付けを目指して
    [Google Brain]
    Figure & Table citation | Classifier-Free Diffusion Guidance [Ho et al., NeurIPS WS 2021] [9]
    conditioned

    ▲ [9: Figure 1] より引用。
    右に行くほど、分類器不使用型誘導を強く適用した結果。多様性が狭まるかわりに、特定のクラスがより生成されやすくなっている。
    ▼ [9: Table 2] より引用。枠線追加により一部改変。

    View Slide

  35. 35
    02 Text2Imageの系譜

    View Slide

  36. 36
    02-1 非Diffusionにおける研究界隈の動き

    View Slide

  37. Feb 26, 2021 | 自然言語と画像を同一特徴量空間で近づけるモジュールの提案
    Text2Imageの発展に寄与した影の立役者。大規模な対照事前学習により、厳密に一対一対応し得ない異種概念を結びつけた基盤モデル。
    ❖ テキストおよび画像を固定長ベクトルに埋め込み
    テキストには GPT-2 に倣うTransformerを、画像にはResNetまたはViTを適用して比較し、TransformerとViTの組み合わせ
    が高性能であることを実験的に示した。 Transformerでは [EOS] トークンの、 ViTではトークン化された画像パッチ列に結合
    された [CLS] トークンの最終出力を正規化したのち、線形射影してそれぞれテキストと画像の埋め込み表現とする。
    ❖ 埋め込みベクトル群のcos類似度を計算し、ペア同士は大きく、非ペアは小さく学習
    画像を固定されたクラス群の中で分類するのではなく、 自然言語による説明そのものと結びつける仕組み。既存クラスラベル
    は「A photo of a {object}」といったプロンプトエンジニアリングを施し、同じ枠組みで対応可能にする。データセット内の
    テキストと画像のペア(正例)は潜在空間内で近付き、非ペア(負例)は遠ざかるように対照学習。
    ❖ Zero-Shotながら様々なタスクへの幅広い汎化性能を獲得
    複数データセットにおける画像分類や動画行動認識等で比較実験。ResNet等、既存手法の事前学習済みモデルに線形分類器を
    付加して対象データセットで完全に、あるいは Few-Shotで教師あり学習したモデルと比較し、Zero-Shot のCLIPが多角的に
    上回ることを示した。一方で、CLIP の対照事前学習で扱われなかった対象を分類したり、物体の詳細な種類を特定するような
    タスクへの汎化性能は今後の課題であるとし、生成タスクへの応用可能性などについても今後の展望とした。
    37
    CLIPの登場
    [OpenAI]
    Figure citation | Learning Transferable Visual Models From Natural Language Supervision [Radford et al., ICML 2021] [10]
    ▲ [10: Figure 1] より引用。ただし、(1) と (2) を横並びから縦並びに改変。

    View Slide

  38. Text2Imageの興りは非Diffusion手法から
    一大巨頭である拡散モデルとは別に、着実に発展している技術体系。多くは『画像の符号化』と『自己回帰型Transformer』
    の組み合わせから成るが、2023年以降さらなる改善手法も台頭しつつある。
    Feb 24, 2021 | DALL·E [OpenAI]
    高品質なText2Imageの先駆け
    May 26, 2021 | CogView [Tsinghua Univ., DAMO Academy, BAAI]
    中国で発展を遂げたDALL·Eの派生
    Dec 31, 2021 | ERNIE-ViLG [Baidu]
    テキストと画像の双方向生成を統一的な事前学習フレームワークで実現
    Mar 24, 2022 | Make-A-Scene [Meta AI]
    人手のセグメンテーションマップを条件付けとして制御性向上を目指した
    38
    非DiffusionによるText2Image概観【➡補遺A】
    Apr 28, 2022 | CogView2 [Baidu]
    CogViewの後継
    Jun 22, 2022 | Parti [Google Research]
    自己回帰生成によるText2Imageの更なるパラメータスケーリングを推し進めた
    Jan 02, 2023 | Muse [Google Research]
    拡散モデルや自己回帰生成手法よりも高効率なSOTA手法の提案
    Jan 23, 2023 | StyleGAN-T [Univ. of Tübingen, NVIDIA]
    GAN系手法の復興

    View Slide

  39. 39
    02-2 Diffusionに基づく研究界隈の動き

    View Slide

  40. 計算効率化、データの効率活用、ノイズ除去過程における工夫など、様々な側面で鎬が削られている領域
    一方、昨今の手法は要求計算資源が甚大なため再現実装が困難な傾向にあり、 従来手法との比較はある程度定型化されている。 例えば、MS-COCOと呼ばれる画像キャプションデータセットにおいて報告された精度を
    比較したり、独自構築したベンチマーク上で、公開されている手法とのみ比較評価するなど。直近ではテキスト以外の入力による制御性向上を図る研究も盛んであり、類似手法との比較が行われることもある。
    Dec 20, 2021 | GLIDE [OpenAI]
    Diffusionを用いた初の高品質Text2Imageモデル
    Dec 20, 2021 | Latent Diffusion Models [CompVis, Runway]
    計算効率化のためにLDM(Latent Diffusion Models)を提案
    Apr 13, 2022 | DALL·E 2 [OpenAI]
    Text2Imageの知名度を格段に上げた立役者
    40
    Diffusionを用いたText2Image概観
    May 23, 2022 | Imagen [Google Brain]
    DALL·E 2の直後に発表され、DALL·E 2を超えたとする手法
    Sep 29, 2022 | Re-Imagen [Google Research]
    データベースからの画像検索により希少語彙の生成安定化
    Oct 27, 2022 | ERNIE-ViLG 2.0 [Baidu]
    中国語における大規模Text2Imageモデル

    View Slide

  41. 計算効率化、データの効率活用、ノイズ除去過程における工夫など、様々な側面で鎬が削られている領域
    一方、昨今の手法は要求計算資源が甚大なため再現実装が困難な傾向にあり、 従来手法との比較はある程度定型化されている。 例えば、MS-COCOと呼ばれる画像キャプションデータセットにおいて報告された精度を
    比較したり、独自構築したベンチマーク上で、公開されている手法とのみ比較評価するなど。直近ではテキスト以外の入力による制御性向上を図る研究も盛んであり、類似手法との比較が行われることもある。
    Oct 28, 2022 | UPainting [Baidu]
    ERNIE-ViLG 2.0と同じタイミングで同じ組織から発表されたText2Imageモデル
    Nov 02, 2022 | eDiff-I [NVIDIA]
    効果的に複数モデルを複合することで性能向上、表現制御の高度化を実現
    Nov 21, 2022 | SceneComposer [JHU, Adobe Research]
    物体形状を制御しつつ、反映精度を任意で調整可能
    41
    Diffusionを用いたText2Image概観
    Nov 23, 2022 | ReCo [Microsoft]
    矩形領域を座標指定する新たなスキームで任意の描画対象の位置を制御
    Nov 25, 2022 | SpaText [Meta AI, Hebrew Univ., Reichman Univ.]
    追加セグメンテーションマップにより任意の描画対象の位置と形状を制御
    Nov 27, 2022 | UniD3 [NTU, JD Explore Academy]
    離散的拡散モデルを用い、言語と画像を同時生成
    Feb 20, 2023 | Composer [Alibaba, Ant]
    条件付けの自由複合による高い操作性をEnd2Endで実現

    View Slide

  42. 近年のText2Imageモデルは高品質であるが、モデル規模が大きく、フルスクラッチでの十分な学習は一般に困難
    提供されているモデルで描画が難しい概念(e.g., 飼い猫やオリジナルキャラクタなど)を反映した画像生成を行いたい際、一般に2種類の問題が存在する。全体のデータセットに対して新規概念に関する画像を十分に用
    意することが困難である点と、モデルを十分に学習させるための計算資源の確保が困難である点である。そこで、事前学習済みモデルに対する小規模な学習のみで新規概念を獲得させる手法が研究されている。
    Aug 02, 2022 | Textual Inversion [TAU, NVIDIA]
    Text2Imageによる画像生成をパーソナライズするための第一歩
    Aug 25, 2022 | DreamBooth [Google Research, BU]
    与えられた固有概念特化型としてText2Imageモデルをファインチューニング
    Nov 21, 2022 | DreamArtist [SYSU]
    わずか1枚の画像を元に、従来手法より鮮明で多様、かつ操作性の高いパーソナライズを実現
    Nov 30, 2022 | Multiresolution Textual Inversion [UT Austin]
    様々な解像度で新規概念を適用するTextual Inversion
    42
    拡散モデルの拡張技術【パーソナライズ】【➡補遺B】
    Dec 07, 2022 | LoRA
    自然言語処理の分野で提案された低ランク適応手法を応用
    Dec 08, 2022 | Custom Diffusion [CMU, Tsinghua Univ., Adobe Research]
    複数の新規概念を組み合わせた高自由度の画面構成を実現
    Feb 23, 2023 | E4T [TAU, NVIDIA]
    1枚の画像から、新規概念を極めて高速かつ柔軟に獲得

    View Slide

  43. 拡散モデルによる高精度な画像生成技術は画像編集にも応用されている
    入力画像の一部をマスクして単にInpaintingを適用する手法から発展して、編集内容を直接指示してより柔軟に生成する手法も研究されている。昨今のText2Image
    モデルはテキストの制御性の観点から対象の細かな一貫性を保った複数パターン生成は苦手としているが、画像編集技術により差分生成などへの応用も期待される。
    Aug 02, 2022 | Prompt2Prompt [Google Research, TAU]
    プロンプトを書き換えることで画像を編集
    Oct 17, 2022 | Imagic [Google Research, Technion, WIS]
    画像の一貫性を保ったままプロンプトで編集する技術
    Oct 20, 2022 | DiffEdit [Meta AI, Valeo.ai]
    編集に必要なマスクを自動推定し編集性向上
    Nov 17, 2022 | InstructPix2Pix [UC Berkeley]
    部分的な編集指示に応じて画像編集可能な汎用モデルを学習
    43
    拡散モデルの拡張技術【画像編集】【➡補遺C】
    Dec 01, 2022 | Shape-Guided Diffusion [UC Berkeley, Meta AI, HKU, BMW]
    編集領域を明示的に指定した画像編集
    Dec 08, 2022 | SINE [RU, Snap]
    画像全体のスタイルや解像度変更などを含む柔軟な編集を実現
    Feb 06, 2023 | pix2pix-zero [CMU, Adobe Research]
    編集元のプロンプトや追加学習の不要な画像編集
    Feb 15, 2023 | PRedItOR [Adobe Applied Research]
    unCLIPの拡散事前分布を応用した、追加学習不要な画像編集

    View Slide

  44. 既存モデルの拡張や応用により、生成品質を向上させたり表現の幅を広げる試みも
    ❖ 推論時の誘導方法の工夫
    Oct 03, 2022 | Self-Attention Guidance [KU]
    注目領域の精緻化を促進して推論時の生成品質向上
    Dec 09, 2022 | StructureDiffusion [UC Santa Barbara, UC Santa Cruz, Google]
    プロンプトを分解し要素同士のもつれをほぐす手法
    44
    拡散モデルの拡張技術【表現力】【➡補遺D】
    ❖ 画像生成の表現の幅を拡張
    Oct 28, 2022 | MagicMix [ByteDance]
    意味混合という新たなタスクとベースラインの提案
    Dec 07, 2022 | M-VADER [Aleph Alpha GmbH, TU Darmstadt]
    プロンプトをテキストだけでなく画像を含む形へ拡張

    View Slide

  45. プロンプト以外のモダリティを追加入力する機構を備え、描画対象の位置や姿勢を自在に制御する拡張手法
    従来のプロンプト駆動型Text2Imageでは、人物等を複雑な姿勢で描画しようとしたり、複数の物体が配置されたシーンを意図通りに生成したりすることに困難があった。
    このような課題を解決するため、独自の記号操作をプロンプトに導入したり、セグメンテーションマップやポーズ表現用のボーンリグで画面構成をより精緻に描画可能に
    したりする手法が次々と提案されはじめている。これらは既存の学習済みモデルに適用可能であるため拡張性が高く、コミュニティでも急速に広まりつつある。
    Jun 03, 2022 | Composable Diffusion [UIUC, MIT]
    組み合わせ可能な拡散モデル
    Jan 17, 2023 | GLIGEN [UW–Madison, Columbia Univ., Microsoft]
    接地情報に基づく補助入力で学習済みモデルを制御
    Feb 10, 2023 | ControlNet [Stanford Univ.]
    学習済み拡散モデルに多様な補助入力経路を追加
    Feb 14, 2023 | Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU]
    分類器誘導を拡張し、再学習なしに補助入力経路を追加
    45
    拡散モデルの拡張技術【操作性・制御性】【➡補遺E】
    Feb 16, 2023 | MultiDiffusion [WIS]
    追加学習なしで任意解像度における空間制御性を付与
    Feb 16, 2023 | T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT]
    学習済みモデルに眠る表現力を精緻な制御へ転用
    Feb 22, 2023 | Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA]
    MCMCに基づく新たなサンプリングと構成的生成の提案
    Feb 25, 2023 | Directed Diffusion [VUW, Google Research]
    交差注意マップ誘導による物体描画領域の制御

    View Slide

  46. 拡散モデルは愚直に推論すると非常に遅い
    既に紹介したDDIMや改良型DDPMのように、推論時のステップ数を削減することは大きな関心事のひとつである。本節では数ある手法のうちいくつかを紹介。
    ❖ 蒸留
    教師モデルから、より計算量の小さい生徒モデルを学習する手法。
    Sep 29, 2021 | 漸進的蒸留 [Google Brain]
    逆拡散過程に必要なステップを徐々に減らすようにモデルを蒸留
    Oct 06, 2022 | 誘導拡散モデルの蒸留 [Stanford Univ., Stablity AI, LMU, Google Brain]
    分類器不使用型誘導を用いるモデルも蒸留可能に
    46
    拡散モデルの推論高速化【➡補遺F】
    ❖ 微分方程式の応用
    微分方程式の効率的な数値解法やサンプリング方法には多くの既存研究が存在する。それらの
    有効活用に向け、拡散モデルを微分方程式として解釈する動きが主流となりつつある。本節で
    はその理論背景について簡単に概説したのち、関連研究の一部を紹介。
    Feb 20, 2022 | PNDM [ZJU]
    DDPMが作る多様体上での擬似数値解法の提案
    Jun 02, 2022 | DPM-Solver [THBI Lab, Tsinghua Univ., GSAI, +]
    SNRに基づくODE数値解法を提案
    Nov 02, 2022 | DPM-Solver++ [THBI Lab, Tsinghua Univ., GSAI, +]
    誘導付きでも安定して高品質生成可能なサンプリング手法の提案

    View Slide

  47. DDPMから始まる系譜は次の世代へ
    ❖ 拡散モデルの包括的な解明に向けた考察
    Jun 01, 2022 | EDM [NVIDIA]
    拡散モデルの理論と実践面を統一的な観点から分離し、性能改善へ多数の示唆
    ❖ U-Netからの脱却
    Dec 19, 2022 | DiT [UC Berkeley, NYU]
    Transformerを用いた新たなデザインであるDiT(Diffusion Transformer)を提案
    47
    既存のDiffusionのその先へ【➡補遺G】
    ❖ 人手のフィードバックの利用
    Feb 23, 2023 | 二値報酬推定に基づく整合性改善 [Google Research, UC Berkeley]
    大規模言語モデルを飛躍的に改善させた知見の輸入

    View Slide

  48. 48
    GLIDE
    [OpenAI]
    Dec 20, 2021 | Diffusionを用いた初の高品質Text2Imageモデル
    ❖ Transformerによるテキスト埋め込みを2通りで利用
    テキストの潜在表現をADMにAttentionを経由して混合。また、文章全体を表す特徴量として
    最終トークンに相当する特徴ベクトルを選択肢、クラス情報の要領で条件付け入力。
    ❖ 拡散モデルにより、核となる小規模画像生成と超解像
    最初の拡散モデルで64x64の低解像度画像を生成。その後、256x256にアップサンプリング。
    ❖ DALL·Eから生成品質が改善
    MS-COCOにおけるZero-Shot FIDや、人手による写実性とキャプション類似度の評価において
    既存品質を上回った。
    Figure citation | GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [Nichol et al., ICML 2022] [11]
    ▲ [11: Figure 1] より引用。

    View Slide

  49. 49
    GLIDE
    [OpenAI]
    より高品質な生成を目指し誘導の方法を検討
    テキストと画像を潜在空間内で近づけるCLIPに可能性を感じていたことが伺えるが、GLIDEの時点
    ではうまくいかなかった模様。
    ❖ キャプションによる分類器不使用型誘導とCLIP誘導を提案
    前者はテキスト埋め込みによる条件付けをランダムで ∅ にしてファインチューニング。
    後者はCLIPによる推論の勾配方向を利用して分類器誘導を行う。
    ❖ 分類器不使用型誘導の方が高性能な結果に
    定量評価ではMS-COCOを用いてIS値やFID値を初めとした種々のメトリクスで評価。
    定性的には、比較対象ごとに1000画像ペアを人手で優劣判定し 、Eloスコアと呼ばれ
    る指標により評価。写実性、キャプション類似度を評価し、いずれとも勝った。
    Figure citation | GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [Nichol et al., ICML 2022] [11]
    ▲ [11: Figure 5] より抜粋。
    従来手法、およびCLIP誘導と分類器不使用型誘導の定性比較。分類器不使用型誘導が細部まで最も明瞭な生成結果を得た。

    View Slide

  50. Dec 20, 2021 | 計算効率化のために LDM(Latent Diffusion Models)を提案
    後述のStableDiffusion開発グループが提案した手法。高品質かつ高速な生成の核となる技術。
    ❖ 圧縮された潜在空間でのDiffusionを実現
    知覚的品質を損なわずに情報圧縮できるよう設計されたオートエンコーダを用いて画像を低次元化。
    知覚するのが難しい細部の特徴や高周波成分を抽象化することにより、より拡散モデルの尤度最適
    化に適した潜在空間に射影可能との主張。画像空間より小さな次元で処理するため省メモリかつ高
    速。一方で、画像空間での高精細なテクスチャが求められる場合、表現が制限される場合もある。
    LDMとDDIMを適用した際の生成速度と品質のトレードオフに関する実験では、4~16倍などに適切
    に圧縮した場合のほうが非圧縮の場合よりも高速化つ高品質であることが示された。
    ❖ タスクに特化した入力エンコーダを導入して汎用性を高めた
    画像生成に関連する様々なタスクに応じた条件付けを反映させるため、 条件付け特徴量を変換する
    ドメイン依存のエンコーダ  、およびそれをU-Net内に取り込むCross-Attentionを導入。例えば
    後にLDMを踏襲して公開されるStableDiffusionでは、テキスト処理部としてCLIPを採用している。
    50
    Latent Diffusion Models
    [CompVis, Runway]
    Figure citation | High-Resolution Image Synthesis with Latent Diffusion Models [Rombach et al., CVPR 2022] [12]
    ▲ [12: Figure 3] より引用。
    モデルの全体像。コアとなる拡散モデルは潜在空間で処理を行う。画像を圧縮す
    るためのオートエンコーダは、VAE型、またはCompVisが先立って発表していた
    VQGAN的構造を流用。後者はエンコーダ  によって空間構造を保ったまま画像
    を低次元化したのち、デコーダ  で各ピクセルを学習可能な離散的コードブッ
    ク内の最近傍特徴と置換、画像空間に復元する。ただし、いずれのタイプのオー
    トエンコーダにおいても、学習時はパッチベースの敵対的学習を行う。

    View Slide

  51. 51
    Latent Diffusion Models
    [CompVis, Runway]
    ❖ 画像生成系の様々なタスクに応用可能
    条件付けに用いる入力を変更することで、様々なタスクを統一的なフレームワークのもとで実現可能。
    Figure citation | High-Resolution Image Synthesis with Latent Diffusion Models [Rombach et al., CVPR 2022] [12]
    Text2Image
    ▼ [12: Figure 13] より抜粋。
    Img2Img
    ▼ [12: Figure 9] より引用。
    ▲ [12: Figure 8] より引用。
    Layer2Image
    ▲ [12: Figure 10] より引用。
    超解像
    Inpainting
    ▼ [12: Figure 11] より引用。

    View Slide

  52. 52
    DALL·E 2
    [OpenAI]
    Apr 13, 2022 | Text2Imageの知名度を格段に上げた立役者
    拡散モデルとCLIPを初めて成功裡に組み合わせた功績は大きい。 CLIP の処理を逆戻すような発想で、テキストから対応する画像を生
    成するよう訓練。テキストに対する高い汎化性能を獲得し、未知の語彙同士の組み合わせや表現からもより妥当な生成が可能に。
    ❖ unCLIP:CLIP + GLIDE の提案
    事前分布 : テキスト埋め込みとCLIPテキスト埋め込みを入力に、対応するCLIP画像埋め込みを推定。自己回帰型と拡散
    モデル型を比較し、最終的に拡散モデル型を採用。
    デコーダ : テキスト埋め込みとCLIP画像埋め込みで条件付けし、64x64の画像生成を行う拡散モデル。GLIDE ベースだ
    が、2段階の SR3 による超解像が控える(64x64→256x256、256x256→1024x1024)。
    Figure citation | Hierarchical Text-Conditional Image Generation with CLIP Latents [Ramesh et al., 2022] [13]
    ▲ [13: Figure 2] より引用。
    上段がCLIP、下段がunCLIPの説明。unCLIPは、テキスト情報からCLIP潜在空間における画像埋め込みを事
    前分布として予測するモジュールと、事前分布から画像生成するモジュールから構成される。
    デコーダに与えるCLIPの画像埋め込みを徐々に補間し、出力の変化を辿ったもの。
    CLIPによる画像埋め込みを明示的にデコーダの条件付けに用いる仕組みの副次効果
    として、テキストに依らない画像間の自然なブレンドが可能となっている。
    ▼ [13: Figure 4] より抜粋。

    View Slide

  53. 53
    DALL·E 2
    [OpenAI]
    ❖ 多様性、審美性が改善
    芸術作品のキャプションに準ずるプロンプトをGPT-3に生成させ、GLIDEとunCLIPでの生成結果を比較。
    AVAデータセットにおける人手の審美性評価を学習した予測器を用いてunCLIPの優位性を確認。
    ❖ 写実性、キャプション整合性はGLIDEに匹敵するかやや劣る
    テキスト内の要素の関連性を捉えるのが比較的苦手。指示通りの色や空間配置を無視してしまうことも。
    ❖ MS-COCOではZero-Shotにもかかわらず既存モデルを凌駕しSOTA
    訓練データに含まれないドメインにもよく汎化しており、CLIPに基づくプロンプト処理の有効性が示された。
    Figure citation | Hierarchical Text-Conditional Image Generation with CLIP Latents [Ramesh et al., 2022] [13]
    [13: Figure 14] より引用。▶
    「 青 いキューブ 上 の 赤 いキュー
    ブ」というプロンプトによる生 成
    結果。unCLIPは、GLIDEと比べて
    プロンプトによる指示を適切に反
    映できない場合が多いとの定性評
    価。例えば、指定した色が指定し
    た物体に適用されない、指定した
    空間構造を反映しない等。
    ▲ [13: Figure 1] より抜粋。

    View Slide

  54. 54
    DALL·E 2
    [OpenAI]
    Text2Imageの品質が認知されるムーブメントのきっかけ
    そのある種の芸術性の高さは驚きをもって迎え入れられ、YouTubeを始めとした多様なSNSにおいて話題となった。
    ❖ ~ May, 2022 | 一般層も利用可能なサービスとして招待制のクローズドβを展開
    発表当初はかなりの「待ち」があった模様。
    ❖ Jul 21, 2022 | オープンβの公開に合わせ料金体系が変更され有償化
    オープンβの発表時、DALL·E 2の総利用者数は100万人に達する勢いであったとのアナウンスも。
    ❖ Oct 12, 2022 | MicrosoftがAzure OpenAI ServiceにてDALL·E 2の提供を公表
    既に提供されていた大規模自然言語処理モデルのGPT-3に続き、大型ラインナップの追加。
    Dec 22, 2022 | Kakao BrainによるunCLIPの再現実装であるKarloがOSS化
    B^DISCOVERと呼ばれるスマートフォンアプリに搭載されているKarloがv1.0 αとして学習済みモデルとともに公開。
    学習データや超解像等の一部モジュールに改変を含む。
    Hierarchical Text-Conditional Image Generation with CLIP Latents [Ramesh et al., 2022] [13]
    Karlo-v1.0.alpha on COYO-100M and CC15M
    kakaobrain
    https://github.com/kakaobrain/karlo

    View Slide

  55. 55
    Imagen
    [Google Brain]
    May 23, 2022 | DALL·E 2の直後に発表され、DALL·E 2を超えたとする手法
    生成画像の悪用やNSFW利用に発展する恐れを考慮し、一般公開やOSS化は為されていない。
    Figure citation | Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [Saharia et al., NeurIPS 2022] [14]
    余談:「NSFW=Not Safe For Work(職場閲覧注意)」の意味。R18や犯罪示唆など。
    [14: Figure A.21] より引用。▶
    文字の取り扱いも向上。「花火
    で描かれたHello World」とい
    う指示では、DALL·E 2は単に文
    字 をレンダリングしたような 生
    成をしているが、Imagenではよ
    り花火らしさを多彩に表現でき
    ている。下段では、DALL·E 2は
    指示と掛け離れた文字列を生成
    してしまっているが、Imagenは
    適切に指示を反映している。
    ▲ [14: Figure 1] より抜粋。

    View Slide

  56. ❖ 超解像用のDiffusionのために Efficient U-Net を提案
    U-Netの低解像度部により多くのRes Blockを配置してパラメータを集中させることで、 計算
    コストが大幅に増加することを回避しつつモデル容量を拡大。またそれに伴い、低解像度部の
    スキップ接続において   の係数を乗ずることで学習の収束を大幅に高速化。 さらに、アッ
    プ/ダウンサンプリング層と Conv層の順序を入れ替え、 より低解像度部に計算を集中させる
    ことで計算量を削減。 U-Netのスキップ接続の位置や集約方法、Attentionの位置や適用方法
    にもADMやLDMから差異が見られる。一方、コアとなる64x64の拡散モデルにはADMを流用。
    超解像は 64x64→256x256、256x256→1024x1024の2段階CDM。前段ではU-Netの最下層
    ブロックでのみSelf-AttentionとCross-Attentionを行う。後段ではSelf-Attentionは廃止し、
    最下層ブロックでテキスト埋め込みとの Cross-Attentionのみ計算することで、 表現力の犠牲
    を抑えつつ計算量を削減。ただし、前段の超解像ではSelf-Attention部の Key, Value にテキス
    ト埋め込みを結合して Cross-Attentionと見做すことで統一的に処理する。後段の超解像では
    一般的なCross-Attention(Queryにピクセル列、Key, Valueにテキスト埋め込み)を使用。
    ❖ テキスト埋め込みには純粋なNLPモデルを使用
    複数の手法を比較した上で、CLIPではなく、事前学習済み T5-XXL を採用。
    56
    Imagen
    [Google Brain]
    Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [Saharia et al., NeurIPS 2022] [14]
    Res Block
    Group Norm
    Swish
    Conv2d
    Group Norm
    Swish
    Conv2d Pointwise Conv
    Res Block
    Res Block

    (Cross-Attention)
    AdaGN
    (Downsample)
    Time Embedding
    Text Embedding
    Attention Pooling
    Down
    Res Block
    Res Block

    (Self-Attention)
    AdaGN
    Time Embedding
    Text Embedding
    Attention Pooling
    Up
    (Upsample)
    Efficient U-Net
    ◀▶ 論文中の記述や図表、引用元の内容に準
    拠。有志の再現実装(e.g., Efficient U-Net の
    主要改良点のみを適用したADMを超解像に用い
    ている lucidrains/imagen-pytorch)とは異
    なる部分が存在しうることに留意。
    余談:Feb 2023 を目処に、Stability AI傘下の
    DeepFloydより、Imagenに基づくオープンソー
    スモデル『IF』がリリースされる予定の模様。

    View Slide

  57. 57
    Imagen
    [Google Brain]
    ❖ 逆拡散過程において、ピクセル領域の値域を適切にクリッピング
    逆拡散過程の各時刻で出力の値域を動的に制限することで、分類器不使用型誘導におい
    て大きな係数を用いても生成画像が崩壊したり飽和したりするのを抑制。従来手法で提
    案されていた静的なクリッピングの有効性を確認した上で、動的クリッピングの方がよ
    り良い効果が得られることを示した。
    ❖ Text2Image評価用のベンチマーク DrawBench を提案
    様々な意味的側面を持つ11カテゴリから成るテキストプロンプトのリストで、計200編
    を収録。これを用いて生成された画像を人手で評価することによりモデル間の性能比較
    をおこなった。
    ❖ DALL·E系からLDMまでを大きく凌駕する生成品質を達成
    COCOやDrawBenchにおいて定性的、定量的両面から評価。また、COCOにおける人物
    を含まない生成では、写実性やテキスト整合性の観点でオリジナルのデータと遜色ない
    評価を獲得し、より自然な画像生成が可能であることを示した。
    Figure citation | Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [Saharia et al., NeurIPS 2022] [14]
    ▲ [14: Figure A.9] より引用。
    各戦略における出力。下側に行くほど分類器不使用型誘導が強い。動的クリッピングでは最も生成結果が安定。
    ◀ [14: Figure A.19] より引用。
    一般通念とは矛盾するよう作られたDrawBench中
    のプロンプトと、その生成例の比較。上段の『宇宙
    飛行士に乗った馬』のように、Imagenにおいても
    テキストへの忠実さが損なわれてしまう挑戦的な例
    がある一方、下段の『ラテアートを作るパンダ』の
    ように、従来のSOTAであったDALL·E 2では正しく
    概念を反映できていないようなプロンプトでも、
    Imagenは効果を発揮している。

    View Slide

  58. 58
    Re-Imagen
    [Google Research]
    Sep 29, 2022 | データベースからの画像検索により希少語彙の生成安定化
    Imagenは高品質であるものの、出現頻度の低い語彙に対しては依然として不適切な出力を生成する傾向にあった。
    Re-Imagenは外部知識の活用によりこの問題を緩和することで性能向上。
    ❖ 入力テキストと類似するプロンプトと画像のペアを外部データベースから参照
    逆過程計算時、検索により得られた画像群をさらなる条件付けとしてU-Netに与える。これにより、希
    少語表現のために要求されるモデル容量を解放できると主張。検索画像群はモデルへの入力と同様にU-
    Net のダウンサンプル部で潜在表現化され、U-Net の中間部にてAttentionにより情報集約される。さ
    らに、 テキストのみによる条件付けを ∅ と見做す場合と、 検索画像群のみによる条件付けを ∅ と見做
    す場合の2種類の分類器不使用型誘導を考え、それらを適切な割合で交互に適用する誘導方法を提案。
    テキストか検索画像群のどちらかの誘導が支配的になってしまうという不均衡さを解消した。
    ❖ 頻度の様々な描画対象におけるベンチマーク EntityDrawBench を提案
    動物や食べ物、場所やキャラクタなど、様々なカテゴリの対象を出現頻度が低いものから高いものまで
    バランスよく取り揃えた250編のプロンプトを構築。提案手法は低頻度語彙をより適切に扱えることか
    ら、人手による品質評価において総合的にDALL·E 2やImagen、後述のStableDiffusionを大きく凌駕。
    Figure citation | Re-Imagen: Retrieval-Augmented Text-to-Image Generator [Chen et al., ICLR 2023] [15]
    ▲ [15: Figure 2] より引用。
    Re-Imagenの概要。
    ▲ [15: Figure 1] より引用。
    Re-Imagenは参照画像の検索により、Imagenと比較して希少語彙での生成が安定している。

    View Slide

  59. 59
    ERNIE-ViLG 2.0
    [Baidu]
    Oct 27, 2022 | 中国語における大規模Text2Imageモデル
    テキストや画像の扱い、また逆拡散過程を工夫。MS-COCOでの定量評価や新たに提案したVilLG-300での定性評価において従来手法を上回った。
    Figure citation | ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [Feng et al., 2022] [16]
    言語的知識や視覚的知識を活用することにより、よりテキストに即した画像生成が可能に(最下段が両方適
    用した結果)。『ラテアートを作るパンダ』『緑色のブロックの中の赤い小球』など、従来手法でも難易度
    が高いことでベンチマークとされていた類の内容を正しく生成できている。
    ▼ [16: Figure 5] より引用。
    ▲ [16: Figure 1] より抜粋。

    View Slide

  60. ❖ 言語的知識や視覚的知識を活用し、特定要素を強調
    言語特徴においては、サンプルの50%に対して形容詞や名刺などの前に特殊トークン
    を挿入し、Attentionにおける重みを増加させることで強調。 また画像特徴において
    は、 人や建物、 テキスト中で言及された物体等の領域をより強調的に学習するため、
    データセットの50%に物体検出を適用し、そのうちから人目を引く特徴をヒューリス
    ティックに抽出。抽出領域に対する学習を促進するため、拡散モデルの学習において、
    対応するピクセル領域に関する損失関数の重みを増加させた。さらに、画像とテキス
    ト間の精緻な整合性を担保するため、物体検出した対象がテキスト中に存在しない場
    合はテキストに付け加える、画像キャプションモデルによって生成されたテキストで
    本来のプロンプトをランダムに置き換えるなどの工夫を適用。
    ❖ MoDE(Mixture of Denoising Experts)の提案
    逆拡散過程のモデル化において、ノイズ除去の初期は純粋な画像生成に、終盤は画像の精緻化に
    近い働きをしていることに着目し、その難易度や特性の違いから段階的に異なるモデルを訓練。
    ❖ LDMを採用して計算量を削減
    画像を縦横とも1/8に圧縮するオートエンコーダを事前に学習。10個の異なるU-Netを用意して
    MoDEにより学習。学習時は1000ステップのDDPM、推論時は50ステップのDDIM。
    60
    ERNIE-ViLG 2.0
    [Baidu]
    Figure citation | ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [Feng et al., 2022] [16]
    ▲ [16: Figure 2] より引用。
      ERNIE-VilG 2.0の概要。

    View Slide

  61. 61
    UPainting
    [Baidu]
    Oct 28, 2022 | ERNIE-ViLG 2.0と同じタイミングで同じ組織から発表されたText2Imageモデル
    簡素な指示による生成から複雑な画面生成までを統一的に扱う上での問題点を指摘し、それを解決する効率的な手法を考案。テキスト整合性や生成
    品質において後述するDiscoDiffusionやStableDiffusionを大きく上回る。一方、MS-COCOにおけるFID評価はMake-A-SceneやImagenなどに劣る。
    Figure citation | UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [Li et al., 2022] [17]
    ▲ [17: Figure 12] より抜粋。
    後述のDiscoDiffusionやStableDiffusionとの比較。下段の「狐のfursona(アバターの擬獣化)」な
    ど、既存手法では適切に描画できなかったプロンプトに対してもより適切な生成を実現している。
    ▲ [17: Figure 1] より引用。

    View Slide

  62. ❖ Text2Image学習に際し、事前学習済み言語モデルも同時に追加学習
    Imagenの流れを汲み、 Transformerベースの事前学習済み大規模言語モデルでテキストを
    符号化。一方、多くの既存手法ではテキストエンコーダは凍結されるのに対し、UPainting
    ではText2Imageの文脈でテキストエンコーダを同時学習することで性能向上を図っている。
    ❖ 新たなベンチマークUniBenchを構築
    シンプルなシーンと複雑なシーンを表すプロンプトをそれぞれ100編ずつ収録。全て中国
    語と英語のペアとなっている。 UniBench での生成結果を定性評価し、DiscoDiffusionや
    StableDiffusionとの比較において UPainting の優位性を確認した。
    ❖ GLIDEで提案されたCLIP誘導を改良
    分類器誘導の文脈でCLIPを用いる際、ノイズが乗った状態の画像を入力することになると
    いう弊害を指摘。単純な解決策としてノイズ付与された画像によるCLIPの再学習が考えら
    れるが、そのような解決策はコストが高いことから棄却。各ステップの出力をより最終的
    な生成予測結果に近づけるよう補正することで、この問題を緩和を試みた (DDPMの逆拡
    散過程②補足を応用)。
    最終的にCLIPだけでなく複数の画像テキストマッチングモデルを複合した分類器誘導、お
    よび分類器不使用型誘導を併用し、生成品質、芸術性、テキスト整合性を向上させた。
    62
    UPainting
    [Baidu]
    Figure citation | UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [Li et al., 2022] [17]
    ▲ [17: Figure 2] より引用。
      UPaintingの概要。

    View Slide

  63. 63
    eDiff-I
    [NVIDIA]
    Nov 02, 2022 | 効果的に複数モデルを複合することで性能向上、表現制御の高度化を実現
    MS-COCOにおける従来手法とのZero-Shot FIDの比較において、写実的生成の最先端だったImagenやPartiらを抜きSOTAを達成。
    Figure citation | eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [Balaji et al., 2022] [18]
    ▲ [18: Figure 1] より引用。
    上段はText2Imageによる生成。下段左は、参照画像のスタイルを反映することで、テキストだけでは
    指定するのが難しい質感等も表現できるとした例。また下段右は、描画対象のレイアウトを明示的に与
    えることで生成結果をより的確に制御できることを示した例。
    DALL·E 2 やStableDiffusionは文字列を含む画像の生成を苦手とするが、eDiff-Iで
    はプロンプトで指定された文字列を指示された形で適切に反映できている。
    ▼ [18: Figure 11] より抜粋。

    View Slide

  64. 64
    eDiff-I
    [NVIDIA]
    ❖ 逆拡散過程のモデル化において、Ensemble of Expert Denoisers を提案
    ノイズ除去初期は出力のノイズ比が高いためテキスト条件付けが支配的な一方、終盤はある程度出力画
    像の様相が固定されるため、テキストの影響は薄まり画像自体の精緻化が進行することを解析。これに
    基づき、ノイズ強度に応じて逆拡散過程を複数フェーズに分割。それぞれで個別モデルを学習すること
    を提案。学習時は効率化のため、初めに通常通り単一モデルで全時刻に対応するモデルを学習し、次第
    に二分木探索の要領で個別ノイズレベルに対応したエキスパートモデルに分化させていく。ただしモデ
    ル数の指数関数的な増加を防ぐため、適切な深さまで分割した二分木の最右端と最左端のみ個別化し、
    中間のノイズ強度領域は全て同一のモデルで処理することで、逆過程全体を3分割。ERNIE-ViLG 2.0の
    MoDEと酷似しているが、より注意深く設計されている印象。
    ❖ 条件付け入力を処理するために複数のエンコーダを複合的に使用
    テキストの符号化にCLIPとT5-XXLの両方を使用。またCLIPの画像側エンコーダも使用することで、任
    意で画像情報を条件付けとして利用できるように。
    ❖ レイアウトを与えることで生成を制御する paint-with-words の提案
    プロンプト中の任意の語彙を用いたセグメンテーションマップをユーザーが自由に編集し与えることで、
    Cross-Attentionを用いて追加学習なしで生成結果を誘導することが可能。
    Figure citation | eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [Balaji et al., 2022] [18]
    ▲ [18: Figure 9] より引用。
    eDiff-I では、より適切にプロンプト内の構成要素を反映したり、文字を描画可能。
    ▲ [18: Figure 6] より引用。
      paint-with-words の概要。

    View Slide

  65. 65
    SceneComposer
    [JHU, Adobe Research]
    Nov 21, 2022 | 物体形状を制御しつつ、反映精度を任意で調整可能
    大域的なテキストプロンプトのみの画像生成における限界を緩和するアプローチのひとつ。
    ❖ セグメンテーションマップと任意テキストのペアを与え、それぞれで反映の精度レベルを指定
    大雑把な位置取りをしたい対象は最も粗いレベルで、細部まで形状を細かく指定したい対象は最高レベルで生成するなど、個別に指定が可能。訓練ではLAION2B-enデータセットを用い、そのうちラン
    ダムな500万枚に疑似的な領域アノテーションを付与した。具体的には、キャプションに出現する物体に対して物体検出モデルで矩形領域を推定し、その領域とCOCOデータセット中の該当物体の類似
    度を計算。さらに、セグメンテーションを適用することで類似度が閾値を超える場合はセグメンテーション結果を、そうでない場合は矩形領域を最終的な疑似領域アノテーションとして採用した。
    Figure citation | SceneComposer: Any-Level Semantic Image Synthesis [Zeng et al., 2022] [19]
    ▲ [19: Figure 1] より抜粋。
    左から右に向かうにつれて、セグメンテーションの精度レベルを上げて生成している例。画面全てを
    塗り潰してプロンプトを与える (a) は通常のtext2imageに対応。
    [参考] SceneComposer のデモ動画
    https://zengyu.me/scenec/resources/demo_video.mp4
    ▲ [19: Figure 7] より引用。

    View Slide

  66. 66
    ❖ 指定セグメンテーションレベルを反映する工夫
    セグメンテーションの各精度レベルにおいて、デフォルトマスクと指定された対象のテキ
    スト埋め込みを平均化して利用する。左下図に示すように、任意数のセグメンテーション
    とテキストのペアに対して反映度合いを個別に指定することができ、それぞれ必要レベル
    まで高精細かされたマップが統合される。いずれの対象マップにも含まれなかったピクセ
    ルはデフォルトマスクのみとなり、ブランクを意味することとなる。各レベル帯において、
    右下図のように対応するテキストの埋め込み表現をマップに沿って敷き詰めたのち、加重
    平均化する。指定対象の領域が重複することも許容するため、境界付近や、あえて重ねて
    指定した対象はプロンプト内容を補間したような効果を獲得し表現力に寄与すると主張。
    SceneComposer
    [JHU, Adobe Research]
    Figure citation | SceneComposer: Any-Level Semantic Image Synthesis [Zeng et al., 2022] [19]
    ▲ [19: Figure 3, Figure 4] より引用。
    各セグメンテーションは、画像全域に亘るレベル0を始めとして、指
    定した精度レベルまで徐々に細かくしたマップに加工される。図では
    m1, m2, m3がそれぞれレベル2, 1, 0に対応。
    ▲ [19: Figure 2] より引用。
    ユーザーが指定したセグメンテーションマップに対して左図の変換を行ったのち、各プロンプトのテキスト埋め込みをマップに応じた箇所に並べることでテキス
    ト特徴量ピラミッドを作成。これがU-Netの条件付けとして機能し、形状指定を反映した画像生成が実現される。
    ❖ Multi-scale guided diffusionの提案
    獲得されたテキスト特徴ピラミッドは、レベル0がU-Netの全ブロックのCross-Attentionに入力さ
    れるほか、各レベル帯は対応する解像度のU-Netブッロクの条件付けに用いられる。 また学習時は
    レベル0の特徴マップに0.1のDropoutを適用し、入力 ∅ と確率的に置換する。推論時はテキスト特
    徴ピラミッドで条件付けした場合と全レベル帯のピクセルを ∅ 入力で埋めた場合を計算し、その間
    を線形補間することで分類器不使用型誘導を適用する。

    View Slide

  67. 67
    ReCo
    [Microsoft]
    Nov 23, 2022 | 矩形領域を座標指定する新たなスキームで任意の描画対象の位置を制御
    セグメンテーションマップのような詳細な条件付けが不要であるため、アプリケーションによってはユーザーフレンドリーな印象。
    ❖ 座標情報を理解するための位置トークンを導入し、事前学習済みText2Imageモデルを拡張
    テキストプロンプトの自由な表現力を犠牲にせず、描画対象の画像内位置を制御できる。
    Figure citation | ReCo: Region-Controlled Text-to-Image Generation [Yang et al., 2022] [20]
    ▲ [20: Figure 2] より引用。
    従来手法は言語的に位置情報を表現することしかできず、厳密な指示は難しい上に、それらが反
    映される理論的な保証もない。また、Layout2Image手法では描画対象全ての矩形領域が必要な
    上、特定のクラスラベルにしか対応できないという制約があった。ReCoはプロンプト中の自由な
    記述に対して、位置を指示したい対象だけを任意矩形で条件付けすることができる。
    ▲ [20: Figure 1] より引用。

    View Slide

  68. ❖ 追加モダリティを必要としない座標指定
    通常のテキストプロンプトに続く形で、座標指定トークンと矩形内の対象を記述するプロ
    ンプトを結合する形式。通常プロンプトの後ろに
    と記述することにより、 詳細な矩形選択が可能。 任意の数だけ座標指定と
    追加のプロンプトを続けることができる。
    ❖ 複数の評価指標に基づき、範囲制御性能と画像生成品質の向上を確認
    範囲指定精度については、正解領域に対する分類器の精度、DETR による物体検出結果と
    の比較にて評価。生成品質については、FIDや矩形領域に対するSceneFIDで評価。通常の
    StableDiffusion との比較において、 いずれの指標も大幅な性能向上が見られた。 また、
    PaintSkillを用いた人手の定性評価においてもReCoの有効性が示された。
    ❖ 論文では、後述するStableDiffusionを拡張
    位置トークンを除く全てのパラメータ(テキストを符号化するCLIP、およびDiffusionを行うU-
    Net等)は事前学習済み StableDiffusion の重みで初期化。学習データとして、アノテーション
    した矩形領域にGITと呼ばれる画像キャプションモデルを適用して得られたテキストを利用し、
    領域指定したテキストを含むデータセットを設計。これを用いて全体をファインチューニングす
    ることにより、元モデルの表現性能を損なわずに、範囲指定を伴う描画能力を獲得。複数の詳細
    な属性表現を含む長いプロンプトに対しても、より忠実な生成が可能に。
    68
    ReCo
    [Microsoft]
    Figure citation | ReCo: Region-Controlled Text-to-Image Generation [Yang et al., 2022] [20]
    ▲ [20: Figure 3] より引用。

    View Slide

  69. 69
    SpaText
    [Meta AI, Hebrew Univ., Reichman Univ.]
    Nov 25, 2022 | 追加セグメンテーションマップにより任意の描画対象の位置と形状を制御
    大域的なプロンプトのみの画像生成における限界を緩和するアプローチのひとつ。出力画像の解像度における詳細な形状制御が可能。
    ❖ セグメンテーションマップと追加の自由形式なプロンプト記述により画像生成の空間制御性を向上
    画像中の各物体やセグメントに対する個別の制御が可能であるという点で、ReCoと問題意識が類似している。グローバルなプ
    ロンプトに加えて任意で追加セグメンテーションとテキストペアを与えられる点においてSceneComposerと異なるが、本質的
    な課題意識と解決方法は類似している。
    Figure citation | SpaText: Spatio-Textual Representation for Controllable Image Generation [Avrahami et al., 2022] [21]
    セグメンテーションマップに対してある種の鈍感さがあり、対象を考慮した柔軟な生成が可能。
    ▼ [21: Figure 6] より引用。
    ◀ [21: Figure 7] より引用。
    隣接セグメント同士で色や質感が影響を受け
    てしまったり、極 小なマスクは無 視されてし
    まうといった、現時点での制限についても言
    及されている。
    ▲ [21: Figure 1] より引用。

    View Slide

  70. 70
    ❖ 個別の描画対象ごとにCLIP画像埋め込みを計算して利用
    訓練時は、Detectron2 と呼ばれるセグメンテーションモデルを用いて個別対象を抽出し、ランダムな非隣接セグメン
    テーション群の背景を黒塗りして CLIP の画像埋め込みを計算。推論時はユーザーが指定した個別対象のプロンプトに
    ついて CLIPテキスト埋め込みを計算後、DALL·E 2 と同様の発想で事前学習したpriorモデルを用い、CLIP テキスト埋
    め込みをCLIP画像埋め込みに変換。このようにして得られた CLIP画像埋め込みを、訓練時は抽出されたセグメンテー
    ション、推論時はユーザーが与えたセグメンテーションマップの各ピクセル領域に並べたテンソルによってモデルを条
    件付け。CLIP画像埋め込みを利用することで、COCOを用いた疑似テキストラベルで訓練データを構成していたScene-
    Composerと比べ、より柔軟で高い表現力の獲得が期待される。
    ❖ 画像領域での拡散モデル、およびLDM系のモデルの双方に適用可能
    前者の例として、DALL·E 2に基づくモデルを再現実装し事前学習。その後、デコーダの各ステップで予測されるノイズ
    除去画像に提案手法の条件付けテンソルを結合してファインチューニング。潜在空間を用いる後者の例としてはStable-
    Diffusionを採用。潜在特徴は明示的に画像として表現されていないものの、二次元構造であることから出力画像と関連
    する空間的構造を保持していると仮定し、前者と同様にファインチューニング。 セグメンテーションと各特徴量は解像
    度が異なると思われるが、その整合性の担保については明言されていない (条件付けをダウンサンプリングしていると
    推察される。 セグメンテーションへの鈍感さに関する記述で、マスクを低解像度化している旨の記述あり)。
    ❖ 複数の条件付けによる分類器不使用型誘導を提案
    本手法のように条件付け要素が複数存在するモデルのために分類器不使用型誘導を拡張。各条件付けを個別に ∅ でラン
    ダムアウトして学習し、推論時は全てで条件した場合と ∅ で通常通り外挿。
    SpaText
    [Meta AI, Hebrew Univ., Reichman Univ.]
    Figure citation | SpaText: Spatio-Textual Representation for Controllable Image Generation [Avrahami et al., 2022] [21]
    ▲ [21: Figure 11] より抜粋。
    同一のセグメンテーションマップでも、個別指定プロンプトが異なれば生成結果も変容。
    下図では有名な兎とアヒルの錯視を例にとっている。また、マップへの鈍感さにより、指
    定していない部分の形状(胴体)を自然に繋げて推論していることがわかる。
    ▲ [21: Figure 3] より引用。ただし、図を横並びから縦並びに改変。

    View Slide

  71. 71
    UniD3
    [NTU, JD Explore Academy]
    Nov 27, 2022 | 離散的拡散モデルを用い、言語と画像を同時生成
    テキストだけでなく画像もトークン化することで、 トークン辞書に対する離散的拡散モデルを適用。
    拡散モデルとして複数モダリティを同時生成する新規性を持った先駆的研究。
    ❖ 画像テキストペアの任意欠損箇所を補間する包括的な手法を提案
    テキストだけを与えればText2Image、画像だけを与えれば画像キャプショニングとなる。
    何も入力を与えないことで、互いに相補的なテキストと画像を同時生成することも可能。
    ❖ 画像はdVAE、テキストはBPEによって離散符号化
    テキストに関して、近年ではSentence Pieceによるサブトークン化ののち、CLIPやT5な
    どに代表されるTransformerベースの大規模事前学習モデルが用いられることが多い。一
    方、UniD3ではそのような複雑な処理は行わず、 BPEで分割したテキストを単に埋め込み
    表現化するだけという、DALL·E と類似したミニマムなフレームワークを採用。 先述のよ
    うな、発展的なテキスト埋め込みを用いることによる精度や表現力の向上については、今
    後の展望であるとしている。
    Figure citation | Unified Discrete Diffusion for Simultaneous Vision-Language Generation [Hu et al., ICLR 2023] [22]
    ▲ [22: Figure 5] より抜粋。
    入力画像とテキストの一部をマスクし、さらにテキストの一部を書き換えた上でUniD3により生成した結果例。マスクした画
    像とテキスト部分が同時に、内容の整合性を保って生成されていることがわかる。また、書き換えたテキスト部分も生成結
    果に反映されている(『鮮やかな赤い頭上』から『暗緑色の後頸』)。
    ▲ [22: Figure 1] より引用。

    View Slide

  72. 72
    UniD3
    [NTU, JD Explore Academy]
    ❖ 離散状態であるトークンIDを確率遷移させる拡散モデルをマルチモーダルに適用
    通常の拡散モデルと異なり、あるトークンIDが自分自身、 別種トークンのID、[MASK] トークンのIDに
    確率的に遷移する過程を考える。 [MASK] に変化したトークンはそれ以降意味のある他のトークンへ変
    化しないものとすると、任意のトークン列は最終的に全て [MASK] のみとなる。意味のあるデータが壊
    れていくこの過程を拡散過程と対応させ、[MASK] で構成されたトークン列から意味のあるトークン列
    を復元する過程を逆拡散過程と見做したものが離散的拡散モデルである。 離散的拡散モデルでは、トー
    クンの潜在ベクトルに直接ノイズを付与するのではなく、トークンそのものが置換されていく。 そのた
    め、画像も連続表現ではなく離散化されている必要がある。UniD3 ではマルチモーダルな確率遷移行列
    と対応する損失関数を提案し、その有効性を実験によって確認。
    ❖ Mutual Attentionの提案
    画像とテキストのトークンが結合された状態でもモダリティ間の相互作用を明に考慮できるよう考案さ
    れたモジュール。単なるSelf-Attentionではモーダル内の繋がりを明示的に注視できないとし、相補的
    にCross-Attentionを行うモジュールを設計し、実験的にその有効性を示した。
    Figure citation | Unified Discrete Diffusion for Simultaneous Vision-Language Generation [Hu et al., ICLR 2023] [22]
    ▲ [22: Figure 3] より引用。
    Self-Attentionを適用後、トークン列を画像由来部分とテキスト由来部分に分割し、互いにQueryまたは
    Key-Valueとして2種類のCross-Attentionを適用。出力は再び結合され、後続の層へ入力される。
    ▲ [22: Figure 2] より引用。
    トークン化した画像とテキストを結合して並べ、確率遷移行列により徐々に [MASK] トークンに起きかわる
    過程を考える。その逆過程をモデル化することでマルチモーダルな同時生成を実現。

    View Slide

  73. Feb 20, 2023 | 条件付けの自由複合による高い操作性をEnd2Endで実現
    『有限手段の無限活用』というChomskyの一節を引用しつつ、操作性の高い画像生成には条件付けだけでなくそ
    の組み合わせが重要であると提起。 既存の取り組みは限られた条件付けの範疇に留まっていることを指摘し、多
    様な条件付けを自由に組み合わせ可能なモデルを提案。さながら組合せ爆発のように多角的な制御性を獲得。
    ❖ 分解と複合の学習スキーム
    テキスト以外の条件付けを用いる際には十分量のデータセットを構築することに困難を抱えることも
    多いが、Composerでは通常のテキスト画像ペアを複数の条件付け要素に『分解』。 それらをランダ
    ムに『複合』して元画像が生成されるよう訓練することで、操作性の自由度と汎化性能を向上させた。
    73
    Composer
    [Alibaba, Ant]
    Figure citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23]
    ▲ [23: Figure 2] より抜粋。
    最左図は元画像で、続く結果はそれぞれの下部に示した様々な条件付けの組み合わせで生成さ
    れた結果群。例えば、左から2番目の結果は形状に関する条件付けのみのためカラーバリエー
    ションのような結果となっているが、左から3番目では色彩パレットを追加することでさらに色
    彩スキームを条件付け。また、左から4番目ではCLIP画像埋め込みのみを用いることで、元画
    像と類似した意味的構成や雰囲気を保ちつつ、異なる画像を生成することができている。
    ◀ [23: Figure 1] より引用。  
    ❖ 8種の条件付けへの分解
    テキスト :ペアテキストを利用。画像キャプションモデルも利用可。
    意味要素とスタイル :CLIPによる画像埋め込みを利用。
    色彩パレット :CIELab色空間を色相、彩度、明度で量子化、平滑化。
    スケッチ :エッジ検出モデルとスケッチ単純化アルゴリズムを適用。
    セグメンテーション :YOLOv5によるインスタンスセグメンテーションを利用。
    深度マップ :MiDaSを用いて推定。
    強度 :何種かのRGB係数からランダムにグレースケール画像化。
    マスク処理 :二値マスクで操作可能領域を制限。RGBチャネルに結合。

    View Slide

  74. ❖ アーキテクチャと条件付けの複合
    基本的なアーキテクチャはGLIDEに倣いつつ、一部にunCLIPから流用された工夫を含む。
    具体的には、64x64画像を生成するベースモデル、 および256x256と1024x1024画像へ
    それぞれアップサンプリングする非条件付け超解像拡散モデルから構成。 超解像モデルは
    低解像度部のパラメータ数増加やSelf-Attention追加の工夫を含む。また、CLIPテキスト
    埋め込みからCLIP画像埋め込みを予測するunCLIPの事前分布モデルも選択的に導入。
    条件付けに関しては、分解した要素を大域的な条件付けと局所的な条件付けに分けて利用。
    大域的な条件付けでは、CLIP文章埋め込み、画像埋め込み、および色彩情報を線形射影し
    時刻埋め込みに加算。 また、画像埋め込みと色彩情報はさらに8つの追加トークンに射影
    され、CLIPテキスト埋め込みに連結してGLIDEのCross-Attentionに用いられる。スケッ
    チ、セグメンテーションマスク、深度マップ、強度情報、およびマスクといった空間構造
    を持つ条件付けは、それぞれ同じ潜在次元数に射影されたのちに加算され、拡散モデルの
    U-Netが処理する画像に結合して用いられる。
    これらは加算または結合に基づく条件付けであるため、自由に採用したり欠落させたりし
    て複合できる。訓練時は各条件付けが採用される確率を 0.5、全て利用される、あるいは
    全て利用されない確率をさらにそれぞれ 0.1 に設定。ただし、強度情報に関しては保持し
    ている情報量が大きすぎるため、0.7 の確率で欠落させ、依存度を低めるよう調整した。
    74
    Composer
    [Alibaba, Ant]
    Figure & Table citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23]
    ▲ [23: Table 1] より引用。
    パラメータサイズは合計約4.4B。3.5BのDALL·E 2や、1Bに満たない程度の
    StableDiffusionよりも大規模。推論時は後述のDPM-Solver++を利用。
    ▲ [23: Figure 7, Figure 8] より引用。
    条件付けの概要。

    View Slide

  75. ❖ 多種多様な画像操作
    ある元画像が存在するとき、元画像から抽出した条件付けの組み合わせ方次第で、高い柔
    軟性を発揮しつつ自在に変種を生成可能。また、画像間の滑らかな内挿も可能となる。こ
    こで興味深いのは、 unCLIP のように画像埋め込みを単に線形補間するのみに留まらず、
    任意の条件付けを固定することである特徴群だけを補間する使い方もできる点である。
    さらに、DDIM Inversionを用いた画像の『再構成』も可能。抽出したオリジナルの条件付
    けを与えつつ元画像を潜在空間に埋め込み、改変したい条件付けのみ変更した状態で再び
    画像領域までサンプリングすることで、変更点以外は元画像と類似した変種を生成できる。
    また、操作領域を明示的に指定するマスクを与えて特定部分のみに適用することも可能。
    75
    Composer
    [Alibaba, Ant]
    Figure citation | Composer: Creative and Controllable Image Synthesis with Composable Conditions [Huang et al., 2023] [23]
    ❖ 古典的な画像生成タスクの再定式化
    Composerを用いることで、従来は個別に取り組まれていたタスクを統一的に扱えるようになる。
    例えば、パレットに基づく着色、スタイル転移、画像翻訳、ポーズ転移、仮想試着など。
    ❖ 任意の複合条件における画像生成
    従来タスクの一般化に留まらず、異種の条件付けを任意に組み合わせることで幅広い画像生成を実
    現可能な点がComposerの真価といえる。また、特定の設定としてText2Imageを挙げると、COCO
    におけるFID値やCLIPスコアにおいて ImagenのようなSOTA手法に準ずる性能も報告された。一方、
    そうした単一条件による生成や、内容が矛盾する複数条件が与えられた際の生成では、非明示的に
    一部の条件が弱化することも観測され、今後の課題であるとした。
    ▲ [23: Figure 2] より抜粋。
    画像補間の例。最上段では、左と右の画像を完全に補間。中段以下では、最左列に示した条件付けが変化
    しないように補間している。例えば2段目では色彩が、3段目では形状が固定されたまま、その他の特徴を
    滑らかに補間した結果が得られている。
    ▲ [23: Figure 4] より抜粋。
    最左の元画像に対して操作可能な領域を限定するマスクを与え、テキストプロンプトで変種を生成した例。いずれも、マスク外の背景、および兎
    の耳や前足は固定されたまま、マスク領域内のみ条件付けに沿った生成結果を出力できている。
    ▲ [23: Figure 6] より抜粋。
    文字列のような既存手法の苦手とした対象も、形状指定可能な条件付けを適切に用いることで鮮明に描画できている。

    View Slide

  76. 76
    02-3 大衆化の動き

    View Slide

  77. 77
    DiscoDiffusion
    OSSとしての高品質Text2Imageの先駆け
    個人開発のJupyter Notebookが発展し、AI生成画像が一般層に認知される一翼を担った。
    ❖ Google Colaboratoryの使用等、ある程度知識のある人向け
    例えばColabでは、画像が生成されるまでに数分単位で待つ必要がある模様。有志による解説記事や動画もちらほら。
    ❖ コントリビュータの中には、後述のMidJourney社に勤める人も
    Jul 13, 2022 を最後に長らく更新が止まっていたが、 Dec 31, 2022 にMiDaSを用いた深度情報対応が行われた。
    余談:「OSS=オープンソースソフトウェア」の意味。誰でも自由にプログラムを閲覧でき、
    定められたライセンスのもとで使用や改変、再配布などが認められる。

    View Slide

  78. 78
    MidJourney
    Jul 12, 2022 | Text2Imageを一般層に浸透させるインフレーションが起こる
    誰もが手軽に、自由に、少ない待ち時間で画像生成を試行錯誤できる初の大型プラットフォームがオープンβを開始。
    ❖ 専用のDiscordサーバーでプロンプトを打つと幾つかの画像を返してくれる
    さらに選択して高解像度化、類似画像を新規生成が可能。フリーミアム型のビジネスモデルであり、
    本格的に使用する場合はサブスクリプションプランに加入するサービス形態。
    ❖ 画像ガチャの勝者がTwitterでバズる世界線の到来と、呪言研究土壌の拡大
    生成画像にはランダム性があり、琴線に触れる結果が得られる可能性は必ずしも高くはない。そのた
    め、どのような入力がどう結果に影響するのか、いわゆる「呪文・呪言」の構築が一気に発展した。
    ❖ 写実系・西洋絵画風の生成が特に得意
    独特の雰囲気と品質の高さが人気を博している。熟練者は「独自の画風」を洗練させる領域に至って
    いるとの評価も。
    MidJourney黎明期の作例紹介
    三崎律日@『奇書の世界史2』発売中!
      @i_kaseki
    8:22 AM · Aug 7, 2022
    https://twitter.com/i_kaseki/status/1556058116902359040
    ネコノクロミン
      @dementiumxx
    5:26 PM · Aug 3, 2022
    https://twitter.com/dementiumxx/status/1554745427005583360
    たまご
      @tamago_gamer
    8:46 PM · Aug 2, 2022
    https://twitter.com/tamago_gamer/status/1554433455924330496

    View Slide

  79. 79
    StableDiffusion
    [CompVis, Stability AI, Runway]
    Aug 23, 2022 | ここからビッグバンが始まる
    MidJourneyがバズったと思った矢先現れた刺客。登場時、競合と比べて特にイラスト系の生成品質に秀でており、話題に。
    ❖ CLIPで条件付けしたLDMがコア
    LDMによる高速、省メモリ、高品質な画像生成と、CLIPによる高い表現力の融合を実現。オートエンコーダにはVQGAN型では
    なくVAE型を使用している。
    ❖ データセットにも工夫
    LAIONが公開するデータセット群を用いて学習。特にv1.2以降では、LAION-Aestheticsと呼ばれるLAION-5Bのサブセットを
    用いており、これは人手の「美しさ」評価と CLIP に基づく審美性予測器でフィルタリングしたもの。ただし、後述のようにこ
    の大規模データセットの利用が問題視されつつあることも念頭に置く必要がある。
    ❖ OSS化により急速に大衆化
    Stability AIが運営するDreamStudioと呼ばれるWEBサービス上で利用可能なだけでなく、OSSとしてより誰もがより自由に利
    用可能に。コードのみならず学習済みモデルもHuggingFace上で公開され、派生サービス、機能拡張が乱立する世界へ。

    View Slide

  80. 基本的なLDMのモデル構造を踏襲
    オリジナルのCompVis/stable-diffusionとCompVis/latent-diffusionのコードは大部分が共通している。
    Pre Conv
    80
    StableDiffusion
    [CompVis, Stability AI, Runway]
    (Down) w/ Attn
    1 / 8
    Down w/ Attn
    1 / 16
    Down w/ Attn
    1 / 32
    (Up) w/ Attn
    1 / 8
    Up w/ Attn
    1 / 16
    Up w/ Attn
    1 / 32
    U-Net for Latent Diffusion
    Post Conv
    Reverse Diffusion Process
    Forward Diffusion Process
    推 論 時はサンプリング方 法によっ
    て挙動が異なりうることに留意。
    Spatial Transformer
    Res Block
    Spatial Transformer
    Res Block
    Spatial Transformer
    Res Block
    Spatial Transformer
    Res Block
    Spatial Transformer
    Res Block
    (Upsampling)
    Downsample
    Res Block
    Res Block
    Res Block
    Res Block
    Upsampling
    Spatial Transformer
    Res Block
    Res Block
    Down
    1 / 64
    Up
    1 / 64
    Middle w/ Attn
    1 / 64
    Down w/ Attn
    Down Middle w/ Attn
    Up
    Up w/ Attn
    (Downsample)
    Res Block

    View Slide

  81. 基本的なLDMのモデル構造を踏襲
    Res BlockはADMのようにBigGAN的構造ではなく、またアップ/ダウンサンプリングでもRes Blockを用いないなど、DDPMと類似の構造を採用。
    軽量な動作のためと推察される。一方、Attention部はLDMのようにSpatial Transformerを採用しており、DDPMやADMよりも高価な計算を行う
    ことで よりよく文脈を反映する狙いがあると見られる。Diffusionの時刻情報はRes Blockへ、CLIPによるプロンプト情報は Cross-Attentionの役
    割を持つSpatial Transformerへ与えられる仕組み。v1系とv2系で構造に若干の差異が確認されるが、以下はv2系に基づく。
    81
    Attention
    Key Projection
    Query Projection
    SoftMax
    Linear
    Value Projection
    StableDiffusion
    [CompVis, Stability AI, Runway]
    Group Norm
    Linear
    Transformer Block
    Linear
    Spatial Transformer
    Layer Norm
    Layer Norm
    Self-Attention
    Layer Norm
    Linear
    Cross-Attention
    Frozen CLIP
    Text Embedder
    “An abandoned
    aubade, or what
    is one remove
    from a curse. “
    Transformer Block
    Dropout
    Res Block
    Group Norm
    SiLU
    Conv2d
    Group Norm
    SiLU
    Dropout
    Conv2d
    Time Embedding
    SiLU
    Linear
    Pointwise Conv

    View Slide

  82. 操作性が高く極めて多機能な拡張UI
    最も有名なStableDiffusionの派生リポジトリのひとつ。関連解説も豊富で、他の様々な派生モデルも取り込める。
    分類器不使用型誘導の無条件生成部分をネガティブプロンプトで置換する手法を初めて導入。 好ましくない生成
    内容を明示的に遠ざけることで表現に追加の自由度を与える仕組みで、 後続のサービスにも流用されている。ネ
    ガティブプロンプトを与えない場合は通常の分類器不使用型誘導と同様に機能する。
    ❖ 機能拡張が止まらない
    Outpainting
    Inpainting
    Prompt matrix
    Color Sketch
    Interrupt
    Stable Diffusion upscale
    ESRGAN
    Attention/emphasis
    Loopback
    X/Y/Z plot
    Resizing
    img2img alternative test
    Sampling method selection
    Seed resize
    Variations
    Styles
    4GB videocard support
    Negative prompt
    CLIP interrogator
    Highres. fix
    Face restoration
    Png info
    Textual Inversion
    InstructPix2Pix
    Lora
    Hypernetworks
    Alt-Diffusion
    Stable Diffusion 2.0
    Depth Guided Model
    Infinite prompt length
    Prompt editing
    Composable Diffusion
    Checkpoint Merger
    Tweaks for the leaked NovelAI model

    82
    Stable Diffusion web UI
    U-Net U-Net
    Prompt ∅
    Linear Interpolation
    Shareed
    Classifier-Free Guidance
    U-Net U-Net
    Prompt Negative Prompt
    Linear Interpolation
    Shareed
    Classifier-Free Guidance w/ Negative Prompt
    Stable Diffusion web UI
    AUTOMATIC1111
    https://github.com/AUTOMATIC1111/stable-diffusion-webui

    View Slide

  83. 操作性が高く極めて多機能な拡張UI
    最も有名なStableDiffusionの派生リポジトリのひとつ。関連解説も豊富で、他の様々な派生モデルも取り込める。
    分類器不使用型誘導の無条件生成部分をネガティブプロンプトで置換する手法を初めて導入。 好ましくない生成
    内容を明示的に遠ざけることで表現に追加の自由度を与える仕組みで、 後続のサービスにも流用されている。ネ
    ガティブプロンプトを与えない場合は通常の分類器不使用型誘導と同様に機能する。
    ❖ 余談:ネガティブプロンプト
    ネガティブプロンプトはプロンプトを打ち消すものではなく、ネガティブプロンプトを入力したU-Net
    の出力から、プロンプトを入力したU-Netの出力方向に矢印を伸ばすための始点を定めるイメージ。し
    たがって、プロンプトとネガティブプロンプトを同一にしても内容が相殺されることはなく、プロンプ
    トによる推論点からプロンプトによる推論点に向かう(=同じ点にただ貼り付く)だけである。つまり、
    単にネガティブプロンプトを与えずCFGスケールを1にした場合と同様の結果となる (論文的な記述で
    は分類器不使用型誘導の重み     と同等)。
    逆拡散過程の各ステップでは引くべきノイズの推論が先行するため、以上の性質はサンプラがDDIMの
    ように決定論的であるか、DDPMのように確率的であるかに依らない。
    83
    1.0
    Prompt
    Negative Prompt
    Stable Diffusion web UI
    低品質な生成結果を埋め込み特徴化した手法例
    bad_prompt
    Nerfgun3
    https://huggingface.co/datasets/Nerfgun3/bad_prompt
    EasyNegative
    gsdf
    https://huggingface.co/datasets/gsdf/EasyNegative
    Deep Negative V1.x
    FapMagi
    https://civitai.com/models/4629/deep-negative-v1x
    後述するTextual Inversion系の埋め込み手法により、敢えて質の悪い生成画像(崩
    壊した手先や四肢等の人体構造、歪んだり融合した物体)を埋め込んだ手法群。こ
    れらをネガティブプロンプトに用いることで、生成品質の劣化や視覚的に不快な生
    成結果を回避できる確率が高まることが確認されている。

    View Slide

  84. Stable Diffusion web UI と双璧を成すモダンなGUI
    4GB RAMという比較的小規模なGPUでも動作可能なStableDiffusionの派生リポジトリ。 洗練されたWebUIと使い勝手の
    良いCLI の双方を提供。初期に有志により作られたStableDiffusion-Infinityのような枠外無制限生成機能も追加されるな
    ど、精力的に追加機能の開発も行われている。
    ❖ 着実な機能開発
    StableDiffusion web UI 周辺環境のように即時的かつ暴力的な更新速度ではないが、継続的なメンテナンスと
    機能拡張が続けられている。例えば Feb 09, 2023 のアップデートでは以下の機能が追加された。
    HuggingFaceが提供する拡散モデル用ライブラリDiffusersへの移行
    高メモリ効率なAttention演算を提供するXFormersへの対応
    WebUI におけるネガティブプロンプトBOX
    モデルマージ
    Textual Inversion の訓練
    インストーラの体験向上
    84
    InvokeAI
    InvokeAI: A Stable Diffusion Toolkit
    invoke-ai
    https://github.com/invoke-ai/InvokeAI

    View Slide

  85. 85
    StableDiffusionから派生した画像生成サービス
    OSSであるStableDiffusionを利用することで様々なサービスが迅速に展開可能に
    機械学習プロダクトにおいてコアとなるモデル開発を短縮し、UI / UXにリソースを割くことのできる流れには大きな意義がある。
    ❖ AIピカソ
    株式会社AIdeaLabと株式会社みらいスタジオによる iOS/Android アプリ。入力テキスト
    や簡単な下書き、アップロードした画像からイラスト生成する。日本語対応。
    ❖ Memeplex
    AI画像投稿プラットフォーム。使用モデルやタグを手軽に選択して画像生成し、投稿可能。
    ギャラリーからプロンプトとシード値と共に他ユーザーの投稿を閲覧できる。日本語対応。
    ❖ お絵描きばりぐっどくん
    LINEで展開される画像生成サービスで、StableDiffusion を利用。 日本語や英語で話しか
    けることで生成された画像が返ってくる。有料版では回数制限が撤廃される。

    ❖ TrinArt
    日本語小説執筆支援サービスであるAIのべりすとが展開する画像生成サービス。Stable-
    Diffusionをアニメや漫画系のデータセットで追加学習した複数のモデルを含め、運用から
    降板したモデルがHuggingFace上で公開されており、Memeplex等でも利用されている。
    ❖ Lexica
    写実的な生成が得意なLexica Apertureと呼ばれるモデルによる画像生成機能と、プロンプト
    や設定とともに生成画像を閲覧できるギャラリーを備える。シンプルで洗練された UI。
    ❖ Holara
    StableDiffusion v1.5に基づくAkashaというモデルで運用される画像生成サービス。 手の描
    画品質が改善したとの声も。

    View Slide

  86. StableDiffusionに基づき、さらにイラスト調に特化したOSS
    自費で大規模なファインチューニングを続ける「単なる趣味」の持ち主の個人開発から始まった。
    ❖ 学習にDanbooruを使用
    大量のイラストが無断転載されている海外のイラストプラットフォーム。WaifuDiffusionは
    これを大掛かりに学習に用いた最初期のモデルとして登場した。資金援助も受けつつ、アッ
    プデートごとにデータセットの規模を拡大している。
    ❖ StableDiffusion界隈をさらに盛り上げる一因に
    v1.3まではモデル構造に変更がないため、StableDiffusion v1系と同じ使い勝手で簡単に利
    用可能。v1.4以降にアーキテクチャ改善を含む。
    86
    WaifuDiffusion
    余談:「Waifu=俺の嫁」という海外のミーム。
    WaifuDiffusion黎明期の作例紹介
    KOMI_NATION
      @komi_nication
    11:19 PM · Oct 12, 2022
    https://twitter.com/komi_nication/status/1580201428874055680
    Coco 🥜
      @setawar
    6:40 AM · Sep 27, 2022
    https://twitter.com/setawar/status/1574514299870928896
    トザン
      @miyakozan
    8:43 AM · Sep 27, 2022
    https://twitter.com/miyakozan/status/1574545249464356866
    Muacca
      @Muacca
    7:24 AM · Sep 27, 2022
    https://twitter.com/Muacca/status/1574525219418562570
    平面的で輪郭線を強調したタッチのみならず、立体感を残した
    テイストなど様々な画風を取り込んでいる。例えば「ヴィクト
    リア朝時代の雰囲気で現代的な造形のモチーフを描画」するな
    ど、生成対象の幅がさらに広がった。

    View Slide

  87. 87
    WaifuDiffusion
    StableDiffusionに基づき、さらにイラスト調に特化したOSS
    自費で大規模なファインチューニングを続ける「単なる趣味」の持ち主の個人開発から始まった。
    WaifuDiffusion黎明期の作例紹介
    ChromedSets (Stable Diffusion + Waifu Model)
      @ChromedSets
    4:15 AM · Nov 5, 2022
    https://twitter.com/ChromedSets/status/1588610938365624320
    ChromedSets (Stable Diffusion + Waifu Model)
      @ChromedSets
    5:28 AM · Nov 8, 2022
    https://twitter.com/ChromedSets/status/1589716478001307648
    ChromedSets (Stable Diffusion + Waifu Model)
      @ChromedSets
    5:28 AM · Nov 8, 2022
    https://twitter.com/ChromedSets/status/1589716467461001216
    西洋絵画と海外イラストのテイストを混合したような生成も。
    右の作 例はwd-v1-2-full-ema.ckptをベースとしつつ、複 数
    モデルとの混合や改変を経て生成された作品であるとのこと。
    右例はSFWの範疇であるが、使い方によってはNSFW用途にも
    容易に転用できてしまうことが窺い知れる。

    View Slide

  88. 88
    02-4 ゲームチェンジャーの出現

    View Slide

  89. Oct 03, 2022 | イラスト調生成における金字塔がリリース
    小説執筆支援の課金制会員サービスを展開していたNovelAIがイラスト生成に対応。
    ❖ 大規模なデータでファインチューニング
    豊富なタグ付けがなされたDanbooruを含む約530万枚で追加学習。
    ❖ 一足飛びのクオリティから一躍話題に
    正式リリースから僅か10日で3000万枚以上が生成される。公式への問い合わせによると、
    Nov 14, 2022 時点で既に1.21億枚以上が生成されていたとのこと。
    89
    NovelAI Diffusion
    [Anlatan]
    NovelAI
      @novelaiofficial
    10:20 AM · Sep 25, 2022
    https://twitter.com/novelaiofficial/status/1573844864390791169
    NovelAI
      @novelaiofficial
    3:21 AM · Nov 16, 2022
    https://twitter.com/novelaiofficial/status/1592583539882885120

    View Slide

  90. 90
    NovelAI Diffusion
    [Anlatan]
    ❖ 一足飛びのクオリティから一躍話題に
    それまでのモデルと比べ、イラスト調の明瞭な輪郭、色彩、全身が破綻しない整ったデッサンや構図に関する品質を格段に向上させた。
    複数人が絡む構図も安定しており、破綻や融合が少ない。
    NovelAI Diffusion黎明期から確立期の作例紹介
    852話
      @8co28
    8:00 AM · Oct 7, 2022
    https://twitter.com/8co28/status/1578158301539278852
    852話
      @8co28
    2:22 PM · Oct 28, 2022
    https://twitter.com/8co28/status/1585864621742690304
    852話
      @8co28
    11:01 AM · Nov 1, 2022
    https://twitter.com/8co28/status/1587263482281349120
    852話
      @8co28
    3:53 PM · Nov 2, 2022
    https://twitter.com/8co28/status/1587699497638903808
    最も出力される傾向の高い質感とアートスタイルの例。
    NovelAI制の絵はデフォルトではこのような画風が支配的。

    View Slide

  91. 91
    NovelAI Diffusion
    [Anlatan]
    ❖ 一足飛びのクオリティから一躍話題に
    それまでのモデルと比べ、イラスト調の明瞭な輪郭、色彩、全身が破綻しない整ったデッサンや構図に関する品質を格段に向上させた。
    複数人が絡む構図も安定しており、破綻や融合が少ない。
    NovelAI Diffusion黎明期から確立期の作例紹介
    Ai love Higokko
      @AiloveHigokko
    8:01 PM · Nov 11, 2022
    https://twitter.com/AiloveHigokko/status/1591023238993543168
    Ai love Higokko
      @AiloveHigokko
    7:05 PM · Nov 13, 2022
    https://twitter.com/AiloveHigokko/status/1591733861394055169
    Ai love Higokko
      @AiloveHigokko
    10:04 PM · Nov 11, 2022
    https://twitter.com/AiloveHigokko/status/1591054200838164481
    WaifuDiffusionと同様に、比較的海外作品に見られるような肉
    感のあるテイストも表現できる。また、複数の描画対象が密に
    接触しているような難しい構図でも違和感のない生成が可能。

    View Slide

  92. 92
    NovelAI Diffusion
    [Anlatan]
    ❖ プロンプト次第で様々な形式の生成も可能
    デフォルメキャラ生成、ピクセルアート風生成、ラフ画調の生成、三面図やそれ以上の複数角度からの投影図調の生成など、多様な表現が学習されている。
    NovelAI Diffusionを用いたデフォルメキャラ生成の作例紹介
    852話
      @8co28
    1:15 PM · Oct 21, 2022
    https://twitter.com/8co28/status/1583310860394577921
    NovelAI Diffusionを用いたピクセルアート風生成の作例紹介
    鳩。
      @hato_po__ppo
    9:23 PM · Oct 23, 2022
    https://twitter.com/hato_po__ppo/status/1584158686095626240
    ドット絵としての正 則 化が内 在するわけではなく、あくまで
    データセット内のピクセルアートに近いイメージを出力するた
    め、ドットグリッドの粗さは厳密にはまちまちである。また、
    少女系イラストでは頬を赤らめた斜線表現のみピクセル化され
    ないことも多く、それがある種のテイストにもなっている。
    NovelAI Diffusionを用いた三面図生成の作例紹介
    852話
      @8co28
    3:04 PM · Oct 4, 2022
    https://twitter.com/8co28/status/1577177697431666689
    3DモデルやLive2Dモデル制作のための三面図がデータセット
    内に含まれており、その特徴を学習したのだと思われる。この
    ように同一出力内で複数の描画対象が整然と並ぶような生成が
    得られることもあるが、あくまで立体的整合性の理論的な保証
    があるわけではないことには留意。

    View Slide

  93. 93
    NovelAI Diffusion
    [Anlatan]
    Img2Imgでの生成も異なる着想の源として利用されている
    プロンプトと画像を与えて新たな画像を生成する仕組み。元画像の反映度合いはパラメータで調整。
    ❖ シンプルゆえに応用が効く
    最も基本的な用途としては、イメージに近い写真や3DモデルをもとにImg2Imgを適用することが挙げられる。また、生成画像に
    加筆や加工をした上でImg2Imgを適用したり、生成画像に繰り返しImg2Imgを適用することで、 望ましい表現へ洗練していく使
    い方も広く行われている。
    3DモデルをもとにImg2Imgを適用した作例紹介
    鶴賀🔞
      @tsuruga_0010
    6:42 PM · Oct 9, 2022
    https://twitter.com/tsuruga_0010/status/1579044677856071686
    生成画像の加工とImg2Imgの適用によりキャラ絵の構図差分を作る作例紹介
    大曽根宏幸@AI BunCho運営中
      @OsoneHiroyuki
    11:12 PM · Oct 20, 2022
    https://twitter.com/OsoneHiroyuki/status/1583098793905750017

    View Slide

  94. Img2Imgでの生成も異なる着想の源として利用されている
    プロンプトと画像を与えて新たな画像を生成する仕組み。元画像の反映度合いはパラメータで調整。
    ❖ シンプルゆえに応用が効く
    他に、動画の各フレームをImg2Img変換することによりアニメ風動画にする応用も挙げられる。 発展的ではあるが、その視覚的
    なアピール性や話題性により、多大な関心を集めた。以降、StableDiffusion系モデルの発展や既存の動画制作技術との融合によ
    り、NovelAI Diffusionに限らない様々な作品やプロトタイプへと続く。特に以下の投稿は、その扉を開いた先駆的な例といえる。
    94
    NovelAI Diffusion
    [Anlatan]
    動画の各フレームを変換しアニメ風動画にする揺籃期の作例紹介
    852話
      @8co28
    9:22 AM · Nov 1, 2022
    https://twitter.com/8co28/status/1587238661090791424
    エクスヴェリア【nZk】【emU】
      @nZk1015
    3:01 AM · Nov 7, 2022
    https://twitter.com/nZk1015/status/1589317103383113729
    投稿文中の「UC 3d」とは、ネガティブプロンプトに「3d」を
    指定すること意味しており、852話氏が「NovelAIっぽい絵」
    を「平面的なイラストっぽい絵」で出力する方法として先んじ
    て投稿していたもの。
    フレーム補間や高解像度化を施すことで、より精細で滑らかな
    動きに近づいた。ただし、Img2Imgはあくまで前後フレームの
    文脈を考慮しないため、動画として視聴すると服の皺や影、色
    彩などが不連続に『ちらついて』見える。一方で、それがある
    種の視覚的魅力を演出している。

    View Slide

  95. 独自のアートスタイルを模索する動きも
    融合された概念は時に固定観念的な思考の檻から優雅に羽撃き、見る者に新鮮な驚きをもたらす。
    95
    NovelAI Diffusion
    [Anlatan]
    NovelAI Diffusion揺籃期から発展期の作例紹介
    未定
      @msts_stu
    8:10 PM · Oct 11, 2022
    https://twitter.com/msts_stu/status/1579791527140003845
    未定
      @msts_stu
    9:06 PM · Oct 18, 2022
    https://twitter.com/msts_stu/status/1582342453960802305
    未定
      @msts_stu
    11:01 AM · Nov 1, 2022
    https://twitter.com/msts_stu/status/1586366911780356097
    一見混じり合わない異なる概念同士、あるいはグリッチのよう
    な視覚効果を巧みに融合させることで、単に綺麗なだけの画面
    に留まらない独特な視覚表現を生み出すことに成功している。

    View Slide

  96. 独自のアートスタイルを模索する動きも
    パステルチックな色彩を伴う視覚表現の中に、胸がきゅっと引き絞られるような一抹の寂寞が忍び込む。
    96
    NovelAI Diffusion
    [Anlatan]
    NovelAI Diffusion揺籃期から発展期の作例紹介
    852話
      @8co28
    9:53 PM · Nov 4, 2022
    https://twitter.com/8co28/status/1588514857665843200
    852話
      @8co28
    1:02 PM · Nov 7, 2022
    https://twitter.com/8co28/status/1589468299884396544
    852話
      @8co28
    1:03 PM · Nov 7, 2022
    https://twitter.com/8co28/status/1589468537210695680
    852話氏は後に、StableDiffusion系独自モデルの学習を経て
    さらに生成画像における固有の美麗な画風を確立していくが、
    NovelAI Diffusionを用いて精力的に作品を発表していたこの
    時期の作例にもすでにその特徴の片鱗が窺える。

    View Slide

  97. 97
    NovelAI Diffusion
    [Anlatan]
    Human or AI という真贋判定ゲームも話題に
    技術の発展により将来的により判別が困難になることも予想されるが、当該クイズの公開時点では程よくゲーム性があった。
    ❖ 見分けるポイント例
    細部の造形崩壊や融合等の違和感(手先、指先、髪、意図不明な線や塗りなどのゴミ)
    非実在文字
    特徴的な肌の質感や瞳のハイライト
    ライティングや背景の不整合
    光源、構造物のパース崩れ、前景と親和性の高すぎる風景、自然物、腕や髪でできる閉領域の背景
    Human or AI
    https://docs.google.com/forms/d/e/1FAIpQLSdhEpBRnOwiFI-ieNKKu3Y0KcoFbd_ZWod1LeyoV6EEfY78HA/viewform
    Human Or AI 2
    https://docs.google.com/forms/d/e/1FAIpQLSenOv7USGsYGqsx8dGaSCCkGlhTY43Puxi9D20a2Q0U3kyZ4g/viewform

    View Slide

  98. 98
    NovelAI Diffusion
    [Anlatan]
    Oct 06, 2022 | モデルデータが流出し、以降コピーサイトや派生モデル等が出回り始めた
    ❖ Stable Diffusion web UI の開発者であるAUTOMATIC1111氏らもリーク内容を逆輸入
    StableDiffusionのDiscordサーバーでロール剥奪、BANされる事態にも発展。
    StabilityAI CEOのEmad Mostaque氏によるDiscord上での表明と呼びかけを紹介するツイート
    やまかず
      @Yamkaz
    6:45 PM · Oct 9, 2022
    https://twitter.com/Yamkaz/status/1579045253373259777

    View Slide

  99. 99
    NovelAI Diffusion
    [Anlatan]
    Oct 08, 2022 | 公式がリークは事実であることを認める
    Oct 11, 2022 | 技術解説記事を投稿
    ❖ StableDiffusionに基づくアーキテクチャ改善
    CLIP特徴量は最終層の1つ手前が総合的に適しているとの実験結果や、
    Hypernetworks の追加、入力テキストトークンの系列長拡大などの
    工夫が明らかになり、後続手法にも影響を与えた。
    q k v
    学習済みU-Net内の
    Cross-Attention
    ベースとなる学習済みモデルの重み全てを破壊的に変更するのではな
    く、一部の潜在表現を追加データセットに適合するよう変化させるモ
    ジュールを学習。生成速度を維持しつつ、純粋な追加学習よりも良い
    パフォーマンスを実現。
    Hypernetworks in NovelAI Diffusion model
    hypernetworks
    最大75トークンだった入力を225トークンへ拡張。75トークンごとの
    チャンクに分割してそれぞれCLIPに入力し、出力を結合して用いる。
    より複雑なプロンプトの内容を反映できるように。
    Extending the Stable Diffusion Token Limit by 3x
    CLIP
    75 tokens 75 tokens
    75 tokens
    NovelAI Improvements on Stable Diffusion
    NovelAI
    Oct 11, 2022
    https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac

    View Slide

  100. Oct 08, 2022 | 公式がリークは事実であることを認める
    Oct 11, 2022 | 技術解説記事を投稿
    ❖ 画像の不自然なクロップが発生しにくいよう前処理を再考
    正方形のアスペクト比に合わせるために自動で中央をクロップすると、頭や手足が見切れたり、大事な装飾や対象物が消え、
    テキストとの不整合が生じたりする。これをランダムクロップにすると問題は僅かに改善されたが、理想的には可変解像度
    で学習できるべきであるとの考察から、最終的に、次節に示すアスペクト比に応じたカスタムバッチ作成の工夫を提案。
    ❖ 様々な画像アスペクト比を考慮したバッチ化処理
    一般に画像処理では解像度や比率を固定で扱うが、実際の多くのイラストや画像は異なる解像度や比率を持つため。この部
    分の処理に関しては後にOSS化された。
    100
    NovelAI Diffusion
    [Anlatan]
    NovelAI Aspect Ratio Bucketing
    NovelAI
    https://github.com/NovelAI/novelai-aspect-ratio-bucketing
    NovelAI Improvements on Stable Diffusion
    NovelAI
    Oct 11, 2022
    https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac

    View Slide

  101. 中国語圏コミュニティがまとめあげた呪言の極意
    Chinese Novel AI Tieba Communityにより制作された魔導書風なプロンプト解説書。資料内の記法から、Stable Diffusion web UIに逆輸
    入されたリークモデルでのプロンプトと推察されている。本資料執筆時点までに、第一卷、第一点五卷、第贰卷、第二点五卷と展開された。
    また、有志による日本語訳も為されている。
    元素法典
    元素法典の日本語訳記事
    101
    元素法典
    【日本語訳】元素法典 第1巻 #NovelAI #元素法典
    さいP
    Oct 17, 2022
    https://note.com/sa1p/n/ne71c846326ac
    元素法典 The Code of Quintessence(第壹卷)
    元素法典制作委员会 https://docs.qq.com/doc/DWHl3am5Zb05QbGVs
    【日本語訳】元素法典 第1.5巻 #NovelAI #元素法典
    さいP
    Oct 30, 2022
    https://note.com/sa1p/n/nefaa583a1cfc
    【日本語訳】元素法典 第2巻 #NovelAI #元素法典 [WIP]
    さいP
    Nov 1, 2022
    https://note.com/sa1p/n/n3271dc95adbf
    元素法典 The Code of Quintessence(第壹點伍卷)
    元素法典制作委员会 https://docs.qq.com/doc/DWGh4QnZBVlJYRkly
    元素法典 The Code of Quintessence(第贰卷)
    元素法典制作委员会 https://docs.qq.com/doc/DWEpNdERNbnBRZWNL
    元素法典 The Code of Quintessence(第贰點伍卷)
    元素法典制作委员会 https://docs.qq.com/doc/DWHFOd2hDSFJaamFm

    View Slide

  102. 国内でも、多角的な呪言研究の資料が公開されている
    表現調整の基礎から具体的な場面例までカバー。SFW / NSFWで求められる表現の差を考察しつつ、様々な描画技法や構図などに影響するプロンプトを幅広く調査している。
    102
    極東導本
    https://drive.google.com/file/d/16NAAEy4BdEgqJWvXimwskypZuyZHNqvh/view
    極東導本 For NovelAI Diffusion
    AYA-cis

    Fractal 画法
    fractal の呪文でノイズを多めに絵を生成することで人工的に触媒を
    生み出し、それを元手に絵を生成する手法。生成される絵は複雑に
    なりやすいが、ガチャ要素も大きい。[...]
    アニメ塗り詠唱
    アニメ調の塗り。Anime screencap よりこちらのほうが、当たり率
    が高い...気がする。anime style の強調数は他の呪文によって結構シ
    ビアな調整がいる。 [...]
    スノードーム詠唱
    小さな完結した世界は良いものですね? [...]
    粗さの調整
    線が太い方がスマホ映え、サムネ映えしやすい。{}で強くすると全
    体的に粗くなり AI で描いた精緻すぎる気持ち悪さを取り除くことも
    できる。[...]
    AYA-cis🔞
      @GinMei182

    View Slide

  103. 103
    NovelAIの為のシリーズ
    国内でも、多角的な呪言研究の資料が公開されている
    テーマとなるトピックについて、徹底的ともいえるほどに網羅的な生成例が調査されており、モデルの傾向や特性を理解する上で非常に示唆に富んでいる資料集。
    NovelAIの為のDanbooru語翻訳
    にきもなか
    [...] ということで、NovelAIで機能するDanbooruタグを調べま
    した。
    そもそも日本語に存在しない概念もDanbooruタグにあるので、
    ふんわりとしてるのもあります。
    Danbooruタグを多い順で4000個調査し(タグが全部でいくつあ
    るかは知らない)、NovelAIで使える約500個を抽出しました。
    試行回数が少ないので、機能する/しないの判断が間違っている
    かもしれません。スペルミス等も含めてコメントやリプで教えて
    くれると嬉しいです。[...]
    https://note.com/nkmonaka/n/n97b26fea1d89
    Oct 08, 2022
    NovelAIの為のファッションブランド(女性編)
    にきもなか
    [...] 全部で437ブランドあります。画像数はそれ以上あるのでご
    注意ください。[...]
    https://note.com/nkmonaka/n/ne486aafe4c93
    Oct 23, 2022
    NovelAIの為の髪色図鑑
    にきもなか
    [...] 色彩図鑑に載っている色を髪色に使ったら、
    いい感じになったので纏めました。[...]
    https://note.com/nkmonaka/n/n10e65dca039a
    Nov 02, 2022
    01_シャネル(CHANEL)[...]
    215_SAM EDELMAN [...]
    437_XSCAPE [...]
    001_レッド(Red)[...]
    222_ランプブラック(Lamp Black)[...]
    その他 [...]

    にきもなか
      @nkmonaka

    View Slide

  104. 国内でも、多角的な呪言研究の資料が公開されている
    NovelAI Diffusionの基礎的な扱い方から実践的な作業工程までを、プロンプトや詳細設定を含めた作例とともに豊富に紹介、解説する資料。
    104
    NovelAI 初心者教本
    https://docs.google.com/document/d/1adnXKyQwNyXAa5g0Pi
    G3lqcBWGH959LdBEYit22xJGc/edit#heading=h.v9vszdvgipf3
    NovelAI 初心者教本
    かたらぎ
    第一章 NovelAIの基本機能
    [...] まずはNovelAI公式サイトにアクセスします。右上に「Login」
    があるので選択します。[...]
    第二章 実践的なステップ
    第一章ではNovelAIの基本的な操作をご紹介しましたが、さらにス
    テップアップしていくためには様々な形式のプロンプトに対する知
    識を深めていかなければいけません。ここからはプロンプトの種 類
    ごとに詳しく解説していきます。 [...]
    付録
    [...] NovelAIではプロンプトに入力する要素や概念を融合させるこ
    とができます。[...] ただし、現在は制御が難しく、長いプロンプト
    では安定しません。[...]
    前書き
    [...] こちらの教本は初めてNovelAIを触るという方、触り始めて間
    もない方がステップアップしてワンランク上のステップに進むこと
    ができるようにと作られました。[...]
    かたらぎ@NovelAI初心者教本
      @redraw_0

    View Slide

  105. 余談:とはいえ、特に初期では生成結果が崩壊することはままあった
    ❖ 手先や指先などの細かい描画対象はそもそも苦手
    コモンセンス(常識)があるわけではないので、指の本数や関節の向きの大抵はでたらめ。
    仮に五本指の手が描画できても、手にこだわりをもって描写しているクリエイターの品質に
    は及ばないことがほとんど。
    また、物体の境界領域が融合するケースは依然として課題であり、髪と麺など細長い対象や
    背景エフェクト、服の装飾は特に混ざり易い。現行技術では、大量の学習データから「それ
    らしい描像」を潜在空間内で連続分布として構成しているに過ぎないため。
    ❖ 箸を使う食事描写は総じて苦手
    箸が手を境に2本と3本に別れる錯視が発生したり。ラーメンを手で掴んで食べたり。
    ❖ ケーキや機関車と少女の顔が融合するなどのキメラ
    タグ指定によっては個別の物体ではなく概念を混合してしまうことも。特定の界隈の性癖には
    刺さり、歓迎されている。
    ❖ 対象物の全体構造を無視した部分の寄せ集め
    人体でこの類の生成失敗が発生すると目も当てられないが、一周回って興味深くもある。人に
    より嫌悪感はまちまち。『正気では生み出し得ない』結果による閃きを受容する層も。
    105
    NovelAI Diffusion
    [Anlatan]
    何度も見ていれば慣れくるものの、初見で突然表示されると吃驚される方が多いと思われるため、
    あくまで説明でのご紹介まで。ご興味のある方はぜひご自身で検索を。

    View Slide

  106. 106
    02-5 絶えず技術は進歩していく

    View Slide

  107. 競合サービスの情報や技術を互いに取り込み合い、改善は続く
    ❖ Nov 05, 2022 | MidJourney v4 α
    細部のディテールや複数の描画対象を含む生成品質が向上。また、比較的短いプロンプトでも高
    品質な生成が可能になったとの評判も。
    ❖ Dec 07, 2022 | StableDiffusion v2.1
    プロンプト処理をOpenCLIPに変更。また、深度マップからの生成、NovelAI Diffusion と同様に
    CLIPの最後から2番目の層を使用するなど、アーキテクチャ改善を含む v2.0 の後継。学習データ
    増加に伴い、アートスタイルの多様化や手の描画性向上も。プロンプト仕様も一新。
    ❖ Feb 12, 2023 | WaifuDiffusion v1.5 β
    様々な困難により延期されていたv1.4の後継。Epoch 1まで学習が完了したβ版の先行公開。独自
    の審美スコアの導入により、さらに人の好みに近づけることを目的としている。 またその影響に
    より、予定の 1500万枚よりもやや小規模な約1000万枚での学習となる予定。
    ❖ Feb 21, 2023 | NovelAI Diffusion SMEA
    新たなサンプリング手法として Sinusoidal Multipass Euler Ancestral(SMEA)を開発。従来
    よりも高画質な設定において、 画像の部分特徴だけでなく全体特徴も捉えた推論ができるようス
    ケジューリングや U-Net の評価経路を工夫し、構図や人体構造の破綻を抑制することに成功。
    107
    終わりなき開発螺旋
    NovelAI DiffusionとMidJourney v4を併用した作例紹介
    852話
      @8co28
    11:09 PM · Nov 11, 2022
    https://twitter.com/8co28/status/1591070717969600514

    View Slide

  108. MidJourneyもイラスト系に特化した派生モデルを展開
    ~ Oct, 2022 | MidJourneyの一部ユーザーに向けて先行β版を提供していた模様。
    Nov 07, 2022 | クローズドβ開始。利用申請から数週間程度で徐々に招待を認可。
    Dec 02, 2022 | MidJourneyと同じ料金体系にてオープンβ開始。
    特有の上品でハッとする色彩やテイストを残した高品質な生成が可能で、表現の幅が拡大。
    108
    NijiJourney
    [Spellbrush, MidJourney]
    NijiJourney黎明期から発展期の作例紹介
    𝒏🅞𝒈𝒖𝒊𝒔𝒔
      @n0guiss_y
    8:24 PM · Nov 5, 2022
    https://twitter.com/n0guiss_y/status/1588854795242467328
    ぴぽ
      @pipohi
    7:26 PM · Nov 12, 2022
    https://twitter.com/pipohi/status/1591376947875319808
    852話
      @8co28
    1:20 AM · Nov 24, 2022
    https://twitter.com/8co28/status/1595452308204027905

    View Slide

  109. 109
    NijiJourney
    [Spellbrush, MidJourney]
    Oversized Jacket I
    はまなすなぎさ
    10:37 AM · Nov 24, 2022
    https://www.pixiv.net/artworks/103053516
    Sealed
    はまなすなぎさ
    20:19 PM · Nov 30, 2022
    https://www.pixiv.net/artworks/103226731
    Idolatry
    はまなすなぎさ
    2:00 AM · Nov 24, 2022
    https://www.pixiv.net/artworks/103047720

    View Slide

  110. 110
    NijiJourney
    [Spellbrush, MidJourney]
    Wherever we go
    はまなすなぎさ
    2:05 AM · Nov 24, 2022
    https://www.pixiv.net/artworks/103047804
    Just Opened The New Door.
    はまなすなぎさ
    1:45 AM · Dec 1, 2022
    https://www.pixiv.net/artworks/103237571

    View Slide

  111. 111
    NijiJourney
    [Spellbrush, MidJourney]
    United with the world I
    はまなすなぎさ
    18:12 PM · Nov 25, 2022
    https://www.pixiv.net/artworks/103085277

    View Slide

  112. 素性不明のダークホース
    Nov 08, 2022 | v3.0が突如としてHugginFaceに公開された。
    中国語圏コミュニティにて学習が継続されたNovelAI Diffusionのリークモデルであるとされており、
    関連投稿を複数確認できる。AUTOMATIC1111/stable-diffusion-webuiでの動作も確認されている。
    Jan 14, 2023 | v4.0リリース。少プロンプトで高性能、というv3.0のコンセプトを踏襲。
    Jan 15, 2023 | v4.5リリース。v4.0のモデルカードに同梱。
    112
    Anything 系列
    Anything v3.0関連投稿
    Welcome to sdupdates Discussions! #1 (question/sdupdates)
    Linaqruf Nov 8, 2022
    https://github.com/questianon/sdupdates/discussions/1#discussioncomment-4087175
    NovelAI 再遭泄露?实测对比Anything-V3.0.ckpt 提升巨大
    eghuai 9:04 AM · Nov 8, 2022
    https://www.bilibili.com/read/cv19603218
    anything-v3.0
    Linaqruf
    https://huggingface.co/Linaqruf/anything-v3.0
    ❖ 一部では安全性を疑問視する声も
    NovelAI Diffusionのリークモデルに基づき学習されたことが事実である場合、国内では不正
    競争防止法等に抵触する恐れがあるとの意見もあるが、 出処が海外であることも含め統一的
    な見解はなく、先行判例も存在しない。
    anything-v4.0
    andite
    https://huggingface.co/andite/anything-v4.0

    View Slide

  113. 底上げされた表現能力
    簡易的な呪言でも、デフォルトでより高精細な画像生成が可能であることが示唆されている。
    113
    Anything 系列
    Anything v3.0黎明期の作例紹介
    chomo
      @tkaz2009
    7:42 PM · Nov 16, 2022
    https://twitter.com/tkaz2009/status/1592830457783422976
    chomo
      @tkaz2009
    5:12 PM · Nov 18, 2022
    https://twitter.com/tkaz2009/status/1593517484900253696
    「hatsune miku」という極めてシンプルなプロンプトにより、
    ネガティブプロンプトも一切指定せず生成されたもの。
    Anything v3.0初期の紹介ツイート
    小猫遊りょう(たかにゃし・りょう)
      @jaguring1
    10:49 AM · Nov 13, 2022
    https://twitter.com/jaguring1/status/1591609069244383232
    小猫遊りょう(たかにゃし・りょう)
      @jaguring1
    12:07 PM · Nov 13, 2022
    https://twitter.com/jaguring1/status/1591628865046302721

    View Slide

  114. HuggingFace や Civtai でのモデル公開を中心に、多種多様なモデルが続々と台頭してきている
    StableDiffusion派生を中心に、新規モデルが氾濫し続けている。学習元や使用データの情報は必ずしも公開されないため、詳細な繋がりは不明瞭なことが多く、NovelAI Diffusionリークモデルの影響も甚大だと推察さ
    れている。主眼をイラスト系生成に置くモデルが多いが、特定属性やキャラクタ、NSFW用途に特化して学習されたものを含めると、樹形図の全体像を把握するのは極めて困難。現状では、各々のライセンスや商用可否
    を適切に把握した上で、モデルやデータセットの透明性等に潜むリスクについても十分に留意することが推奨される。
    ❖ Evt 系列
    V2ではNovelAI Diffusionリークモデルのチェックポイントのひとつに基づき、pixiv
    からのクローリング画像やいくつかのNSFWアニメ画像で構成された15000枚で学習。
    V3ではさらに35467枚を追加。
    ❖ Elysium 系列
    高品質な写実的生成用のElysium_V1や、多用途アニメ版であるElysium_Anime_V3
    などを展開。VAEに関しては、前者はStableDiffusion、 後者はWaifuDiffusion v1.4
    から学習された。
    ❖ Eimis 系列
    半写実的なイラストで学習したEimisSemiRealisticや、高品質なアニメ画像で学習し
    たEimisAnimeDiffusion_1.0vが展開されている。

    114
    終わりなき開発螺旋
    ❖ 7th Layer 系列
    7th_anime_v2_{A, B, C} やAbyss_7th_{layer, layerG1, anime} など複数のモデルを展開。
    いずれも高品質であり、それぞれの特徴に細かな差異が存在するが、その出自や学習方針など
    は明らかになっていない。READMEにはAnything v3.0との定性比較が掲載されている。
    ❖ Hentai Diffusion
    手や曖昧なポーズ、様々なアングルでの生成の強化を目的としたモデル。Seed値を変えたとき
    のスタイルの一貫性や、連続フレームでの生成における一貫性の維持にも取り組んでいる。
    ❖ Baka-Diffusion
    Danbooruタグで学習されたLDM。複数モデルのマージを基盤としており、今後ファインチュー
    ニングによりさらなる性能向上を計画している模様。潜在空間アップスケーリングを適用する
    ことで飛躍的な品質向上を達成した。

    View Slide


  115. ❖ ACertain 系列
    後述するモデルパーソナライズ手法のDreamBoothのための基盤として、他のアニメ
    特化型モデルよりも慎重に設計された ACertainty、高品質なアニメ系生成が可能な
    ACertainModel、ACertainModelに基づきAnything v3.0でDreamBooth学習を行っ
    たACertainThingを展開。特にACertainThingでは、Anythin v3.0の過学習性(不十
    分なプロンプトでも高精細な生成が可能な点を指摘しており、コミュニティからの評
    価は高いが細部を指示したいときの制御性の面で問題があると主張している)に苦言
    を呈しつつ、そのようなモデルを歓迎する層も尊重するとし、同様に過学習性を排除
    しきれないものの高精細な生成が可能なモデルとして ACertainThing を提供。一方、
    プロンプト設計に精通した層には ACertainModel の使用を推奨している。
    ❖ Counterfeit 系列
    モデルマージに加え、補遺にて紹介するDreamBoothとLoRAを適用して調整したアニ
    メ調生成モデル。V1.0、V2.0、V2.5と経るごとに、定性品質が大きく向上している。

    115
    ❖ Replicant
    テスト版では WaifuDiffusion v1.4 と StableDiffusion v2.0 に基づき複数のモデルをマージし
    つつ、Danbooruタグを用いてファインチューニングしていた。V1.0は WaifuDiffusion v1.5 β
    に基づく。VAEは Counterfeit V2.5 のものを流用。
    ❖ OrangeMixs 系列
    非常に多くのStableDiffusionマージモデルを内包するモデルカード。特に日本コミュニティで
    広く好まれるモデルへのアクセスを容易にし、知見を蓄積する目的があると述べられている。
    単なるパラメータマージのみならず、アーキテクチャにも適宜手を加えている。
    現時点の最高品質モデルは AbyssOrangeMix3 で、 前ナンバリング AbyssOrangeMix2 を総
    合的に品質向上した上で、その SFW / NSFW モデルマージしたもの。AbyssOrangeMix2は非
    常に高精細で表現力豊かであり、様々なジャンルに応用できるイラスト系モデル。 種々のモデ
    ルをU-Netの各ブロックで個別に配合することで、 指の骨格などの解剖学的な忠実性を実現し
    つつ、アニメ調の塗りを維持するモデルとして展開していた。特に AbyssOrangeMix から色
    のくすみや不自然なボケ効果が抑制されたほか、瑞々しく白い肌の色調のようなイラスト調の
    表現が改善した。他に、Elysium_Anime_V2に基づくElyOrangeMixやEerieOrangeMix系列、
    Anythingに基づくBloodOrangeMix系列を展開するなど、 豊富なラインナップを取り揃える。
    有志により AbyssOrangeMix2 とAnything v4.0をマージしたSkyrMixも公開されている。
    終わりなき開発螺旋

    View Slide

  116. 116

    ❖ [LORA] Flat_Color
    後述のLoRAを用い、フラットなイラスト(無地塗りや、影・ハイライト・グラデーションの
    省略)に特化したモデル。独特の淡い雰囲気が特徴的。人物より背景の描画が得意とのこと。
    ❖ Theovercomer8's Contrast Fix
    Low-Key 画像(全体的に仄暗くコントラストが高いためにドラマチックな雰囲気となる)に
    特化させたLoRAモデル。StableDiffusion 系の弱点を克服するアプローチのひとつ。

    終わりなき開発螺旋
    さらに無数の独自学習モデルやマージモデルへと派生していく。
    Civitaiでのモデル共有も白熱している。
    HuggingFace上での拡散モデル一覧
    SDWebUI モデル一覧 公開用
    かたらぎ Feb 13, 2023 ~
    https://docs.google.com/document/d/1hjtuTGaGsi6RNRAhJhceh2qwA7LlH6a44Kma8BIcjX4/edit
    diffusers-gallery
    huggingface-projects Feb 15, 2023 ~
    https://huggingface.co/spaces/huggingface-projects/diffusers-gallery
    ❖ ChilloutMix
    日本・韓国・中国風なアジア人女性の写実的画像に特化したマージモデル。これに加え、
    人形のように整った相貌の韓国人風写実生成に特化したLoRAモデルであるKorean Doll
    Likeness、アズールレーンの特定キャラクタに特化したLoRAモデル HMS Cheshire を
    組み合わせることで、アニメテイストな衣装を纏いつつ極めて写実的な女性の画像生成
    を実現したユーザーも現れ、一時期「AIコスプレイヤー」として賛否を呼んだ。
    実在する人物の再現や、実在する人物の名を冠した派生モデルの作成・公開は控えるよ
    う免責事項で呼びかけられていたが、その写実性の高さゆえに一部の過激な表現や商用
    目的で利用されるケースが散見され、Feb 28, 2023 に制作者判断で公開停止措置が講
    じられた。しかしながら、翌日には Civitai に管轄移譲された状態で再公開に至った。

    View Slide

  117. 制作支援ソフトウェア等にもAIが搭載されていく流れ
    界隈への影響がセンシティブであることには注意が必要なものの、適切な利用による恩恵の享受を目指して競争は苛烈化していくものと想像される。一方で、CLIP STUDIO PAINTのように利用者からの反発や抗議意見
    (AIに対する嫌悪感だけでなく、AIを用いて作品制作を行なっていないことの証明が不可能となってしまうことへの危惧)を受け搭載を取りやめたサービスも存在し、慎重なサービス展開が求められる。
    ❖ Apple
    StableDiffusionをCore MLへ最適化。macOS Ventura 13.1 Beta 4やiOS and iPadOS
    16.2 Beta 4から利用可能。Appleシリコン搭載機器に向けたOSSも公開。
    ❖ Adobe
    PluginとしてPhotoshopにStableDiffusionを用いるものが登場。 また、独自の技術開
    発により、クリエイターを尊重したクリーンな支援AIを今後展開する方針としている。
    ❖ Figma
    Text2ImageやText2Iconによりデザイン制作を支援するMagicianを展開中。
    ❖ Runway
    様々なAI支援機能(AI Magic Tools)を搭載したプラットフォームを展開。 特に動画
    編集に特化した機能が豊富に取り揃えられている。

    117
    終わりなき開発螺旋
    ❖ Prisma Labs
    Lensa AIと呼ばれる画像・動画編集アプリを展開。Nov 21, 2022 に自撮りからのイラスト
    風アバター生成機能が追加され、リリース直後から爆発的な人気と売り上げを記録した。
    ❖ Roblox
    仮想空間での交流や多種多様なゲーム体験を提供するプラットフォーム Roblox にて、 Feb
    17, 2023、『今後数週間で2つの生成AIツールのロールアウトを計画している』旨がアナウ
    ンスされた。テキストプロンプトからのマテリアル生成、およびコード生成機能である。よ
    り広く生成系AIの技術が応用される形。
    公開されたデモでは、プロンプト入力によって環境内の車体のテクスチャを変更したり、車
    を浮遊させたり、ヘッドライトを点灯させたり、天候を変化させたりする様子が紹介された。
    ❖ Blender
    後述するControlNetを搭載したでもスクリプトが有志により開発された。 Blenderで作成し
    た人物のポーズに基づく画像生成を、Blenderを開いたままシームレスに実行可能。

    View Slide

  118. 技術と創作文化のより良い共存を目指し、現状の改善を図るため独自開発する動きも
    WaifuDiffusionやNovelAI Diffusionが訓練に用いたDanbooruは後述のように権利関係の問題を抱えるが、その議論が成熟する前に寡占状態を作り上げたところに大きな功罪を伴っている。事態の打破に向けて、水面下
    でより影響力の大きい画像生成AIを開発する流れが興った。本資料執筆時点では超解像モジュールHATや Cool Japan Diffusion の学習用モデルなど全体像の一部が公開されているほか、学習経過は随時Twitterにて共有
    されており、最終的にどれほどの生成品質に到達するのかに注目が集まる。
    開発中、あるいは開発計画に名前のあったモデルで本資料執筆時点で公表されているものは、権利関係の課題をクリアすることを目的とした『Clean Diffusion』、適法の範囲内でデータ収集しつつ、既存サービスを凌
    駕する生成品質を実現することで海外サービスの寡占状態を打開することを目的とした『Cool Japan Diffusion』や『Untitled』、およびAI Picassoとの共同で開発している業務用モデル『Picasso Diffusion』である。
    118
    終わりなき開発螺旋
    開発者による取り組みの趣旨説明
    あるふ
      @alfredplpl
    9:19 AM · Oct 14, 2022
    https://twitter.com/alfredplpl/status/1580714803177267200
    あるふ
      @alfredplpl
    7:49 PM · Nov 19, 2022
    https://twitter.com/alfredplpl/status/1593919293825380352
    あるふ
      @alfredplpl
    7:51 PM · Nov 19, 2022
    https://twitter.com/alfredplpl/status/1593919895527301120
    あるふ
      @alfredplpl
    2:46 PM · Dec 20, 2022
    https://twitter.com/alfredplpl/status/1605077162238672896

    View Slide

  119. VTuberという媒体を通じて、倫理的によりクリーンなモデルの共創を目指す動きも
    Dec 26, 2022 | Abstract Engineにより運営されるVTuber『絵藍ミツア』がデビュー。
    ❖ CC0または許諾を得た著作画像のみでU-Net部を学習した『Mitsua Diffusion CC0』を公開
    StableDiffusion v2.1のテキストエンコーダとVAE部を流用しつつ、画像生成の肝であるU-Net部をフルスクラッチで学習。現段階では極めて低品質で多様性に欠けると断りを入れつつ、既存モデルやサー
    ビスよりも倫理軸を重視したモデルとなっている。VAE部の学習もさらなる展望であるとしている。
    ❖ 『#みつあ勉強用』でツイートされたテキストや画像を取り入れて段階的に学習していく
    ハッシュタグを含むテキストツイートから連想される画像をオプトイン申請済みのTwitterアカウントのみから収集し、Mitsua Diffusion CC0への追加データセットとして用いる。加えて、ハッシュタグ付
    きの画像ツイートを選択的に学習データに取り込む。 これらの追加学習データはモデルの方向性に大きく寄与することから、提供数に応じた返礼を展開する方針。 一連の追加学習は都度 Mitsua Diffusion
    CC0 から改めて行われることとなっており、各時点でデータセットから除外された画像は、以降のモデルに影響を及ぼさない設計となっている。 したがって、任意の時点でオプトインを解除した場合、そ
    れ以降のモデルに影響が残り続けることはない。
    リリース当初はオプトアウトに基づくデータ収集過程を含んでいたが、オプトアウトに依存するデータ除外は転じて「沈黙によるデータ利用を是とする一方的な意思確認である」旨の批判意見を受け、極
    めて迅速に完全なオプトイン方式への転換が決定された。
    終わりなき開発螺旋
    119
    Mitsua Diffusion CC0 Model Card
    Mitsua
    https://huggingface.co/Mitsua/mitsua-diffusion-cc0
    『絵藍ミツア』公式サイト
    Abstract Engine
    https://elanmitsua.com/

    View Slide

  120. 最新技術の動向にキャッチアップする最初の入り口に
    一次資料を直接読み解いていくことに困難さや抵抗がある場合は、情報集約ポータルから興味を持ったプレスリリースや解説記事を中心に参照していくのもおすすめ。
    120
    大きなうねりを俯瞰し続けるために
    『日刊 画像生成AI』
    やまかず
    変化が速すぎる画像生成AI界隈の最新情報を毎日お届けいたします。AI界全体から、最近流行りのStable Diffusion、OpenAI、Midjourney、Disco DIffusionや、Arxivに登場した関連技術まで紹介。
    日刊 画像生成AI (2022年11月1日)
    やまかず
    画像生成AI界は、今認識できないスピードで進化をし続
    けています。
    DALL・E2公開、Midjourney公開、StableDiffusionが
    オープンソースで公開され、日々とても早いスピードで
    変化しています。[...]
    https://note.com/yamkaz/n/n528194813303
    ?magazine_key=mad0bd7dabc99
    https://twitter.com/i/events/1560957489730179077
    日刊 画像生成AI (2022年9月1日)
    やまかず
    画像生成AI界は、今認識できないスピードで進化をし続
    けています。
    DALL・E2公開、Midjourney公開、StableDiffusionが
    オープンソースで公開されて..進化の速度が上がり続け
    ており、日々異常なスピードで変化しています。[...]
    https://note.com/yamkaz/n/nba7ab0f74699?
    magazine_key=mad0bd7dabc99

    https://note.com/yamkaz/m/mad0bd7dabc99

    https://note.com/yamkaz/n/n0a0ae2872c0b
    ?magazine_key=mad0bd7dabc99
    日刊 画像生成AI (2022年11月26-27日)
    やまかず
    ジェネレーティブAI界は、今とても早いスピードで進化
    し続けています。
    そんな中、毎日時間なくて全然情報追えない..!って人
    のためにこのブログでは主に画像生成AIを中心として、
    業界変化、新表現、思考、問題、技術や、ジェネレー
    ティブAI周りのニュースなど毎日あらゆるメディアを調
    べ、まとめています。[...]

    View Slide

  121. 最新技術の動向にキャッチアップする最初の入り口に
    一次資料を直接読み解いていくことに困難さや抵抗がある場合は、情報集約ポータルから興味を持ったプレスリリースや解説記事を中心に参照していくのもおすすめ。
    121
    大きなうねりを俯瞰し続けるために
    https://note.com/yamkaz/m/mad0bd7dabc99
    『日刊 画像生成AI』
    やまかず
    変化が速すぎる画像生成AI界隈の最新情報を毎日お届けいたします。[...]
    https://note.com/yamkaz/n/n0a0ae2872c0b
    ?magazine_key=mad0bd7dabc99
    日刊 画像生成AI (2022年11月26-27日)
    やまかず
    ジェネレーティブAI界は、今とても早いスピードで進化
    し続けています。
    そんな中、毎日時間なくて全然情報追えない..!って人
    のためにこのブログでは主に画像生成AIを中心として、
    業界変化、新表現、思考、問題、技術や、ジェネレー
    ティブAI周りのニュースなど毎日あらゆるメディアを調
    べ、まとめています。[...]
    https://twitter.com/i/events/1560957489730179077
    ジェネレーティブAIの実験, 最新情報 [まとめ]
    やまかず
    最新のAIツールの情報、実験を発信しています。
    もっと詳しく知りたい人は日刊にまとめてるのでぜひ [...]

    やまかず
      @Yamkaz
    7:30 AM · Dec 7, 2022
    https://twitter.com/Yamkaz/status/1600256341175504896
    やまかず
      @Yamkaz
    6:18 AM · Dec 6, 2022
    https://twitter.com/Yamkaz/status/1599875848114688001
    やまかず
      @Yamkaz
    8:06 PM · Dec 4, 2022
    https://twitter.com/Yamkaz/status/1599359560078479360


    特にやまかず氏のTwitterアカウントは、国内で生成AI界隈の
    話題を迅速に情報提供してくれる貴重な発信源のひとつ。ま
    とめだけでなく、ホームを直接訪れるのもおすすめ。

    View Slide

  122. そして我々はどこへいくのか
    実際にこれまでに膨大な量の画像を生成し、数ある表現の奔流から作品たりうる何かを選び取る作業を続けてきたデザイナーが綴る思索の海。蓄積された人々の芸術的営み、その歴史を功罪と共に取り込んだ画像生成
    技術は、いわば集合知として凝集された数多の発想の揺り籠であり、時に非実在の意図すら画面上に創発させる。
    作品を著す行為とは、作家性とは、そして新たに広がる道具性の地平とは。AIとの付き合い方を巡る、これまでとこれからの可能性についての考察。
    122
    AI画像生成の潮流は我々に何をもたらしたのか
    AIは表現のどこにいるのか
    Domain
    [...] 欲しかったものはこれだったろうか?そんな疑問が頭をよぎる。満足はで
    きても、味わうことができない。薄ぺらく最高に「それらしい」視覚像たちが
    ただただ堆積していく。2万枚。視覚ポルノという表現があるが、まさにそれ
    だ。快楽のためにのみ存在する図像(イメージ)たち。日夜、我々はSNSなどを通
    じて確かにそこに視覚的快楽を求めている。しかしそれ以上を求めたい気持ち
    もある。純粋な刺激の快楽以上に満たされるものを求めている。感じる空虚さ
    はより高い快楽を求めているにすぎない。強欲である。そしてその先には知的
    好奇心と人生と芸術とが待ち構えている。そこに画像生成AIは存在しているだ
    ろうか。[...]
    https://domaindesign.co/column/where-is-ai-in-expression
    Oct 25, 2022
    筆者による記事の紹介や作例
    sabakichi
      @knshtyk
    8:20 PM · Oct 25, 2022
    https://twitter.com/knshtyk/status/1584867562160287747
    sabakichi
      @knshtyk
    3:35 PM · Oct 20, 2022
    https://twitter.com/knshtyk/status/1582983822244974593
    sabakichi
      @knshtyk
    9:18 PM · Oct 20, 2022
    https://twitter.com/knshtyk/status/1583070100617592834

    View Slide

  123. 123
    03 爆発的な普及による弊害と警鐘

    View Slide

  124. 124
    著作権など権利関係の話
    AIによる画像生成は方々で物議を醸している
    ❖ 画像生成AIの浸透に伴い、国内でも注目度が高い領域
    国産サービスの mimic が停止に追い込まれ、規約を再訂してリリースしたのは記憶に新
    しい。 慎重な決定は英断だったと思われる傍ら、著作確認を都度行うなど人的負担も大
    きく、同様の対応でスケールし続けることには困難を伴うことも予想される。 一方、昨
    今の技術では ユーザーが特定の対象や画風を模倣するモデルを自前で学習することはま
    すます容易になっており、課題意識は解決するばかりかより広範に認知されつつある。
    ❖ 生成画像による出版物も増加傾向にある
    黎明期は特にR18対象の作品が氾濫した。 また、SFW用途でも画集が企画されたり、漫
    画や動画、ゲームの素材として活用されるなど、 需要と注目が高まっている。権利関係
    の議題や対応が成熟するより早く、生成画像の販売産業に人が流入している。
    ❖ 拡がるグレーゾーンと座礁地帯
    特にドメイン特化型モデルの学習に関して、 著作権者の利益を不当に害することとなる
    場合や、 既存作品と酷似した生成画像の著作権侵害性がどのように解釈されるかなど、
    議論は尽くされていない。 また、高品質ゆえに広く浸透してしまったリークモデルの派
    生についても、問題視する向きが広がりつつある。
    ❖ 法の専門家が権利関係の解説記事を出すなど影響力は大きい
    生成画像に著作権は生じるのか?
    勝手にデータを収集していいのか?
    収集したデータで学習したモデルは商用利用できるのか?
    創作物が学習データに勝手に含まれることを止める手立てはないのか?
    権利侵害が発生した場合誰が責任を負うのか?
    Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権(その2)
    STORIA法律事務所
    Sep 21, 2022
    https://storialaw.jp/blog/8820
    画像生成AIと著作権を弁護士が解説 Stable Diffusion流行やmimic炎上
    KAI-YOU
    Sep 22, 2022
    https://premium.kai-you.net/article/574
    Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権
    STORIA法律事務所
    Aug 31, 2022
    https://storialaw.jp/blog/8820
    進化する機械学習パラダイス ~改正著作権法が日本のAI開発をさらに加速する~
    STORIA法律事務所
    Sep 2, 2018
    https://storialaw.jp/blog/4936
    弁護士が解説するAIイラストの法律問題-著作権で保護される/保護されないAIイラスト
    弁護士 谷 直樹
    Nov 11, 2022
    https://note.com/naokitani_lawyer/n/n431da710c77e

    View Slide

  125. 125
    著作権など権利関係の話
    生成画像に著作権は生じるのか?
    ❖ 本邦でも一意に解釈が定まらない論点
    一般に、日本国内で著作権が認められるためには、対象となる作品に対する『創作的寄
    与』の介在が必要不可欠である。この創作的寄与をどの段階から認めるかについては専
    門家の間でも意見が分かれる部分であるが、最も基本的な解釈では、AIにより単に自動
    生成された画像に著作権は存在しないとの見方がベースとなる。一方で、現在の生成画
    像界隈では『試行錯誤の末に設計された複雑なプロンプトに基づき、大量に生成した画
    像群から自身で選択する』流れも一般的となりつつあるが、これらの行為には創作的寄
    与が認められるとする立場もある。
    さらに、生成画像に人手で加筆修正等の加工を施した場合についても、どの程度から著
    作権が認められるかについての統一的な見解はない。そもそも、全体に対して著作権が
    認められうる十分な加工割合を明確に策定するのは難しい(全体に対する加工割合を定
    量的観点・定性的観点をバランスよく踏まえつつ判断すること自体が難しいため、事例
    ごとの個別判断となりえてしまう)。
    ❖ 米国では、MidJourneyを用いた漫画の著作権登録が修正された
    生成画像の著作権の有無を巡る注目度の高い事例のひとつとして、Feb 21, 2023、米国の著作
    権局がKristina Kashtanova氏の漫画作品『Zarya of the Dawn』内の画像に著作権を認めない
    見解を示したことが話題となった。 当該作品はもともと、証明書発行までを含めた著作権登録
    が Sep 15, 2022 までには為されていたが、作品中に MidJourney にて生成した画像を含むこ
    とを踏まえて再審査され、最終的には当初の著作権登録の取り消しと、 作者の寄与が認められ
    る部分(文字情報と視覚的要素の選択や調整、および配置) に関する著作権保護を明文化した
    証明書の再発行に至った。
    本件では、MidJourneyを用いた画像生成における制御性が十分でない点が指摘された。また、
    プロンプトを勘案するユーザーは実際に画像を形作っているわけではなく、したがって、その
    背後の創造的主体とは見做されないとも主張された。作品内で施された著者による画像編集に
    ついても、それを理由にして著作権を認めるほどの創造性は認められないとした。
    本件が今後にひとつの指針を示す先行事例であることは論を俟たないが、一方あくまで個別事
    例への判断であること、および裁判所による司法判断ではないことには留意が必要である。
    Re: Zarya of the Dawn (Registration # VAu001480196)
    United States Copyright Office
    Feb 21, 2023
    https://copyright.gov/docs/zarya-of-the-dawn.pdf

    View Slide

  126. 訓練データセットの不透明性
    先述のDanbooruは海外のイラスト掲載サイトであり、pixivやTwitter等の作品も大量に収集されている。無断転載であるとの声が主流な一方、作品に作者名やURLなどの出展元情報も併記されており、フェアユースの
    範疇であるとの意見も一部ではある(Pinterest等と同様にキュレーションを行っているだけとの見方)。いずれにせよ、運営元が海外であることから、本邦の著作権法のみならず、必要に応じて米国のフェアユース思
    想や国際的なベルヌ条約等の枠組みを総合して考える必要があり、事態は複雑である。
    ❖ 権利逃れできる大規模データセット抽出の温床として機能してしまっている
    Danbooruでは豊富なタグづけがなされており、Text2Imageの学習と相性が良い。検索性もよく、pixivやTwitter等での検索や、単純なWEBクローリングよりもデータを収集しやすい点も利用に拍車をかけ
    た要因と見られる。Danbooru 2021(4.9M) などへのデータセット化も為されているほか、大規模画像データセットである LAION-5B の一部にもDanbooru由来の画像が含まれていることが知られている。よ
    りNSFW寄りの画像掲載サイトとして Gelbooru や rule34、yande.re なども存在し、問題を根本から断つことは難しい。
    ❖ DanborouではDMCA申請により無許可の転載を削除可能
    画像権利者の申し立てにより、既に数万件の転載画像が削除された模様。しかしながら、既に学習されてしまったモデルから影響を除去することは難しい。
    データセット未開示の MidJourney 系列も、生成結果から学習元の透明性が危惧されつつある
    例えば NijiJourney では、キャラクタ名を指定した二次創作風生成、手書きイラストを撮影した写真風の生成、アニメのキャプチャ風生成など、非常に幅広いテイストで生成可能であることが複数のユーザーにより確認
    されている。そのような背景から、データセットの構築過程に関心が高まるが、現段階では詳らかになっていない。
    今後のAI開発では、WaifuDiffusionやNovelAI Diffusionで見られたように市井の反発感情を煽ってしまうリスクを回避する目的で、使用データセットについては秘匿する流れが広まっていく可能性もある。
    126
    著作権など権利関係の話

    View Slide

  127. Jan 13, 2023 | 
    Stability AI、Midjourney、DeviantArtに対する集団訴訟
    LAION-5B等、数十億枚規模で既存アーティストによる画像を収集したデータセットで学習された画像生成モデルに対し、
    損害賠償請求と差し止めを求めたもの。訴訟元の法律事務所 Joseph Saveri Law Firm は、同様にAIを用いたコード補完
    サービスであるGitHub Copilotへの集団訴訟も提起していた組織。
    Feb 03, 2023 | 
    Plaintiff Getty ImagesによるStability AIへの提訴
    Getty Imagesの画像およそ1200万枚を無断で学習に使用したとして訴訟。StableDiffusionでは実際に生成画像にGetty
    Imagesのロゴの名残が歪んだ状態で出現することも確認されており、訓練データに含まれていたことは確かであると見ら
    れている。米国のフェアユースを逸脱した著作画像や商標の侵害であるかなどが主な争点であり、判決に注目が集まる。
    127
    訴訟問題への発展

    View Slide

  128. MidJourneyを用いた生成画像が 2022 Colorado State Fair のデジタルアートコンペにて優勝
    作品名は『Théâtre d'Opéra Spatial』。審査員の一人は後に、仮に事前に生成画像であると知っていたとしても高い評価を与えただろうと言及している。
    ❖ 作者の嬉々とした報告に反し、反感意見が続出
    「我々は芸術性の死を目の当たりにしている」
    「審査員がAIだと気づいていないのは問題だ」
    ❖ 仮に法で咎められなかったとしても、人々の感情を逆撫でするリスクは現状常に負う
    128
    MidJourneyによるコンペ受賞と反感

    View Slide

  129. 立場の違いによる軋轢や不和も起きはじめている
    ❖ AIを積極的に創作活動に利用する層
    呪言体系の構築を楽しんでいたり。
    生成絵を加筆、修正、組み合わせて用いたり、構図の参考にしたりするなどの利活用をしたり。
    道具として今後益々AIが普及する未来を想定し、情報収集や試行錯誤で最先端の知見を蓄積しようと努める層も。
    一方、Text2Imageの大衆化から一定の期間が経ち、利用派や推進派の間でも主義主張の違いで軋轢が生じる場面も観測されている。
    興味深く注視しているが、体裁的に反対表明している人も。
    ❖ AI反対運動
    法的拘束力はないものの、AI学習に画像提供をしないよう注意書きをする運動が起きたり。
    「もうインターネットにはイラストを上げない」と主張するクリエイターが現れてしまったり。
    自身で技術を会得したわけではない人々が「イラストレーター」や「絵師」を名乗ることへの拒否反応が生じたり。
    「AIで描いていないこと」自体がアピールできる価値と見做されるようになったり。
    「絵を描く行為」の価値や歴史が踏み躙られたり、文化盗用であると感じ、AI生成画像やそのコミュニティに拒否反応を示す人も多い。
    国内では、ツールの一部としてAIの使用方法を解説したクリエイターが抗議意見や脅迫により動画を取り下げるに至った事例も。
    Dec 13, 2022 頃には、巨大画像共有プラットフォーム ArtStationで多くの海外アーティストが画像のサムネイルを「AI禁止マーク」
    に準ずるものに差し替えるなど、AI画像生成技術に対する抗議運動が大きなムーブメントとして発生していた。一方で Dec 28, 2022
    頃には既に、運営元のEpic Gamesにより、そのような抗議画像は徐々に非表示化されはじめていた模様。
    129
    二分されるクリエイターの反応

    View Slide

  130. デジタルの世界で簡単に流通するデータを完全に規制するのは難しい
    AI生成画像が普及する以前から認知されていた問題が、より重篤な色を帯びて立ちはだかっている。
    ❖ どのような技術も必ず悪用されうる
    母数の急速な拡大に伴い、ユーザー間の潜在的な価値観の差が浮き彫りとなる形に。訴求
    力の高い技術ならなおさら負の側面も強まりうる。中には、絵を描けない人がルサンチマ
    ンを解消する手段にしているとの指摘や、これまで承認欲求を満たす手段のなかった人々
    の一部が道具を手に入れたことで見境のない活動に傾倒しているとの指摘も。AI反対派の
    イラストレーターに対し、その著作を無断で画像生成に利用し敢えて公開するユーザー層
    の存在も確認されるなど、推進派の内部からも溝を深める動きが散見される。
    ❖ 悪用者のモラルに訴えるやり方だけでは問題は根治しない
    高水準な技術ほど、利用者の最低モラルを想定したリスク管理が重要な世の中へなること
    が予想される。法整備から影響力の大きい企業の積極的な問題への関与、個々人のモラル
    啓蒙のレベルまで、様々なレイヤーで包括的な仕組みを構築していく必要性。
    130
    倫理と法はどこまで遵守されうるのか
    ❖ 配信中のイラストにImg2Imgが適用され、無断投稿される事件も発生
    例えば、最初期に特に大きく取り沙汰された Oct 13, 2022 の事案では、Twitchにてまさに筆
    を走らせている途中だった作品が無断でスクリーンショットされ、 Img2Img 適用後にオリジナ
    ルより早く投稿されるという事案が発生した。このとき、無断利用したユーザーは『自身の方が
    5~6時間も早く投稿した事実』を盾に、注意喚起をしていた被害者のイラストレーターがむしろ
    自身のAI作品を参考にしたのではないかと、自己の行為について正当性を主張した。
    本件は人目に明らかであったため、幸いにも収束。事件は大きな話題を呼び、無断利用したユー
    ザーは後にアカウント削除に至った。しかしながら、類似事案が増加すると取り締まれなくなっ
    てくる恐れも。実際に国内でも、他者の創作作品をImg2Imgした疑惑が濃厚な画像群を自作のAI
    生成作品として公開していたアカウントが有志の検証によりその後追及を受けるなど、類似事案
    が複数観測されている。この際、元画像を左右反転した形跡が確認されるなど、自覚的な隠蔽操
    作の介在が疑われたことも、AI画像生成界隈の印象を悪化させた一因であった。

    View Slide

  131. Dec 15, 2022 - Mar 03, 2023 |
     StableDiffusion v3.0 の学習に先立ち、Spawningがアーティストにオプトアウト申請を呼びかけ
    Spawningは、LAIONデータセットに著作画像が含まれていないかを確認できるサイト「Have I Been Trained?」を運営するなど、アーティストとAI開発の中庸を目指す企業。StableDiffusionの開発組織のひとつで
    あるStabilityAIと提携し、StableDiffusionの次期バージョンの学習時、著作画像をデータセットに含めて欲しくないアーティストの意向(オプトアウト)を反映する態勢を整えていることを公表した。
    ❖ アーティストの意向を尊重したAI学習への最初の一歩
    現状では検索した画像を1枚1枚設定するほかなく、同一作者やドメインの画像をまとめて設定するような使い勝手の良いUIは今後の課題だとしている。また、厳密な著作者確認は介在しないため、悪意を
    もった仕組みの利用者が存在する場合に混乱が生じる可能性も否めない。加えて、現段階ではHave I Been Trained? にて検索可能な画像群での対応に留まるため、そのほかのドメインで収集した画像群が
    データセットとして利用される限りにおいてはスコープ外となる。 一方、これまで一方的に推し進められてきたAI学習がアーティストの感情や信頼を損ねている現状を改善するための、一定の有意義なマ
    イルストーンではあると考えられる。 Feb 25, 2023 にはさらに、本人確認を経た上でのオプトイン方式の導入が進行していることも公表された。 とはいえ、オプトアウトとの併用ではオプトイン方式の
    強みが十全に活かされるとは言いがたく、今後、一般への影響力を持つAIサービス提供者全体にとっての標準や指針となるような、より包括的な仕組み作りが期待される。
    Dec 27, 2022 | 
    先述した『絵藍みつあ』ではオプトイン方式を採用
    データ利用禁止表明のみに基づくデータ収集は一方的であるというオプトアウトの性質を改善するため、利用者から明確な許諾意思表示があった場合にのみデータを使用するオプトイン方式の重要性が高まっている。
    『絵藍みつあ』はCC0およびオプトインに基づく画像のみからモデルを学習するスキームであり、よりクリーンな学習を目指す。
    一方で、CC0のみの利用でさえも苦言を呈する声もあり、そのような主張の理想的な行き先は既存画像を全く利用しないゼロベースのモデル学習である。現行技術では極めて困難であり、議論は平行線となりうる。
    131
    著作画像が無断で用いられないための枠組み作りに向けて
    Have I Been Trained?
    Spawning https://haveibeentrained.com/
    Haveibeentrained.com: Opt out of AI training
    Spawning https://www.youtube.com/watch?v=4lf8feiiVLg

    View Slide

  132. 132
    04 そしてText2Videoへ

    View Slide

  133. Text2Image手法を時系列方向に拡張し、テキストから動画を生成する手法が発展しつつある
    処理すべき次元が1軸増えることによる計算量や要求メモリの増大、テキスト画像ペアに比べてテキスト動画ペアが少ないなどの問題点が主に焦点となっている。
    直近では Latent Diffusion Models や StableDiffusion の成功を受け、潜在空間で処理する動画生成モデルが盛んに提案されている。これらはピクセル空間で生成
    するモデルと比較して軽量かつ応用可能性に長ける一方、未だフレーム間の不整合や歪み、あるいは『ちらつき』が全体的に目立つ点に発展の余地が垣間見える。
    灰字の非Diffusion手法や、キーフレームから動画変換する EbSynth のように、動画生成と関連するがテキスト入力ではない手法については、本資料では割愛。
    Apr 07, 2022 | Video Diffusion Models [Google]
    Diffusionを用いた初のText2Videoモデル
    May 29, 2022 | CogVideo [Tsinghua Univ., BAAI]
    事前学習済みText2Imageモデルを用いた初のText2Videoモデル
    Sep 22, 2022 | Phenaki [Google Research]
    動画を時空間方向に圧縮して扱うC-ViViTを提案し、テキスト群から任意長動画を生成
    Sep 29, 2022 | Make-A-Video [Meta AI]
    テキストと動画のペアデータを要さないText2Video
    133
    Diffusionを用いたText2Video概観
    Oct 05, 2022 | Imagen Video [Google Brain]
    Make-A-Videoの直後に発表されたより高品質なText2Videoモデル
    Nov 20, 2022 | MagicVideo [ByteDance]
    LDMを応用したより軽量なText2Videoを提案
    Dec 22, 2022 | Tune-A-Video [Show Lab, ARC Lab, Tencent, NUS SoC]
    One-Shot動画生成の提案
    Feb 06, 2022 | Gen-1 [Runway]
    テキストや画像による動画編集

    View Slide

  134. 134
    Video Diffusion Models
    [Google]
    Apr 07, 2022 | Diffusionを用いた初のText2Videoモデル
    テキストにより条件付けされた16フレームの64x64動画生成を実現。動画長の延長や解像度の向上も可能。
    ❖ 動画生成のために3D U-Netを採用
    3D Conv層の計算量の高さを回避するため、時空間方向に要素分解したモデルとして、空間方向の
    Conv層、空間方向のAttention、および時間方向のAttentionでU-Netを構成。16フレームを固定
    長生成する。また、時間方向のAttentionを必要に応じてマスクすることで各フレームを独立に扱
    うこともでき、 これによって動画と画像の同時学習を可能とした。 VDM ではランダムな他動画の
    フレームを画像的に挿入することでバッチ内統計量を安定化させ、 最終的な性能向上に寄与したと
    している。将来的な展望として、動画よりも豊富に存在する画像データの利活用が挙げられている。
    ❖ 条件付け自己回帰により任意長の動画生成が可能
    フレーム補間や後続フレーム群の生成モデルを明示的に学習するモデルは用意せず、上記の3D U-
    Netを再利用して既に生成した動画の続きを生成する条件付け手法を提案。置換手法と称されるこ
    の手法では、既に生成した動画部分  と、これから生成したい後続部分  を繋げたノイズ付与フ
    レーム群       に対して学習済みモデルを適用しつつ、既存部分  については都度  に拡
    散過程を適用したもので置き換えていき条件付けを行う。ただし、ナイーブにこの方法を適用する
    と前後半の境界部分が不自然になるという観察結果から、さらに正確な理論導出を行い、接続した
    潜在フレーム群   が与えられたときの  の生成確率を近似して逆過程の推論に用いることで品質
    向上。同様の知見を解像度のアップサンプリングにも応用した。
    Figure citation | Video Diffusion Models [Ho et al., ICLR WS 2022 & NeurIPS 2022] [24]
    [参考] Video Diffusion Modelsのデモ動画
    https://video-diffusion.github.io/
    ▲ [24: Figure 2, Figure 5] より引用。
    提案手法によるテキストからの動画生成例。それぞれ上段が元となる16フレームの64x64動画。下
    段は、超解像と自己回帰延長により上段の結果を64フレームの128x128動画に拡張したもの。

    View Slide

  135. 135
    Make-A-Video
    [Meta AI]
    Sep 29, 2022 | テキストと動画のペアデータを要さないText2Video
    データセット収集の困難さを解決するためのパイプラインを提案。解像度は512x512と中程度。
    ❖ DiffusionベースText2Image技術の応用
    プロンプトからの動画生成以外にも、単一の入力画像を動かしたり、入力動画と類似した動画を生成したりすることが可能。
    ❖ 近年のText2Imageのような多様性を獲得
    非現実的なプロンプトにも適合する視覚表現を生成できるほか、動画による学習で短時間ながら概ね自然に見える動きを獲得。
    一方、画像の粗さや若干の不自然さ、動きのぎこちない場合も目立つ。
    Figure citation | Make-A-Video: Text-to-Video Generation without Text-Video Data [Singer et al., ICLR 2023] [25]
    [参考] Make-A-Video のデモ動画
    https://makeavideo.studio/
    ▲ [25: Figure 1] より引用。ただし、(a) (b) および (c) (d) を縦並びから横並びに改変。

    View Slide

  136. 136
    Make-A-Video
    [Meta AI]
    3段階のパイプラインをそれぞれ独立に学習させる
    Image2Videoに関連するのは後段の2つ。以下に述べるコンポーネントは、まず画像単体で学習される。その後、コアとな
    る拡散モデルはテキスト画像ペアで学習し凍結。デコーダと超解像部は動画で追加学習し、時間方向の表現を獲得する。
    ❖ Text2Imageモデル
    DALL·E 2のようにテキストを入力として画像の潜在特徴量を生成する事前分布モデル、潜在特徴量を64x64の
    低解像度画像に変換するデコーダ、2段階の超解像モデルから成る。
    ❖ 時間方向へのアーキテクチャ拡張
    時間方向を処理できるように Conv層と Attention を拡張。3D Conv層は計算コストが高いため、2D Conv層と
    1D Conv層を組み合わせることで疑似3D Conv層とした。同様に、2D Attentionと 1D Attentionの複合によっ
    て疑似3D Attention層を設計。同時に16フレームを生成するよう画像生成デコーダや超解像モジュールを拡張。
    ❖ フレーム補間
    拡張したデコーダをファインチューニングし、フレーム補間を学習。16フレームから76フレームへ内挿。
    Figure citation | Make-A-Video: Text-to-Video Generation without Text-Video Data [Singer et al., ICLR 2023] [25]
    ▲ [25: Figure 2] より引用。
      Make-A-Videoのパイプライン。
    ▲ [25: Figure 3] より引用。
      疑似3D Conv層と疑似3D Attention層の概要。

    View Slide

  137. 137
    Imagen Video
    [Google Brain]
    Oct 05, 2022 | Make-A-Videoの直後に発表されたより高品質なText2Videoモデル
    動画テキストペアと画像テキストペアを適切に用いることで、写実的かつ高精細であるというImagenの特性を受け継ぎつつ、動きの自然な動画生成を実現。
    ❖ Text2Videoの定性的な制御性向上
    1280×768の高解像度生成で、品質も向上。128フレーム(24fps)の短時間動画の生成に留まる点はMake-A-Videoと類似しているが、動きの
    滑らかさも向上している。物体の立体的な理解度、テキストを用いたアニメーション生成、様々な美術スタイルでの動画生成などを可能に。
    Figure citation | Imagen Video: High Definition Video Generation with Diffusion Models [Ho et al., 2022] [26]
    [参考] Imagen Video のデモ動画
    https://imagen.research.google/video/
    ▲ [26: Figure 1] より引用。
    ▲ [26: Figure 2, Figure 3] より抜粋。
    ▲ [26: Figure 2] より抜粋。
    文字を含む滑らかなアニメーションも破綻なく生成できている。

    View Slide

  138. 138
    Imagen Video
    [Google Brain]
    Imagenをベースに時間方向へモデル構造を拡張
    Make-A-Videoと異なり、テキストと動画のペアを有効に活用するための仕組み。
    ❖ テキストから複数フレーム生成後、段階的に時空間方向へ超解像
    事前学習済み T5-XXL によってテキストを符号化したのち、コアとなる拡散モデル、3
    段階の空間方向超解像、3段階の時間方向超解像が控える。 それぞれのモジュールは独
    立して学習できるほか、超解像モジュールについては実動画に対するモジュールとして
    も機能する。空間方向はフレームごとに共通の重みで独立して処理。
    コアとなる拡散モデルは空間方向の Conv層、空間方向のAttention、および時間方向の
    Attentionから成る。 メモリ効率化のため、 超解像では時間方向のAttentionをConv層
    で置き換えているほか、 最高解像度の空間超解像モデルは完全な CNNs となっている。
    各モデルはノイズではなく、後述するProgressive Distilationで提案された、DDIMを回
    転角解釈することで登場する速度の概念を代替の予測対象として学習する。
    Figure citation | Imagen Video: High Definition Video Generation with Diffusion Models [Ho et al., 2022] [26]
    ❖ 画像と動画は別々ではなく同時に学習
    画像は1フレームの動画と見做し、適切にマスクしてバッチに加える。動画テキストペアよりも
    圧倒的に豊富な画像テキストペアを利用した同時学習により、大幅に品質向上。さらに、画像か
    ら動画への知識転移が発生する興味深い副次効果も確認。実世界の動画から学習したモデルは自
    然界の動きしか表現することはできないが、そこに画像テキストペアにより獲得された様々な画
    像スタイル(スケッチや絵画など)が混合されることにより、より多様な動画生成が実現された。
    データセットには内部保有の1400万件のテキスト動画ペアと6000万件のテキスト画像ペア、お
    よびLAION-400Mを使用。
    ▲ [26: Figure 6] より引用。
    Imagen Videoのパイプライン。
    ▲ [26: Figure 7] より引用。
    動画を処理するU-Netの構造。フレームは独立に処理され、その出力が時系列的に統合される。

    View Slide

  139. 139
    MagicVideo
    [ByteDance]
    Nov 20, 2022 | LDMを応用したより軽量なText2Videoを提案
    61フレーム、1024x1024の高解像度動画を生成。VDMより64倍も高速な処理が可能であると主張しているが、
    パラメータ数や計算量、計算時間による定量評価は為されておらず、どのような比較条件であったかは不明。
    Figure citation | MagicVideo: Efficient Video Generation With Latent Diffusion Models [Zhou et al., 2022] [27]
    ▲ [27: Figure 6] より引用。
    定性的に従来手法より優れていると主張。例えば、VDMやCogVideoよりも高精細な表現が可能であり、Make-A-Videoよりも距
    離を意識したより写実的な描写ができている。一方、これらの手法を含めた人手による包括的な定性評価は実施されておらず、特
    定例が図示されたのみであるため、信頼性には欠ける(MagicVideo以外の生成例はMake-A-Video提案論文中のFigure 4(a) から
    の引用であるため、他プロンプトでの比較が行われていない可能性も考えられる)。
          ◀ [27: Figure 2] より引用。
    各フレーム単位で切り取るとLDMやStableDiffusionのように一定以上の品質の画像生成ができている印象だが、動画として繋げ
    て閲覧すると、Make-A-VideoやImagenと比べてより視覚的な「ちらつき」や不連続性が顕著である印象を受ける。潜在空間で
    の処理を基軸としたことで、ピクセル領域での整合性の維持がより困難になっている可能性が推察される。
    [参考] MagicVideo のデモ動画
    https://magicvideo.github.io/

    View Slide

  140. 140
    MagicVideo
    [ByteDance]
    ❖ フレーム間処理において、計算量低減のための適合器ブロックを提案
    各フレームは事前学習済み StableDiffusion の VAE によってフレームごとに潜在空間に圧縮されたの
    ち、まず 2D Conv層が適用され、その後、適合器に通される。適合器は 1D Conv層や線形層より単純
    な仕組みで、特徴量の統計量を調整するために、単にパラメータとの要素積や加算が計算される。
    ❖ 時系列を考慮した動作特徴抽出のため有向 Self-Attention を適用
    適合器に通された特徴量は、先行研究と同様に U-Net の複数の解像度ブロックでAttentionが適用さ
    れる。空間方向ではSelf-AttentionおよびCLIPによるテキスト埋め込みを用いた Cross-Attentionを
    計算、フレーム間では各ピクセル座標ごとに時系列的な特徴量を抽出するための有向Self-Attention
    を適用し、それぞれの計算結果を加算する。有向 Self-Attentionでは三角マスクを適用することで、
    全てのトークンが自身より過去のトークンのみに影響され、 未来のトークンの情報を用いないように
    した。Transformerによる自己回帰生成のデコーダに適用する因果的マスクと同様な発想。
    ❖ フレーム補間と超解像により最終出力を獲得
    学習時は訓練データの一部から一様に16フレームを切り出し使用。この際、Transformerの位置埋め
    込みと類似の発想で動画のFPSを埋め込み、条件付けに加えている。 推論時は16枚のキーフレームを
    生成し、2段階のフレーム補間により61フレームへ。LDMの256x256の出力は画像データによって学
    習された超解像モデルにより、フレームごとに1024x1024へアップサンプリングされる。
    Figure citation | MagicVideo: Efficient Video Generation With Latent Diffusion Models [Zhou et al., 2022] [27]
    ▲ [27: Figure 4, Figure 5] より抜粋。
    2種類のAttentionを組み合わせることで、生成動画の多様性と一貫性を考慮できると主張。また、FPS埋め込み
    によってフレーム間の遷移の滑らかさや全体としての動きの大きさが制御できている。
    ▲ [27: Figure 3] より引用。
      MagicVideoの概要。

    View Slide

  141. 141
    Tune-A-Video
    [Show Lab, ARC Lab, Tencent, NUS SoC]
    Dec 22, 2022 | One-Shot動画生成の提案
    大量の動画データを用いる高コストな学習を行わず、事前学習済みText2Imageモデルを有効活用
    する手法。単一のテキスト動画ペアに基づいて多様な動画を生成する。
    ❖ 既存Text2Imageモデルの特性解析
    LDMの性質を実験的に調べ、動詞句の反映性が高いこと、およびSelf-Attentionを拡
    張して複数画像を同時生成すると、 動きに連続性はないものの、生成対象のコンテン
    ツには一貫性が見られることに着目。これらに基づき、既存モデルを時間方向に拡張
    しつつ、入力動画から One-Shot で連続的な運動力学を捉える手法を考案。事前学習
    済みモデルを利用できる点、および用意する動画がひとつでよい点から、既存の動画
    生成モデルよりも低コストとなる。
    ❖ One-Shot動画生成
    Text2Videoにおける新たなタスク設定としてOne-Shot動画生成を定義。まず、mフ
    レームから成る単一の動画と、その説明文が与えられる。タスクの目的は、与説明文
    と動詞を共有する任意のテキストを入力に、新たな動画を生成することである。この
    ときの入力テキストは、元の説明文から主語や述語、背景、属性等が変わりうる。
    Figure citation | Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [Wu et al., 2022] [28]
    ▲ [28: Figure 1] より引用。
    与えられたテキスト動画ペア(最上段)に対し、様々なプロンプトで変換した例。元動画の特徴を残しつつ、時系
    列的に一貫した異なる動画を生成することができている。
    [参考] Tune-A-Video のデモ動画
    https://tuneavideo.github.io/
    ▲ [28: Figure 9] より引用。ただし、図を縦並びから横並びへ改変。
    先行研究 CogVideo(上段)と提案手法(下段)の定性比較。

    View Slide

  142. 142
    Tune-A-Video
    [Show Lab, ARC Lab, Tencent, NUS SoC]
    ❖ Text2Image用U-Netの拡張
    Video Diffusion Modelsのベースラインを参考に、空間方向のConv層は時間方向に伸ば
    さず(e.g., 3x3 Conv→1x3x3 Conv)、因果的マスクを伴う時間方向のSelf-Attention
    を追加。 ただし、 単に軸分解したこれらの構成では一貫した内容の生成には不十分であ
    るとし、空間方向を見つつ因果的な処理を行うAttentionをさらに追加することを提案。
    ❖ SC-Attention
    フレームごとに独立処理する通常の空間方向 Self-Attention を、時空間領域に拡張。た
    だし、 全てのフレームを同時に処理するのは計算量の観点で非現実的なことから、 時空
    間的にスパースな因果的マスクを適用する SC-Attention を提案。SC-Attentionでは、
    各フレームにおいて、 動画の最初のフレームと自身の直前のフレームのみに注目する。
    これにより、 計算量増加を大幅に抑制しつつ、 動画全体に共通する情報と動きの連続性
    情報を効率的に考慮したAttentionが可能となる。自己回帰の要領で長時間生成も可能。
    Figure citation | Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [Wu et al., 2022] [28]
    時空間的にフレーム間の特徴を抽出するAttentionの例。
    図最右のスパースな因果的マスクを提案。
         
    ▼ [28: Figure 6] より引用。
    ❖ One-Shotチューニング
    時間方向に拡張したU-Netを、与えられた単一の動画を再構成するようファインチューニング。
    ここでの目的は、与えられた動画の動きの情報を抽出することである。学習するパラメータは、
    新たに追加され時間方向のSelf-Attention、および SC-Attentionと空間方向のAttentionそれ
    ぞれのQueryを射影する重みのみとする。モデルの挙動を極力維持しつつ、効率的に学習可能。
    ❖ 多様な応用と評価
    先述のように、与動画の主体や背景、属性を変えた動画を生成できるほか、画像生成における
    スタイル転移のような応用(e.g., イラスト調生成)もできることを示した。生成品質に関して
    は、フレームごとのCLIPスコアや人手の品質評価において、 先行研究のCogVideoを大きく凌
    駕した。 実験では学習済みの StableDiffusion を用いて Tune-A-Video を学習したが、大量の
    動画データで学習された CogVideo と比較しても、 より高品質な生成ができていることを定性
    的に確認。Text2Imageモデルの事前知識を有効に転用できることを示した。
    ▲ [28: Figure 4] より引用。
    Tune-A-Videoのパイプライン。

    View Slide

  143. ❖ DDIM Inversionによる時系列的一貫性の向上
    Tune-A-Videoの公式リポジトリが Feb 23, 2023 に更新。より一貫したフレーム群を
    出力できるように。 従来は DDPM のようにランダムノイズ群から各フレームを生成し
    ていたが、 入力動画の各フレームを DDIM によってノイズ空間へ符号化して生成に用
    いる方式を導入。 視覚的に近いフレームほど、 同じようなノイズ画像から生成される
    ようになる。 フレーム生成にも DDIM を用い決定的であるため、結果的に元動画で似
    たようなフレーム同士は生成後の動画でも類似したものになりやすく、品質改善。
    143
    Tune-A-Video
    [Show Lab, ARC Lab, Tencent, NUS SoC]
    Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [Wu et al., 2022] [28]
    Tune-A-Video
    showlab
    https://github.com/showlab/Tune-A-Video
    各フレームの潜在特徴は
    ランダムノイズで初期化。
     従来の推論
    類似フレームは類似した
    ノイズに埋め込まれる。
    元動画
    プロンプト プロンプト
    生成動画 生成動画
     DDIM Inversionを利用した推論
    潜在空間で
    DDIM Inversion

    View Slide

  144. 144
    Gen-1
    [Runway]
    Feb 06, 2023 | テキストや画像による動画編集
    新たな誘導手法で時系列的な一貫性を明示的に制御しつつ、画像と動画で同時学習。
    動画の内容と構成の詳細な操作や、少数の参照画像による動画のカスタマイズなど、
    多様な応用例を提示した。 学習データは動画およびテキスト画像ペアであり、既存
    の画像生成技術の知見を応用しつつ、 テキスト動画ペアを潤沢に用意することが困
    難であるという課題を回避する。
    ❖ 動画内容と構成の制御
    論文では、語の用法として、『動画の意味や外観を表現する、色や描画
    対象のスタイル、シーンライティング等の特徴』を動画の内容、『対象
    の位置や形状といった幾何的要素、および時間変化に伴う動作を表現す
    る特徴』を動画の構成と定義している。提案手法の目的は、動画の構成
    を保ちながら内容を編集すること。
    ❖ LDMの応用
    動画学習と同時に大量の画像データを有効活用したいという意図から、
    LDMに時間方向の処理を追加しつつ、動画入力の際にのみ追加モジュー
    ルを使用する。その他のパラメータは動画と画像の処理で共有される。
    また、LDMのオートエンコーダは凍結。動画をフレーム単位で独立に潜
    在空間へ射影したり、潜在空間から画像空間へ復元したりする。
    Figure citation | Structure and Content-Guided Video Synthesis with Diffusion Models [Esser et al., 2023] [29]
    [参考] Gen-1 のデモ動画
    https://research.runwayml.com/gen1
    ▲ [29: Figure 1] より引用。
    中段が入力動画。上段はプロンプトから、下段は参考画像に基づき編集生成された動画。
    ▲ [29: Figure 8] より引用。
    上段の入力動画に対し、中段のマスク部分を変化させないようにして動画生成した例。背景のみが編集されているこ
    と、また背景の外観が維持されたままプロンプトに応じて別のシーンに変化していることが見てとれる。

    View Slide

  145. ❖ 時間方向へのU-Netの拡張と条件付け
    右下図に示すように、時間方向の1D Conv層と1D Attention層をそれぞれ追加。後者
    については学習可能なフレーム番号埋め込みも導入。 またGen-1では、動画の内容と
    構成を明示的に条件付けとして与えることで、制御性の向上を図る。 具体的には、訓
    練時は入力動画から内容と構成の埋め込み表現を獲得するモジュールを学習し、 推論
    時は入力動画から構成の埋め込みを、 編集指示となるプロンプトや画像から内容の埋
    め込み獲得し、モデルを条件付けする。
    ❖ 内容と構成の埋め込み表現の獲得
    動画内容の表現にはCLIPの画像埋め込みを採用。訓練時は、入力動画からランダムな
    フレームを埋め込んで用いる。推論時にテキストが与えられる場合は、DALL·E 2と同
    様の発想でCLIP のテキスト埋め込みから画像埋め込みを推定し、Cross-Attentionに
    て条件付け。一方、動画構成の表現には、内容表現と分離性能の高い特徴として深度
    推定を採用。MiDaSの推定結果を  で符号化し、U-Netの入力に結合して条件付け。
    145
    Gen-1
    [Runway]
    Figure citation | Structure and Content-Guided Video Synthesis with Diffusion Models [Esser et al., 2023] [29]
    ▲ [29: Figure 2] より引用。
    Gen-1の概要。訓練では、動画の各フレームを潜在空間に射影し、内容と構成の条件付けを与えながら時空間的な拡散モデルを学習。
    空間的な2D Conv層の後には時間方向の1D Conv層を、空間的な2D Attentionブロックの後には
    時間方向の1D Attenionを追加することで、画像処理用のU-Netを動画用に拡張。
    ▼ [29: Figure 3] より引用。
    ❖ 複合的な分類器不使用型誘導
    Gen-1は2種類の条件付けを持つほか、画像データを1フレームの動画として訓練しているため、同
    一の入力からいずれの生成もできる。 これを利用し、画像予測としての結果を原点に動画予測方向
    に延伸するような誘導を加えることで、時系列的な一貫性を促進することに成功。 このとき、動画
    予測の各フレームに対し、同じ画像予測を用いて誘導する。結果、次のように複合した誘導を提案。
    ❖ 訓練は複数段階に慎重に分割
    学習済み StableDiffusion で初期化し、CLIPテキスト埋め込みを画像埋め込みに変更して画像のみ
    で15Kステップ訓練。 その後、時間方向の改修を加え、動画と画像で75Kステップ同時学習。次い
    で、構成条件付けを加え25Kステップ訓練。 最後に、構成条件付けである深度マップを段階的にぼ
    かしたり低解像度化したりするオーグメンテーションを適用し、10Kステップ訓練。
    画像予測
    内容
    構成
    動画フレーム予測
    時系列的一貫性の誘導 動画内容に関する誘導

    View Slide

  146. 146
    まとめ

    View Slide

  147. 147
    まとめ
    Diffusionを用いた画像生成が熱い
    一般層への浸透、大手の創作支援ソフトウェアへの搭載の機運を通して、産業構造すら変えて
    しまうポテンシャルを秘めている。
    ❖ テキストからの画像生成はさまざまな工夫で発展してきた
    品質や多様性の観点で鎬を削っている。現行の品質からは想像もつかない発展が明
    日にでも起きているかもしれない世界。
    ❖ 一般層に届く過程で、さまざまな問題点も浮上している
    どのような技術も避けては通れない道。我々は過渡期に生きている。
    ❖ 絵を動かす技術も発展途上
    このようなText2Videoモデルがさらに発展しStableDiffusionのような形で大衆化
    すると、Img2Imgによる動画変換に留まらない高精細な動画生成や動画変換が、誰
    しもにとって容易に可能となることが予想される。

    View Slide

  148. 148
    B | 拡張技術【パーソナライズ】
    C | 拡張技術【画像編集】
    D | 拡張技術【表現力】
    E | 拡張技術【操作性・制御性】
    A | 非DiffusionにおけるText2Imageの動向
    F | 拡張技術【推論高速化】
    G| 既存のDiffusionのその先へ
    補遺

    View Slide

  149. 149
    非DiffusionにおけるText2Imageの動向
    補遺A

    View Slide

  150. Text2Imageの興りは非Diffusion手法から
    一大巨頭である拡散モデルとは別に、着実に発展している技術体系。多くは『画像の符号化』と『自己回帰型Transformer』
    の組み合わせから成るが、2023年以降さらなる改善手法も台頭しつつある。
    Feb 24, 2021 | DALL·E [OpenAI]
    高品質なText2Imageの先駆け
    May 26, 2021 | CogView [Tsinghua Univ., DAMO Academy, BAAI]
    中国で発展を遂げたDALL·Eの派生
    Dec 31, 2021 | ERNIE-ViLG [Baidu]
    テキストと画像の双方向生成を統一的な事前学習フレームワークで実現
    Mar 24, 2022 | Make-A-Scene [Meta AI]
    人手のセグメンテーションマップを条件付けとして制御性向上を目指した
    150
    非DiffusionによるText2Image概観
    Apr 28, 2022 | CogView2 [Baidu]
    CogViewの後継
    Jun 22, 2022 | Parti [Google Research]
    自己回帰生成によるText2Imageの更なるパラメータスケーリングを推し進めた
    Jan 02, 2023 | Muse [Google Research]
    拡散モデルや自己回帰生成手法よりも高効率なSOTA手法の提案
    Jan 23, 2023 | StyleGAN-T [Univ. of Tübingen, NVIDIA]
    GAN系手法の復興

    View Slide

  151. 151
    DALL·E
    [OpenAI]
    Feb 24, 2021 | 高品質なText2Imageの先駆け
    『チュチュ大根』や『アボカド椅子』のような奇妙な概念の組み合わせが違和感なく出力される事実に、当時の研究
    界隈は沸き立った。
    ❖ モデル構造はdVAE + 自己回帰型 Sparse Transformer
    トークン化された画像特徴量とテキスト特徴量を用いて、自己回帰的に画像トークンを生成。
    ❖ CLIPは生成画像のRerankingに限定的に使用
    画像生成にCLIPは用いず、生成された候補画像群をキャプションとの類似度から並び替える目的で利用。
    Figure citation | Zero-Shot Text-to-Image Generation [Ramesh et al., PMLR 2021] [30]
    ▲ [30: Figure 2] より引用。

    View Slide

  152. 152
    CogView
    [Tsinghua Univ., DAMO Academy, BAAI]
    May 26, 2021 | 中国で発展を遂げたDALL·Eの派生
    入力は中国語。MS-COCOにおけるFID評価でDALL·Eを凌駕。また、人手による評価でGAN系手法を圧倒。
    ❖ モデル構造はVQ-VAE + 自己回帰型Transformer
    本質的な構造はDALL·Eと類似。データの不均一性による学習の不安定さを解析し、Precision
    Bottleneck RelaxationとSandwich Layernormを提案。
    Figure citation | CogView: Mastering Text-to-Image Generation via Transformers [Ding et al., NeurIPS 2021] [31]
    ❖ DALL·Eで用いられていたCLIPによるRerankingを廃止
    画像トークンとテキストトークンの結合順序を変えることで、画像が与えられた時にテキスト
    を予測することも可能。これを利用して、生成画像群で条件付けした際の元プロンプトの尤度
    を計算し、尤度が高い候補を最終生成結果として採用するself-rerankingを提案。
    ▲ [31: Figure 1] より引用。 ▲ [31: Figure 3] より引用。

    View Slide

  153. 153
    ERNIE-ViLG
    [Baidu]
    Dec 31, 2021 | テキストと画像の双方向生成を統一的な事前学習フレームワークで実現
    MS-COCOにおけるFID評価、およびCOCO-CNとAIC-ICCによる画像キャプション生成で従来手法を上回った。
    ❖ モデル構造はVQ-VAE + 自己回帰型Transformer
    本質的な構造はCogViewと類似しているが、テキストと画像トークンの結合順序を入れ替えることで、Text2ImageとImage2Text
    の双方に対応。それぞれでAttentionに疎なマスクを適用し学習を効率化。また、画像の符号化と自己回帰による生成部分の2段階
    のパイプラインを別個ではなく一気通貫で学習する方法を提案し、Text2Imageの性能向上を図った。
    Figure citation | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation [Zhang et al., 2021] [32]
    ▲ [32: Figure 1] より引用。 ▲ [32: Figure 2] より引用。

    View Slide

  154. 154
    Make-A-Scene
    [Meta AI]
    Mar 24, 2022 | 人手のセグメンテーションマップを条件付けとして制御性向上を目指した
    オプションでシーンのレイアウトを与えることにより、画面内の物体の位置関係を非明示的に指示し、一貫性のある構造や品質を実現。
    ❖ テキスト、シーン、画像領域で独立したトークン化を行い、自己回帰型Transformerで統合
    各トークンを単純に結合し、画像領域のトークンを自己回帰的に出力する仕組み。シーンセグメンテーションはオプション。
    シーン全体、人間、顔、物体と意味的に描画対象を分割し、それぞれに特化したモジュールや損失関数を定義。
    Figure citation | Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [Gafni et al., 2022] [33]
    ▲ [33: Figure 6] より引用。
    ▲ [33: Figure 3] より引用。
    GLIDEなど純粋なText2Image手法では、学習データから獲得されたバイアスによって、プロンプト内の特殊な
    指示を補正してしまう傾向が見られる(「8本足の猫」や「三角形の車輪」など)。一方、Make-A-Sceneで
    は、セグメンテーションマップを追加の条件付けとして与えることでこの問題を回避。

    View Slide

  155. 155
    CogView2
    [Baidu]
    Apr 28, 2022 | CogViewの後継
    CogViewから性能向上し、DALL·E 2に匹敵する品質を実現しつつ、テキストによる画像編集にも対応。
    ❖ テキストトークンとVQ-VAEによる画像トークンを扱うCogLMが核
    テキストと画像トークンを結合した入力の一部をランダムにマスクし予測するBERT的事前学習
    と、それによって学習されるTransformer(CogLM)を提案。
    ❖ Transformerによる階層的な超解像と局所並列的な処理を提案
    VQ-VAEにより復元される解像度160x160の画像を2段階で超解像。具体的には、1段階目で超
    解像した画像を2段階目でさらにリファインする形式を取る。特に2段階目では、Masked AEの
    知見に基づき、全体の25%をランダムに文脈として残した上で、対角方向に向かって並列的に
    トークンを超解像する。
    Figure citation | CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers [Ding et al., NeurIPS 2022] [34]
    ▲ [34: Figure 2] より引用。
    ▲ [34: Figure 4] より引用。

    View Slide

  156. 156
    Parti
    [Google Research]
    Jun 22, 2022 | 自己回帰生成によるText2Imageの更なるパラメータスケーリングを推し進めた
    DALL·E 2やImagenの後に発表された手法。Diffusion優勢の時勢にありながら、自己回帰モデルの性能の高さを改めて実証。
    ❖ モデル構造はTransformer + ViT-VQGAN
    画像のトークン化にはViT-VQGANをを使用。まずViT-VQGAN-Smallを8192トークン
    で学習し、画像を生成するデコーダ部のみ大規模化し追加学習。出力画像は 256x256
    の解像度であり、後続の超解像モジュールにより最終的に512x512や1024x1024とな
    る。テキストはTransformerのエンコーダにより符号化し、Transformerのデコーダで
    画像トークンを自己回帰生成。
    Figure citation | Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [Yu et al., TMLR 2022] [35]
    ❖ モデルサイズの増大によって生成結果が大きく改善することを示した
    350Mから20Bまでのパラメータサイズを定性的、定量的の双方で評価し、パラメータ数が増大す
    るほどより難易度の高いプロンプトに対しても高い表現性能を獲得できることを示した。
    ▲ [35: Figure 2] より抜粋。 ▲ [35: Figure 3] より引用。

    View Slide

  157. 157
    拡張技術【パーソナライズ】
    補遺B

    View Slide

  158. 近年のText2Imageモデルは高品質であるが、モデル規模が大きく、フルスクラッチでの十分な学習は一般に困難
    提供されているモデルで描画が難しい概念(e.g., 飼い猫やオリジナルキャラクタなど)を反映した画像生成を行いたい際、一般に2種類の問題が存在する。全体のデータセットに対して新規概念に関する画像を十分に用
    意することが困難である点と、モデルを十分に学習させるための計算資源の確保が困難である点である。そこで、事前学習済みモデルに対する小規模な学習のみで新規概念を獲得させる手法が研究されている。
    Aug 02, 2022 | Textual Inversion [TAU, NVIDIA]
    Text2Imageによる画像生成をパーソナライズするための第一歩
    Aug 25, 2022 | DreamBooth [Google Research, BU]
    与えられた固有概念特化型としてText2Imageモデルをファインチューニング
    Nov 21, 2022 | DreamArtist [SYSU]
    わずか1枚の画像を元に、従来手法より鮮明で多様、かつ操作性の高いパーソナライズを実現
    Nov 30, 2022 | Multiresolution Textual Inversion [UT Austin]
    様々な解像度で新規概念を適用するTextual Inversion
    158
    拡散モデルの拡張技術【パーソナライズ】
    Dec 07, 2022 | LoRA
    自然言語処理の分野で提案された低ランク適応手法を応用
    Dec 08, 2022 | Custom Diffusion [CMU, Tsinghua Univ., Adobe Research]
    複数の新規概念を組み合わせた高自由度の画面構成を実現
    Feb 23, 2023 | E4T [TAU, NVIDIA]
    1枚の画像から、新規概念を極めて高速かつ柔軟に獲得

    View Slide

  159. Aug 02, 2022 | Text2Imageによる画像生成をパーソナライズするための第一歩
    特定の固有概念に関する画像を複数枚(3~5枚程度)用意することで、それを表現する特殊トークンを新たに学習し用いることができるようになる。DDPMやLDMで有効性を確認。
    ❖ Textual Inversionの提案
    学習済みのText2Imageモデルのパラメータは凍結したままに、CLIP等のテキストエン
    コーダにおいて任意の追加概念を表現できる埋め込みベクトルのみを学習するスキーム
    を提案。「A phtoo of   」や「A rendition of  」などのニュートラルなプロンプト
    によって与えられた画像群が生成できるように、  の埋め込みベクトルを最適化する。
    ❖ 複数の擬似単語を学習することで新規概念の組み合わせも表現可能
    新規物体と新規スタイルを融合して描画することなどが可能。一方で、各概念は単体でしか学習
    しないため、複数の新規物体を空間的に隣り合わせに描画するのは困難であるなどの制限も存在
    する模様。
    159
    Textual Inversion
    [TAU, NVIDIA]
    Figure citation | An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [Gal et al., ICLR 2023] [38]
    事前学習済みのText2Imageモデルに対して、ユーザー指定の新たな概念を表す擬似的な埋め込みベクトルを    として獲
    得。プロンプトに組み込むことで、その新規概念を生成画像中の描画対象や新規スタイルとして表現可能となる。
    ▼ [38: Figure 1] より引用。
    ▲ [38: Figure 15] より抜粋、および再配置。

    View Slide

  160. Aug 25, 2022 | 与えられた固有概念特化型としてText2Imageモデルをファインチューニング
    課題設定はTextual Inversionと類似している。DreamBoothでは固有識別子に加えて対象を表す大まかな名詞(e.g., dog)も与えることで、事前学習済みの知識を効率よく活用する。
    ❖ 固有識別子と対象のクラス名をセットで用いることで、より高精度なパーソナライズを実現
    固有識別子はTextual Inversionのように新規埋め込みベクトルが設けられるのではなく、トークナイザの既存辞書の中から汚染影響力の小さい希少語彙をピックすることで設計される(便宜上 [V] と表記
    される)。論文中ではImagenに対してDreamBoothが適用されたが、その後StableDiffusionに適用する実装が有志により公開された際は、固有識別子として「sks」が用いられた。
    160
    DreamBooth
    [Google Research, BU]
    Figure citation | DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [Ruiz et al., 2022] [39]
    ▲ [39: Figure 1] より引用。
    3~5枚の画像を与えるのはTextual Inversionと同様だが、DreamBoothではモデルそのものを新規概念に特化した
    ものに再調整する(=特化型フォトブースを作成する)。姿勢や光源などの自由度がさらに改善。
    新規概念について、固有識別子でそのクラス名を修飾したプロンプト(e.g., A [V] dog)によって入力画像群を生成できるよ
    う、学習済みText2Imageモデルを追加学習。一方で、そのクラスのみのプロンプト(e.g., A dog)による生成結果は元のモ
    デルから不変であるよう制約を加えることで、既に獲得された意味的知識を毀損せず維持できるよう工夫した。
    ▼ [39: Figure 4] より引用。

    View Slide

  161. Nov 21, 2022 | わずか1枚の画像を元に、従来手法より鮮明で多様、かつ操作性の高いパーソナライズを実現
    LAION-5BやDanbooruを用いた包括的な実験を行い、自然画像やアニメ系画像の両側面において既存手法を凌駕する結果を示した。
    ❖ Textual InversionやDreamBoothと比較して様々な点で優位性を確認
    新規概念に対して3~5枚の画像を必要とする従来手法に対し、DreamArtistでは1枚のみで学習が可能。 モデルサイズも、埋め込みのみを学習するTextual Inversionの2倍、モデル全体をファインチュー
    ニングするDreamBoothの20万分の1程度と軽量である。生成品質はアーティファクトやモザイクの発生、過度な平滑化もなくより鮮明であり、生成の多様性やプロンプトによる操作性(e.g., 姿勢、内容、
    背景文脈、スタイル)も大幅に向上したと主張。定性・定量評価によって主張を裏付けている。Textual Inversionは苦手としていた、複数の新規概念を空間的に配置するプロンプトでも生成可能。
    161
    DreamArtist
    [SYSU]
    Figure citation | DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning [Dong et al., 2022] [40]
    ▲ [40: Figure 2] より引用。
    Textual Inversionと同様、DreamArtistでは新規概念に対する埋め込み表現のみを学習する。一方で、正の埋め込みと負の埋め込みの2種類が
    用意される。これは、正のプロンプトのみを考慮したText2Image手法では特に少数データセットで過学習や形状崩壊、また多様性の乏しさが
    引き起こされるとの分析に基づく工夫であり、論文中ではそうした既存手法を「楽観的である」とさえ述べている。DreamArtistでは対照的な
    プロンプト調整により「内省」しながら入力の特徴を獲得できるとしており、人が絵を上達させる過程とのアナロジーに触れている。
    具体的な提案手法はシンプルであり、同一のノイズから正の疑似単語と負の疑似単語を含むプロンプトで個別にLDMの潜在特徴量を生成し、そ
    れらを適当な係数で正方向へ外挿するだけ。このようにして得られた潜在特徴を用い、与えられた画像に対して通常の方法で逆拡散過程を学習
    する(U-Netによるノイズ学習と、デコーダによる最終的な出力画像に対するピクセルレベルでの誤差の学習を損失関数に含む)。負の埋め込
    みを導入することで、正の埋め込みの不十分な部分を是正する効果が期待でき、その結果として正の埋め込みが入力画像に過剰に適合せず多様
    性や操作性を担保する余地が残るとの主張。
    ▲ [40: Figure 4] より抜粋。

    View Slide

  162. Nov 30, 2022 | 様々な解像度で新規概念を適用するTextual Inversion
    学習した疑似単語の適用度合いを連続値で指定することにより、概念をどれだけの精緻さで反映させるかを操作できるよう拡張。
    ❖ 逆拡散過程の各時刻と学習される特徴量の解像度を対応づけ、時刻ごとに埋め込みを学習
    テキストによる条件付けが作用する範囲の例示として、逆拡散過程時のモデルに入力される画像がわずかにノイズの乗った
    猫の画像(綺麗な画像に近い時刻)であれば細部のテクスチャなどを、逆にノイズが支配的な画像(逆拡散過程の初期)で
    あれば、猫か犬かといったクラス情報や全体的な色などを捉えるための情報量が多くなるはずであると指摘。この考えに基
    づき、Textual Inversionと同様に事前学習済みモデルに対して疑似単語の埋め込みを学習する際、逆拡散過程の各時刻に応
    じて異なる埋め込みを学習することを提案。
    ❖ 学習した埋め込みを推論時に利用する3種類の方法を提案
    異なる解像度で学習した埋め込みを反映するために、各手法では共通して0から1の連続値を指定する。ただし、0は「最も
    精緻な細部特徴」を意味し、1は「最も粗い大域的な特徴」を意味する。 第一手法の固定解像度サンプリングでは、指定さ
    れた解像度の埋め込みを逆拡散過程の全ての時刻の条件付けとして用いる。これにより、各解像度の特徴が何を学習したか
    を視覚的に確認することができる(右図上段)。第二手法の半解像度依存サンプリングでは、指定解像度の時刻以上の時刻
    (より解像度の粗い、逆拡散過程における初期側)においてのみ、それぞれの時刻の埋め込みで条件付けを行う。つまり、
    指定した解像度の時刻までで条件付けを止め、それ以降のより細かい解像度に対応する時刻では条件付けを行わない(右図
    中段)。第三手法の完全解像度依存サンプリングでは、第二手法で条件付けを停止した区間においても、指定解像度に対応
    する時刻の埋め込みで条件付けを行う。これにより無条件生成の区間がなくなり、どの解像度を指定しても一定程度の制御
    性を担保できる(右図下段)。
    162
    Multiresolution Textual Inversion
    [UT Austin]
    Figure citation | Multiresolution Textual Inversion [Daras et al., NeurIPS WS SBM 2022] [41]
    ▲ [41: Figure 3] より引用。
    ▲ [41: Figure 1] より引用。

    View Slide

  163. Dec 07, 2022 | 自然言語処理の分野で提案された低ランク適応手法を応用
    DreamBoothの倍の速度でStableDiffusionのファインチューニングが可能。パラメータサイズも小さく、保存や共有が容易。
    ❖ パラメータ更新分の残差を考え、さらに低ランク近似することで省メモリ・高速化
    通常のファインチューニングではモデル全体を更新するため、モデルサイズと同等のメモリ領域が必要となる。一方LoRA
    では事前学習済みモデルのパラメータは凍結し、各層で学習可能な低ランク行列の積による疑似的な残差経路を設けてファ
    インチューニングを行う。ファインチューニングによるモデルパラメータの更新分は一般に微小であることから、良い近似
    が成立するとの主張。推論時は追加分のパラメータ積を予め計算して元モデルに足し合わせることで同等の計算量を実現で
    きるため、計算量の増大や遅延もない。
    ❖ 低ランク近似する層を絞ることでさらに省メモリ化
    LoRAの元論文では、Transformerベースのモデルの中で、特に精度に大きな影響を及ぼすAttention層のパラメータのみに
    低ランク近似を適用し、精度を担保しつつ要求パラメータサイズを縮小している。 cloneofsimo/lora でもこれを踏襲。
    ❖ 拡張性
    元論文や cloneofsimo/lora では、クロネッカー積を用いた適応手法である先行研究 COMPACTER: Efficient Low-Rank
    Hypercomplex Adapter Layers [Mahabadi et al, NeurIPS 2021] [43] などと組み合わせることによる さらなる計算効率性
    の向上を今後の展望としている。
    163
    LoRA
    ▲ [42: Figure 1] より引用。
    Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
    cloneofsimo
    https://github.com/cloneofsimo/lora
    Figure citation | LoRA: Low-Rank Adaptation of Large Language Models [Hu et al., ICLR 2022] [42]
    ユーザーによるコンセプト特化モデルの学習
    や共有の流れを加速させた立役者

    View Slide

  164. Dec 08, 2022 | 複数の新規概念を組み合わせた高自由度の画面構成を実現
    従来手法が苦手としていた課題で品質向上。
    ❖ ファインチューニングするパラメータの制限と学習の工夫
    一般名詞のないパーソナライズしたい新規概念の表現には、DreamBoothと同様に希少語彙を固有識
    別子として学習。複数の新規概念には個別の識別子を与え、同時学習する。加えて、テキストが条件
    付けとして作用するU-Net中のCross-Attentionにおいて、KeyとValueを射影するパラメータのみ学
    習可能とする。これにより、表現能力を維持しつつ省メモリで高速なファインチューニングを実現。
    また、新規概念に付随する既存単語(e.g., 図中のchairやcat、また、新規名詞としてmoongateを学
    習する際はmoonとgateなど)とCLIP 類似度の高い画像をLAION-400Mから200枚抽出し、既存概念
    の忘却や棄損を防ぐための正則化として用いた。
    ❖ 個別にファインチューニングしたモデルを統合する方法も提案
    複数の概念を個別に追加学習したモデルがそれぞれ存在するとき、その更新された重みをひとつの重
    みに近似的に統合する最適化手法をラグランジュの未定乗数法を用いて導出。個別概念に対して学習
    したモデルが予め用意されている場合、この最適化手法は2秒程度で完了するため非常に高速である。
    実応用の側面を考えると、様々なユーザーが自身の好みの概念についてパーソナライズしたモデルを
    公開、共有すれば、それらを追加学習なしに自由に複合して用いることができる点でカスタム性に優
    れるといえる。
    164
    Custom Diffusion
    [CMU, Tsinghua Univ., Adobe Research]
    Figure citation | Multi-Concept Customization of Text-to-Image Diffusion [Kumari et al., 2022] [44]
    ▲ [44: Figure 7] より引用。
    最左列に示す複数の新規概念から各行で2つをピックアップし、提案手法とDreamBoothを定性比較。各列につい
    て、joint trainingは2つの概念を同時学習、optimizationは個別に学習した上で最適化により統合したモデルによ
    る結果を表している。提案手法はいずれもDreamBoothによる生成品質を凌駕しており、特に同時学習手法は最適
    化手法と比較してもより良い結果が得られていることが確認できる。

    View Slide

  165. Feb 23, 2023 | 1枚の画像から、新規概念を極めて高速かつ柔軟に獲得
    学習済みの拡散モデルに対し、『未学習気味』となるように新たな概念を取り込ませることで、汎化と高速
    な学習を両立。1枚の画像と1分に満たない時間でパーソナライズが完了する Textual Inversion の亜種。
    ❖ 入力画像をトークン埋め込み化するエンコーダを設計
    Textual Inversionのように単に新規概念に対する埋め込み特徴を学習するのみでは、新規概念を
    精度良く反映できるようになるほど、 未知のプロンプトと組み合わせた際の自由度が損なわれる
    点を指摘。StyleGAN Inversionのような研究から着想を得て、画像生成の過程で繰り返しリファ
    イン可能な埋め込みの学習を提案した。具体的には、新規概念(e.g., ペットの猫)が属する既存
    ドメイン(e.g., 猫)のテキスト埋め込みから摂動する範囲に新規概念の埋め込みが位置するよう
    制約しつつ、この埋め込み自体が逆拡散過程の各時刻で動的に修正されていくスキームを構成。
    ❖ 反復的に修正される新規概念埋め込み
    新規概念画像をOpenCLIPの画像用バックボーンであるViT-H/14に入力し、特定の層から [CLS] に相
    当する特徴量を階層的に集約。 同時に、逆拡散過程で生成中のノイズ付き画像 (LDMであれば潜在特
    徴)を事前学習済みU-Netのエンコーダ部に入力し、各ブロックの中間特徴をプーリングして集約。こ
    れらの特徴はそれぞれ線形層に通され、平均プーリングで固定長の特徴ベクトルに落とし込まれたのち
    に、最後の活性化関数と線形層が適用され符号化される。この符号化特徴に微小な係数を乗じ、新規概
    念が属するドメイン(e.g., 猫)のテキスト埋め込みに加算することで、各時刻での埋め込み表現が得ら
    れる。この埋め込みは Textual Inversion における  の役割を果たし、テキストプロンプトに結合され
    て画像生成のための条件付けとなる(下図左側および中間の処理)。 一度埋め込みを定めて凍結する従
    来手法と異なり、生成しながら『今何を出力しようとしているのか』を監視しつつ埋め込み特徴を変化
    させられる点が、最終的な性能に寄与していると考えられる。
    165
    E4T
    [TAU, NVIDIA]
    Figure citation | Designing an Encoder for Fast Personalization of Text-to-Image Models [Gal et al., 2023] [45]
    ▲ [45: Figure 2] より引用。
    ▲ [45: Figure 3] より抜粋。
    既存手法との比較。最左が入力画像。E4Tは1枚の画像からよく汎化し、様々なプロンプトに応じた生成を実現。特に中段の漫画風表
    現では、他手法が入力を反映できず一般的な概念に侵食されているのに対し、E4Tはより忠実な結果となっている。

    View Slide

  166. ❖ パラメータオフセット
    モデル全体のファインチューニングでは容易に過学習する恐れがあるため、パーソナライズの実現には十分、
    かつドメインに対する元の表現力を損なわない程度のパラメータサブセットを特定し、その部分を限定的に
    学習することを考える。著者らはまず、 HuggingFace 上の 50種類の追加学習された拡散モデルを用意。そ
    れらがファインチューニングによって変化した度合いに基づき、層ごとの重要度を定量的に評価した。結果、
    Self-Attention および Cross-Attention が飛び抜けて重要であることを特定(従来の知見とも整合する)。
    この知見に基づき、Attention層において入力を Query, Key, Value に射影するパラメータのみが学習により
    変化するよう制限。その上で、パラメータそのものではなく更新差分を学習するるように工夫。 この差分が
    低ランク行列となるよう設計することで、表現力を適切に制約した。
    ❖ 事前学習
    任意のパーソナライズを実現する前に、E4Tにて導入したエンコーダとパラメータオフセットを対象ドメイ
    ンの大規模データセットで事前学習する必要がある。訓練は通常の拡散モデルに準拠。顔ドメインでは30K
    ステップ、猫ドメインでは60K、アートドメインでは100Kの事前学習をおこなった。
    ❖ パーソナライズ
    1枚の新規概念画像をモデルに取り込む際は、追加モジュールだけでなく事前学習済みモデルも同時学習する。
    重要な知見として、入力画像は1枚でもバッチサイズは複数にしたほうが学習が安定する(学習時のノイズレ
    ベルは様々であるため)。論文では実験に StableDiffusion を用い、顔ドメインでは 15ステップ、猫やアー
    トのドメインではわずか5ステップのみで学習。バッチサイズは16かそれ以上とした。
    166
    E4T
    [TAU, NVIDIA]
    Figure citation | Designing an Encoder for Fast Personalization of Text-to-Image Models [Gal et al., 2023] [45]
    ◀ [45: Figure 5] より引用。
    入力画像からのスタイル抽出
    や、新規概念の画風や背景の
    変 更 にも 汎 化 している。ま
    た、新規概念を複数描画する
    ことも破綻なく行えている。
    ▲ [45: Figure 4] より引用。
    新規概念の同一性とプロンプト類似性のトレードオフ。右上にあるほど良い。左図の他手法との比較で
    はE4Tが圧倒。右図ではE4Tの設定差異を比較し、提案した各手法を組み合わせた場合がバランスの良
    い結果を与えることを示した。

    View Slide

  167. 167
    拡張技術【画像編集】
    補遺C

    View Slide

  168. 拡散モデルによる高精度な画像生成技術は画像編集にも応用されている
    入力画像の一部をマスクして単にInpaintingを適用する手法から発展して、編集内容を直接指示してより柔軟に生成する手法も研究されている。昨今のText2Image
    モデルはテキストの制御性の観点から対象の細かな一貫性を保った複数パターン生成は苦手としているが、画像編集技術により差分生成などへの応用も期待される。
    Aug 02, 2022 | Prompt2Prompt [Google Research, TAU]
    プロンプトを書き換えることで画像を編集
    Oct 17, 2022 | Imagic [Google Research, Technion, WIS]
    画像の一貫性を保ったままプロンプトで編集する技術
    Oct 20, 2022 | DiffEdit [Meta AI, Valeo.ai]
    編集に必要なマスクを自動推定し編集性向上
    Nov 17, 2022 | InstructPix2Pix [UC Berkeley]
    部分的な編集指示に応じて画像編集可能な汎用モデルを学習
    168
    拡散モデルの拡張技術【画像編集】
    Dec 01, 2022 | Shape-Guided Diffusion [UC Berkeley, Meta AI, HKU, BMW]
    編集領域を明示的に指定した画像編集
    Dec 08, 2022 | SINE [RU, Snap]
    画像全体のスタイルや解像度変更などを含む柔軟な編集を実現
    Feb 06, 2023 | pix2pix-zero [CMU, Adobe Research]
    編集元のプロンプトや追加学習の不要な画像編集
    Feb 15, 2023 | PRedItOR [Adobe Applied Research]
    unCLIPの拡散事前分布を応用した、追加学習不要な画像編集

    View Slide

  169. Aug 02, 2022 | プロンプトを書き換えることで画像を編集
    既に生成された画像とそのプロンプトの組に対して、プロンプト中の要素を脱落、置換したり、要素を追加、挿入することで画像編集を実現。
    ❖ Text2ImageにおいてCross-Attentionが画像中の空間配置に影響することを分析
    単にプロンプトを書き換えて画像生成するだけでは、元画像から変更されてほしくない部分の一貫性を担保できない。この課題を解決するため、テキストで条件付けする際のCross-Attentionにおいて、各
    トークンが画像領域に張るAttentionマップに着目。 各トークンが最終出力画像の対応する領域(e.g., bearという単語であれば出力画像の熊の領域)に特に注目していることを示し、 元画像を生成する際
    にモデル内で計算されたCross-Attentionの注意マップを編集画像の生成時に再利用することで、編集前後の空間配置を維持するアイデアを提案した。
    169
    Prompt2Prompt
    [Google Research, TAU]
    Figure citation | Prompt-to-Prompt Image Editing with Cross Attention Control [Hertz et al., ICLR 2023] [46]
    ▲ [46: Figure 3] より引用。
    編集されたプロンプトで画像生成する際の各時刻で、編集前後で共通するトークンの注意マップを元画像生
    成時の注意マップで置き換える。この置換は必ずしも全ての時刻で行う必要はなく、逆拡散過程の初めの適
    当な割合の時刻に限定することで、元の空間配置に過度に縛られない柔軟な編集が可能となる。
    ▲ [46: Figure 1] より引用。

    View Slide

  170. Oct 17, 2022 | 画像の一貫性を保ったままプロンプトで編集する技術
    入力画像と編集後の状態を表すテキストから、画像の大局を維持しつつ必要箇所だけ変更されたような画
    像生成を実現。ただし画像全体が改めて生成されるため、背景等の厳密な一致は期待できない。
    ❖ 3ステップの学習で画像編集
    編集内容を指示したテキストの埋め込みを   とする。初めに、事前学習済みText2Imageモ
    デルのパラメータを凍結した状態で、与えられた編集前画像が生成できるように  を最適化
    して  を得る。ただし、埋め込みが互いに潜在空間内で近傍に留まるよう、最適化は少ない
    ステップ数で行う。次に、  を入力して編集前画像が生成できるように、拡散モデル全体を
    ファインチューニングする。ここまでで、モデルは編集前画像を忠実に再現できるよう再調整
    されている。最後に、  と   を適当な比率   で線形補間することにより、元の画像の表
    現を極力維持した状態で所望の画像編集が達成される。
    ❖ 埋め込みの線形補間係数  による品質のトレードオフを定量評価
      が 0.6~0.8 程度の範囲にあるとき、編集性(テキスト合致度)と生成品質のバランスが良
    いことが観察された。
    170
    Imagic
    [Google Research, Technion, WIS]
    Figure citation | Imagic: Text-Based Real Image Editing with Diffusion Models [Kawar et al., 2022] [47]
    ▲ [47: Figure 7] より引用。
    右に向かって編集テキストの影響を強めていく様子。上段はモデルのファインチューニングを行わず、下段は行った場合
    における結果を表している。上段では右に行くほど元画像の性質が失われ、単なるText2Imageの様相を呈している。一
    方、下段では元画像の全体的な形を残したまま、プロンプトに即した生成が実現されていることがわかる。
    ▲ [47: Figure 1] より引用。

    View Slide

  171. Oct 20, 2022 | 編集に必要なマスクを自動推定し編集性向上
    明示的なマスク入力なしに、変更の必要のない背景等を不変に保つ編集が可能。事前学習済みモデルを活
    用するが、追加の学習は不要。
    ❖ 編集指示と参照テキストを比較しマスク生成
    参照テキストとして、入力画像に関するキャプションが与えられていればそれを、与えられて
    いなければ∅を考える。 入力画像に50%の強度でガウスノイズを付与し、参照テキストと編集
    指示をそれぞれ条件付けとして拡散モデルによりノイズ推定。その差分が閾値を超えたピクセ
    ルをマスク化する。安定したマスクを生成するため、異なるガウスノイズをデフォルトで10種
    類用意して同様の処理を行い、外れ値を除いた上で平均化、および正規化する。
    ❖ ODE化したDDIMの利用により精緻で自然な編集を実現
    DDIMを常微分方程式(ODE)と見做すことで、元画像を任意の時刻のノイズ付与画像へ符号
    化・復元できる性質を利用。まず、元画像を非条件付けDDIMによって特定時刻まで符号化。
    その後、編集指示と生成済みマスクを用いて復元過程を処理することで、最終的に編集された
    画像が出力される。 具体的には、編集指示によってDDIMの復元過程を条件付けしつつ、マス
    クの外側は各時刻で元画像を符号化して得られたピクセルに都度置換する。これにより、最終
    出力ではマスクの外側が元画像から変化しないことを担保しつつ、領域境界などをより自然に
    生成することが可能。
    171
    DiffEdit
    [Meta AI, Valeo.ai]
    Figure citation | DiffEdit: Diffusion-based semantic image editing with mask guidance [Couairon et al., ICLR 2023] [48]
    STEP1でマスクを生成。STEP2で元画像をある程度ノイズが付与された状態へ符号化。STEP3にて、編集指示とSTEP1で生
    成したマスクを用いてノイズ除去を行い、画像編集を実現。
    ▼ [48: Figure 2] より引用。
    ▲ [48: Figure 1] より引用。  

    View Slide

  172. Nov 17, 2022 | 部分的な編集指示に応じて画像編集可能な汎用モデルを学習
    入力画像に特化した学習や事前準備を必要としない画像編集手法として、画像編集用のモデルを新たに学習するアプローチ。
    ❖ 動詞ベースの編集指示に対して編集前後の画像を紐付けたデータセットを構築し、StableDiffusionを拡張
    初めにLAION-Aesthetics V2 6.5+から700編のプロンプトを選び、動詞ベースの編集指示とそれによって書き換えられたプロンプトの組を人手で作成(e.g., 「乗馬する少女の写真」という元プロンプト
    に対し、「彼女を竜に乗せなさい」という指示と「竜に乗る少女の写真」という変更後のプロンプトを作成)。これらを用いてGPT-3 Davinciをファインチューニングし、任意のプロンプトについて編集
    指示と変更後のプロンプトを出力できるモデルを得る。これらの編集前後のペアから画像生成を行い、編集指示と編集前後の画像ペアというデータが揃う。ただし、単純に編集前後のプロンプトで画像生
    成するだけでは大幅に異なる画像ペアとなる可能性が高いため、編集前後の類似度を変えた100種類の画像ペアをPrompt2Promptを用いて生成し、さらにCLIPによるフィルタリングを経てデータを厳選。
    このようにして構築されたデータセットに基づき、編集前画像と編集指示を条件付けとして編集後の画像が出力されるようStableDiffusionをファインチューニングする。
    172
    InstructPix2Pix
    [UC Berkeley]
    Figure citation | InstructPix2Pix: Learning to Follow Image Editing Instructions [Brooks et al., 2022] [49]
    ▲ [49: Figure 2] より引用。
    編集指示と、それにより編集される前後の画像ペアのデータセットを構築。これを用いてStableDiffusionを学習し、任意の編集指
    示に対して画像を編集できるモデルを獲得。これをInstructPix2Pixとした。
    ▲ [49: Figure 1] より引用。

    View Slide

  173. Dec 01, 2022 | 編集領域を明示的に指定した画像編集
    ユーザーによるセグメンテーションマスクが利用できる場合には有効な手法となりうる。StableDiffusionのマスク
    を用いたInpainting機能等と比較しても、より形状や編集指示に忠実な生成が可能となることを示した。
    ❖ Inside-Outside Attentionの提案
    テキストを条件付けとしたCross-Attentionにおいて、 各トークンが与えられたマスクの内側と外側の
    どちらの画像領域に影響すべきかでグループ分け。 同様に、ピクセルに対するSelf-Attentionではマス
    クの内外でピクセルをグループ分けする。各Attention層において、Keyとなる要素が内側グループに属
    する場合は計算結果の注意マップの外側を、 Key となる要素が外側グループに属する場合は注意マップ
    の内側をそれぞれマスクすることで、マスク内外の要素が適切に分離されることを促す機構を考案した。
    ❖ Inversion
    DDIMによる画像の符号化を行うことで、元画像の情報を含んだ初期状態となるノイズ画像を得る。 この
    とき、元画像を表すプロンプトで条件付けし、かつ Inside-Outside Attention を適用する。これにより、
    特に編集前後で共通のトークンが存在する場合、元プロンプトの内容とそれに対応する形状の情報が後続
    の処理に伝達されやすくなると主張。このようにして元画像から符号化されたノイズをもとに、編集され
    た画像を表すプロンプトとInside-Outside Attention を用いて画像生成を行うことで編集画像を得る。
    173
    Shape-Guided Diffusion
    [UC Berkeley, Meta AI, HKU, BMW]
    Figure citation | Shape-Guided Diffusion with Inside-Outside Attention [Park et al., 2022] [50]
    プロンプト中の「horse」が張る注意マップの比較。通常のAttentionでは画像中の馬以外の領域にも曖昧に重み
    が分散しており、編集結果は馬の頭部が消失するなど指示通りの生成ができていない。一方、Inside-Outside
    Attentionでは与えられたマスク内部にのみ重みが分布するため、より適切な編集結果が得られている。
    ▼ [50: Figure 4] より引用。
    手法の全体像。元画像を符号化したノイズを用いて編集画像を生成する。
    ▼ [50: Figure 2] より引用。

    View Slide

  174. Dec 08, 2022 | 画像全体のスタイルや解像度変更などを含む柔軟な編集を実現
    事前学習モデルの表現力を活かしつつ、元画像の特徴や構図を適切に反映させた編集を行うため、モデルを2つ用いる。
    ❖ モデルベース分類器不使用型誘導の提案
    テキストだけでは元画像と同じ構図を維持できないという課題、および1枚の画像だけではモデルが容易に過学習してしまうという問題に対し、元画像でファインチューニングしたモデルを用いた誘導手法
    を考案。まず、DreamBoothと同様に「a photo/painting of a [∗] [class noun] 」というプロンプトから入力画像を生成できるよう、事前学習モデルをファインチューニング。 画像編集の際は、事前学習
    モデルに編集指示のプロンプトを与えた出力と、 このファインチューニングしたモデルの出力を線形補間し分類器不使用型誘導を行う。 このとき、ファインチューニングモデルを用いるのは逆拡散過程の
    初めの数割のステップのみとすることで、初期の構図確定の誘導としての役割を期待。残りのステップは事前学習モデルと編集指示のみで通常通り画像生成を行う。
    174
    SINE
    [RU, Snap]
    Figure citation | SINE: SINgle Image Editing with Text-to-Image Diffusion Models [Zhang et al., 2022] [51]
    ファインチューニングの際は元画像をランダムクロップしてパッチ化し、事前学習モデルの想定解像度に正規化して使用。フーリ
    エ変換に基づく各パッチの位置埋め込みを追加の条件付けとし、パッチ部分が出力されるよう拡散モデルを学習する。この工夫に
    より、拡散モデルが画像の意味的内容と位置を直接結びつけて学習してしまうのを緩和。画像編集時に元画像とは異なる任意の解
    像度で自然に生成できるようになる。
    ▼ [51: Figure 2] より引用。ただし、縦並びを横並びに改変。
    ▲ [51: Figure 1] より引用。
    スタイルの変更、描画対象の改変、解像度の変更など、様々な種類の編集を統一的に行うことができる。

    View Slide

  175. Feb 06, 2023 | 編集元のプロンプトや追加学習の不要な画像編集
    事前学習済みStableDiffusionとGPT-3を用いた画像編集手法。入力画像に対する詳細なキャプションは不要。
    また、入力画像にモデルを特化させるための追加学習も不要の、Zero-Shot転移を実現する。
    ❖ DDIM Inversionを正則化して画像符号化
    DDIM Inversion では画像を決定的にノイズ空間へ変換できるが、 多くの場合でそのような変換後
    の画像が正規分布の要件を満たさなくなっている(=DDPMで仮定される事前分布と乖離する)点
    を指摘。これを解消するため、推定ノイズに対し解像度を繰り返し半分にプーリングした 4階層の
    ノイズマップを用意し、空間方向の自己相関係数を用いた正則化項による誘導を設計した。符号化
    の際は、予めBLIPにより元画像に付与したキャプションをCLIPで埋め込み、条件付け。
    ❖ 画像編集
    右に示すように、GPT-3とCLIP特徴を用いて編集前後のテキストに基づく編集方向を算出。これを
    U-NetにおけるCross-Attentionに反映させることで、DDIM Inversionにより符号化されたノイズ
    から編集指示に従った画像生成を実現する。ただし、単にこの差分を加えただけでは元の空間構造
    を保持した生成ができないことから、元画像へのキャプション埋め込みを条件付けとして、元画像
    を再構成。 この時のAttentionマップと、 編集方向を適用して画像生成した際のAttentionマップ
    のフロベニウスノルムを制約に誘導することで、元画像の構造情報が編集後にも維持される。
    175
    pix2pix-zero
    [CMU, Adobe Research]
    Figure citation | Zero-shot Image-to-Image Translation [Parmar et al., 2023] [52]
    ▲ [52: Figure 1] より抜粋。
    編集前後を端的に指定するだけで画像を編集できる。
    ◀ [52: Figure 2] より引用。
    編集前後のテキストそれぞれに関連する文
    章をGPT-3によって大量生成し、CLIP埋め
    込みの平均をとって編集方向と見做す。
    ▲ [52: Figure 3] より引用。
      pix2pix-zeroのパイプライン。

    View Slide

  176. 176
    拡張技術【表現力】
    補遺D

    View Slide

  177. 既存モデルの拡張や応用により、生成品質を向上させたり表現の幅を広げる試みも
    ❖ 推論時の誘導方法の工夫
    Oct 03, 2022 | Self-Attention Guidance [KU]
    注目領域の精緻化を促進して推論時の生成品質向上
    Dec 09, 2022 | StructureDiffusion [UC Santa Barbara, UC Santa Cruz, Google]
    プロンプトを分解し要素同士のもつれをほぐす手法
    177
    拡散モデルの拡張技術【表現力】
    ❖ 画像生成の表現の幅を拡張
    Oct 28, 2022 | MagicMix [ByteDance]
    意味混合という新たなタスクとベースラインの提案
    Dec 07, 2022 | M-VADER [Aleph Alpha GmbH, TU Darmstadt]
    プロンプトをテキストだけでなく画像を含む形へ拡張

    View Slide

  178. Oct 03, 2022 | 注目領域の精緻化を促進して推論時の生成品質向上
    Self-Attentionの注目領域が細部の特徴である高周波数成分を含むことを分析し、その性質を利用。
    ❖ 逆拡散過程の各時刻において、Self-Attentionに基づき出力を加工して生成を誘導
    初めに、分類器不使用型誘導における ∅ と同様の考え方により、各時刻の出力をぼかしたものを基準として誘導することで、細部がより精緻化され品質向上することを示した。一方、出力全域をぼかすと
    特に高い誘導係数において生成が不安定となることを確認し、部分的にぼかしを適用することを提案。ランダムマスクなど複数の方法を比較した上で、U-Net内のSelf-Attentionが閾値以上の注意度を算
    出した領域のみ選択的にぼかす戦略が最も品質向上に寄与することを結論付けた。 ただし、モデル中のどのSelf-Attentionを用いるかはタスクに応じて選択。ヘッドに関しては平均を取る。また、提案手
    法をLDMにおける潜在特徴に適用しても同様に生成品質が向上することを確かめた。
    178
    Self-Attention Guidance
    [KU]
    Figure citation | Improving Sample Quality of Diffusion Models Using Self-Attention Guidance [Hong et al., 2022] [54]
    ▲ [54: Figure 1] より引用。 ▲ [54: Figure 2] より引用。

    View Slide

  179. Dec 09, 2022 | プロンプトを分解し要素同士のもつれをほぐす手法
    CLIPではテキスト処理に因果的注意マスク(i.e., Transformerのデコーダにおける三角マスク)が適
    用されるため、各トークンは自身より前の要素全てから情報を集約する。このとき、元データセット
    では稀少な不自然な指示が暗に補正されてしまう現象が指摘されている(e.g., 「a yellow apple and
    red bananas」では、 bananasはyellowともredとも結びつく結果、 より自然な黄色のバナナを生成
    しやすい)。このように、プロンプトを一連の系列として入力する従来手法では意図せぬ属性混合や
    変化が生じてしまう問題を緩和。
    ❖ 構文解析器を用いてプロンプトを個別に処理
    構文解析器でプロンプトを名詞に紐づく階層的な部分領域に分割。各部分テキストをそれ
    ぞれ CLIP で符号化し、 プロンプト全体を符号化した特徴ベクトル列と該当トークン部分
    を入れ替えて、プロンプトと同じ系列長の特徴ベクトル列を部分領域の数だけ作成。これ
    らをそれぞれCross-AttentionのValueに射影して用いる。ただし、Keyは全体のレイアウ
    トを適切に決定するため元プロンプトからのみ作成する。このようにして分岐させた処理
    と元プロンプトによる結果を併せた平均を取り、Cross-Attentionの最終出力とする。
    179
    StructureDiffusion
    [UC Santa Barbara, UC Santa Cruz, Google]
    Figure citation | Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [Feng et al., ICLR 2023] [55]
    ▲ [55: Figure 1] より引用。
    俗に「色移り」として知られる現象など、プロンプトが意図通りに反映されない問題を改善。
    ▲ [55: Figure 3] より引用。

    View Slide

  180. ❖ 評価用ベンチマークABC-6KとCC-500を構築
    MSCOCOから2種類以上の色が異なる対象に結びつくプロンプトを収集。さらにそれらの
    色を入れ替えたプロンプトを作成し、合計で6400編のプロンプトからなるABC-6Kを構築。
    また、先述の例のように2つの物体を単にandで繋いだだけのより単純なプロンプトから成
    るCC-500を構築。従来手法と比べて人手評価で品質向上(とはいえ、CC-500の評価では
    2物体に正しい色を付与した画像生成ができる割合は2割弱、描画対象のいずれかまたは両
    方が消失する割合が6割程度であることに鑑みると、依然として改善の余地が垣間見える)。
    ❖ プロンプト分割にシーングラフを適用することも可能
    入力テキストからシーングラフを生成することで、文中の物体やその関係をよりグラフィ
    カルに捉えることができる。 StableDiffusionとの定性比較では、 構文解析器を用いた場
    合ほど顕著な性能差は見られなかったが、応用の幅が広がることが期待される。
    180
    StructureDiffusion
    [UC Santa Barbara, UC Santa Cruz, Google]
    Figure citation | Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [Feng et al., ICLR 2023] [55]
    ▲ [55: Figure 6] より引用。
    テキストからシーングラフを構築するSceneGraphParserを利用して生成。
    ▲ [55: Figure 4] より引用。
    ABC-6Kにおける定性比較。物体レベル、およびシーンレベルでの構成性が向上。

    View Slide

  181. ❖ プロンプト長削減と性能劣化の関係を分析
    一般的な自然言語モデルでは、 複数のテキストを同時にバッチ処理する際、テキストの最
    大系列長に合わせて後半部分を便宜上 [PAD] トークンで埋める処理を行うが、この部分は
    Attentionにおいてはマスクにより無視され、出力に影響を及ぼさないよう工夫されること
    が多い。 一方、StableDiffusionはCLIPを用いる際にこのような [PAD] へのマスク適用を
    しておらず、最大系列長の77トークンまで並べた [PAD] が Attention 中でそれぞれ個別
    に他トークンと相互作用し、情報を集約・伝達している。
    本論文ではCLIPの出力において、この [PAD] を全て残した場合、プロンプト末尾の隣にあ
    るひとつだけを残した場合、全て除外した場合、さらに極端に [BOS] と [PAD] ひとつだけ
    残した場合を比較し、性能劣化の度合いを調べた。 その結果、プロンプトと [PAD] ひとつ
    の組み合わせは [PAD] を全て残す場合と比較して大きな性能劣化は見られないことを確認。
    また、[BOS] と [PAD] だけの極端なケースは定量値は大きく劣化するものの、画像全体の
    構図や配色は概ね保存されていることを確認し、 このような特殊トークンに多くの文脈情
    報が集約されていることを定性的に示した。
    以上の結果に基づき、プロンプトと [PAD] ひとつの組み合わせを用いることで、品質を維
    持しつつ計算量を削減できることを示唆した。 特にStructureDiffusionは構文解析により
    複数のValueを計算することから計算量が増大するため、有効な緩和策となりうる。
    181
    StructureDiffusion
    [UC Santa Barbara, UC Santa Cruz, Google]
    Figure citation | Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [Feng et al., ICLR 2023] [55]
    ▲ [55: Figure 7] より引用。
    いずれもレイアウトは大まかに共通しており、特殊
    トークンが担う役割の大きさを窺わせる。
    ▲ [55: Figure 7] より引用。
    FIDは低い方が、ISは高い方が品質が高いことを示
    す指標。全ての [PAD] を用いる場合が最高品質だ
    が、[PAD] をひとつにしても同程度の品質。
    ▲ [55: Figure 5] より引用。
    CC-500における定性比較。色移りや物体消失の問題を緩和。

    View Slide

  182. Oct 28, 2022 | 意味混合という新たなタスクとベースラインの提案
    画像またはテキストの入力に対し、異なる意味を持つテキストを与えて意味的に混合した概念を画像として
    生成する手法。スタイル転移や新規概念生成、種族混合などの応用例を提示。
    ❖ 事前学習モデルを用い、レイアウトと内容の生成段階に分解して実現
    入力が画像の場合、まず逆拡散過程の中間区間におけるノイズ付与画像群    を生成。混合
    したい概念を表すテキストを条件付けに   からノイズ除去を行いつつ、その結果と先程用意
    したノイズ付与画像群の対応する時刻の画像を線形補間して、次のステップの入力としていく。
       まで生成することで元入力によるレイアウトが反映される仕組み。 以降は条件付けテキス
    トのみで最後まで生成する。 入力がテキストの場合は事前学習モデルで予め   まで画像を生
    成し、同様に生成を行う。レイアウト生成のための時刻や線形補間の度合いを調整することで、
    入力と条件付けの間の混合度を調整できる。
    ❖ 概念強調や概念除去も
    画像テキスト間の Cross-Attentionの重みを特定トークンに関して調整することで、条件付けの
    強さを調整可能。また、重みを負符号にすることで、形状を維持したまま条件付けテキストの要
    素を漂白していけるという興味深い性質も示された(e.g., ハンバーガーの画像に対しテキストで
    ハンバーガーと条件付けしつつその重みを負にすると、形や配色が同じ飛行船や蟹に変化する)。
    182
    MagicMix
    [ByteDance]
    Figure citation | MagicMix: Semantic Mixing with Diffusion Models [Liew et al., 2022] [56]
    ▲ [56: Figure 1] より引用。
    提案手法による意味混合の例。
    ▲ [56: Figure 4] より引用。
      MagicMixのパイプライン。

    View Slide

  183. Dec 07, 2022 | プロンプトをテキストだけでなく画像を含む形へ拡張
    画像とテキストを任意に組み合わせたマルチモーダルな入力に基づく画像生成を実現。複数対象の同時配置や意味的
    混合、バリエーションの創出、スタイル転移など、応用の幅は広い。
    ❖ S-MAGMAの提案
    マルチモーダルな入力を処理するため、GPT-3から派生したLuminous 13Bと呼ばれる事前学習済み自然
    言語処理モデルを拡張。MAGAMAと呼ばれる先行研究に倣い、CLIPの画像エンコーダといくつかの適応
    層等を付け加え、画像キャプショニングタスクでファインチューニング。このとき、画像入力は144個の
    トークン列に符号化される。 また、SGPTと呼ばれる手法で提案された対照学習に基づき Luminous 13B
    のバイアス項を別途ファインチューニング。これらを組み合わせたマルチモーダルなモデルを Luminous
    S-MAGAMAとし、提案手法の入力部に使用した。
    ❖ M-VADERの提案
    モデルの学習時は、通常のText2Imageモデルと同様に画像とテキストのペアを使用する。 8割の確率で
    通常通り学習。 2割の確率で、 出力すべき画像自体をLuminous S-MAGAMAで符号化し、これを条件付
    けとしてStableDiffusionを追加学習。推論時は [, , , , ...] のよ
    うに任意数の画像とテキストのペアを互い違いに並べ、 それぞれを符号化したものを結合して用いる。
    ただし、画像部分のトークン数が一般に多くなりやすいことから、Attentionにおける画像トークンへの
    重みを一律で下げることでバランスを調整する工夫を設けた。
    183
    M-VADER
    [Aleph Alpha GmbH, TU Darmstadt]
    Figure citation | M-VADER: A Model for Diffusion with Multimodal Context [Weinbach et al., 2022] [57]
    ▲ [57: Figure 3] より抜粋。
    テキストと画像を自由に組み合わせたプロンプトから画像生成する例。
    ▲ [57: Figure 2] より引用。

    View Slide

  184. 184
    拡張技術【操作性・制御性】
    補遺E

    View Slide

  185. プロンプト以外のモダリティを追加入力する機構を備え、描画対象の位置や姿勢を自在に制御する拡張手法
    従来のプロンプト駆動型Text2Imageでは、人物等を複雑な姿勢で描画しようとしたり、複数の物体が配置されたシーンを意図通りに生成したりすることに困難があった。
    このような課題を解決するため、独自の記号操作をプロンプトに導入したり、セグメンテーションマップやポーズ表現用のボーンリグで画面構成をより精緻に描画可能に
    したりする手法が次々と提案されはじめている。これらは既存の学習済みモデルに適用可能であるため拡張性が高く、コミュニティでも急速に広まりつつある。
    Jun 03, 2022 | Composable Diffusion [UIUC, MIT]
    組み合わせ可能な拡散モデル
    Jan 17, 2023 | GLIGEN [UW–Madison, Columbia Univ., Microsoft]
    接地情報に基づく補助入力で学習済みモデルを制御
    Feb 10, 2023 | ControlNet [Stanford Univ.]
    学習済み拡散モデルに多様な補助入力経路を追加
    Feb 14, 2023 | Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU]
    分類器誘導を拡張し、再学習なしに補助入力経路を追加
    185
    拡散モデルの拡張技術【操作性・制御性】
    Feb 16, 2023 | MultiDiffusion [WIS]
    追加学習なしで任意解像度における空間制御性を付与
    Feb 16, 2023 | T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT]
    学習済みモデルに眠る表現力を精緻な制御へ転用
    Feb 22, 2023 | Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA]
    MCMCに基づく新たなサンプリングと構成的生成の提案
    Feb 25, 2023 | Directed Diffusion [VUW, Google Research]
    交差注意マップ誘導による物体描画領域の制御

    View Slide

  186. Jun 03, 2022 | 組み合わせ可能な拡散モデル
    表現力の高い昨今の拡散モデルでも、 指示した属性と物体の対応を誤ったり、 複数物体の位置関係が正しく反
    映されないことも多い。 このような課題に対し、 各描画対象に対して個別適用した拡散モデルの出力を組み合
    わせることで、 従来手法より極めて複雑なシーンに対しても汎用的に表現力を向上させる手法を提案。 事前学
    習済みモデルにも適用可能で、Zero-Shotで難易度の高い指示での生成を実現。
    ❖ エネルギーベースモデル(EBM)と拡散モデルの類似性を利用
    EBMでは一般に指数型分布族を扱い、ある変数の確率密度は指数関数の形で表現され、サンプリン
    グ過程は対数確率密度の勾配を利用する。補遺F-2-1 にて後述するように、データの対数確率密度
    勾配を推定する『スコアマッチング』と拡散モデルのサンプリング過程は同値であり、したがって
    EBMとも本質的に同一視できることから、拡散モデルで推定される各ステップのノイズを非明示的
    にパラメータ化されたEBMと見做して理論展開。Text2Image の文脈において、プロンプトにて指
    定された複数概念の接続(AND)と否定(NOT)を提案。以下概要は簡単のため時刻変数を省略。
    186
    Composable Diffusion
    [UIUC, MIT]
    Figure citation | Compositional Visual Generation with Composable Diffusion Models [Liu et al., ECCV 2022] [58]
    ▲ [58: Figure 1] より引用。
    複数概念や位置関係、複数属性、あるいは「ある属性でないこと」を自由に組み合わせた生成の品質向上。(e)で
    は、各物体の座標値を射影する線形層を追加で設け、時刻埋め込みと同様にモデルの条件付けに用いた。
    対数密度勾配(スコア)
    エネルギー関数
    EBM
    定数の違い 定数の違い
    定数の違いを無視すれ
    ば本質的に同一視可能

    View Slide

  187. ❖ 概念接続(AND)
    複数の確率分布の同時確率はそれぞれの確率密度の積で表現できるが、これはEBMにおいて各
    エネルギー関数の和を考えることに他ならない。 同様の発想から、概念接続では AND で接続
    した複数プロンプトを個別の条件としてそれぞれ拡散モデルに与え、得られた概念ごとの推定
    ノイズを加算して用いる。また、実用上概念ごとの反映度合いを制御可能にするため、概念ご
    とに適用される任意係数も導入。分類器不使用型誘導を拡張した形が得られる点も興味深い。
    187
    Composable Diffusion
    [UIUC, MIT]
    Figure citation | Compositional Visual Generation with Composable Diffusion Models [Liu et al., ECCV 2022] [58]
    複数の独立条件
    先行研究に基づき分解
    最終的な推定ノイズ
    条件付けごとの重み
    対数密度 否定条件
    ▲ [58: Figure 2] より引用。
    提案手法のパイプライン。各時刻において条件付けごとにノイズ推定し、その結果の重み付け和でノイズ除去。
    対数密度 部分的にネガティブプロンプト的な役割を担う
    ❖ 概念否定(NOT)
    ある任意概念が生成結果に出現しないことを条件付けする概念否定は、それ単体では不良設定
    問題であり出力の低品質化を招く可能性があるため、他の条件付けと併用して用いることを提
    案している。実用上の処理としては、否定された概念に対応する推定ノイズの符号が反転する。

    View Slide

  188. Jan 17, 2023 | 接地情報に基づく補助入力で学習済みモデルを制御
    StableDiffusionのような成功裡にある学習済みモデルについて、その表現力を損なわずにテキスト以外の
    条件付けを用い、制御性を改善することを目指した。 提案手法では、事前学習済みモデルのパラメータは
    凍結し、追加層のみを学習することでこれを実現。 言語情報を効果的に取り込む工夫により、データセッ
    ト中で矩形領域等とのペア情報が与えられていなかったような、 接地(情報同士を適切に結びつける)問
    題としては未知の対象への汎化性能も獲得。
    ❖ 入力の定義
    通常のテキストプロンプトに加え、任意数の『接地体』と『空間的接地設定』のペアを与える。
    接地体は生成画像中で空間的な条件を操作される対象で、テキストや参考画像で指定。接地設
    定はペアとなる接地体への空間的な描画指示で、矩形領域やキーポイントを与える。
    ❖ 接地情報のトークン化
    例えばテキストと矩形領域のペアでは、テキストを通常プロンプトと同様のモジュールで符号
    化した特徴ベクトル(e.g., StableDiffusionであればCLIP最終出力の [EOS])と、矩形領域の
    角座標をフーリエ埋め込みで特徴ベクトル化したものを結合。これを線形層に通して接地情報
    ペアそれぞれのトークンを得る。 接地体が画像の場合は、CLIP 画像埋め込みの [CLS] をテキ
    ストの特徴空間側へ射影して利用。また、接地設定がキーポイント入力の場合は矩形領域と同
    様の特徴ベクトル化に加え、同一人物に帰属する点群であることがわかるよう人物番号の埋め
    込みを接地体の埋め込みに加算する。
    188
    GLIGEN
    [UW–Madison, Columbia Univ., Microsoft]
    Figure citation | GLIGEN: Open-Set Grounded Text-to-Image Generation [Li et al., 2023] [59]
    ▲ [59: Figure 10] より引用。
    拡散モデルを利用するため、自然に画像接地のInpaintingも可能。
    ▲ [59: Figure 1] より引用。
    補助入力に接地した多様な生成制御。例はそれぞれ、領域とテキストの結びつけ(左上)、領域と参考画像の結び付け
    (右上)、領域とテキストの組み合わせ、およびスタイル画像の適用(左下)、キーポイントによる生成(右下)。

    View Slide

  189. ❖ 条件緩和したデータセット作成で多様性を確保
    理想的には、キャプション、およびキャプション中の各名詞句の矩形領域がアノテーションされたデータが望ましい。一方、
    GLIGEN の問題設定に完全にそぐうようなデータセットは潤沢ではないため、物体検出用のCOCOのように、固定されたクラ
    スラベルと矩形情報が与えられたデータに空のキャプションを付与して用いたり、物体検出用の情報とキャプションが別々に
    与えられたデータを用いたりしてデータセットの規模拡大を図った。この効果もあり、GLIGEN の推論時はプロンプト中に存
    在しない接地体を指定しても問題なく動作する。全ての描画対象の説明を含むような長大なプロンプトの必要性が緩和された。
    ❖ Gated Self-Attention の導入
    右図のように、学習済みモデルのAttention層に挟まれる形で、接地情報で条件付けする新たなAttention層を追加。 前の層
    から受け渡されたトークン列に接地情報トークンを結合し、はじめに Self-Attention を適用。その結果から画像の潜在特徴
    に対応する元のトークン列のみ取り出し、学習可能なスカラ係数等を乗じた上で元のトークン列に加算する。学習安定化のた
    め、この係数は学習初期は0となるよう設計されている。Cross-Attentionのパターンよりも良好な結果が得られたとのこと。
    ❖ 推論時のスケジューリング
    提案手法で訓練されたモデルも全体的に高品質だが、オリジナルのStableDiffusionに生成品質が劣る場合もあることを観測。
    したがって、推論時はノイズ除去のある任意ステップまでGated Self-Attentionを適用して接地情報を利用し、それ以降は
    情報経路を遮断することで事前学習済みモデルそのものの挙動となるようスケジューリングする工夫を提案。 逆拡散過程の
    初期では全体的な構図決定が、後期では出力の精緻化が進行していることを踏まえている。これにより視覚的な品質が向上。
    189
    GLIGEN
    [UW–Madison, Columbia Univ., Microsoft]
    Figure citation | GLIGEN: Open-Set Grounded Text-to-Image Generation [Li et al., 2023] [59]
    ▲ [59: Figure 2] より抜粋。
    訓練データの種類。左例が最も理想的。中と右は、既存の大規模な物体検出用
    データセットを転用する工夫の例。
    ▲ [59: Figure 3] より引用。
    事前学習済みモデルに、接地情報トークンを取り
    込むモジュールを追加。

    View Slide

  190. Feb 10, 2023 | 学習済み拡散モデルに多様な補助入力経路を追加
    課題意識はGLIGENと類似。事前学習済みの StableDiffusion などのモデルに対してテキスト以外の
    条件付けを取り込む経路を学習させることにより、 操作性の向上を実現。 汎用的な学習方式を提案
    し、幅広い種類の条件付けに対して、各々に特化した忠実な制御モデルが獲得できることを示した。
    ❖ 追加パラメータの導入を工夫し、高速で効率的な学習を実現
    学習済みモデルの表現力を維持するため、端的には学習済みパラメータをそれぞれ複製
    し、重みゼロで初期化された Conv層を通して元のモデルに接続する経路を設ける。 元
    のモデルパラメータは凍結。これにより学習初期は元モデルと同等の挙動を示し、安定
    的に学習可能。通常のファインチューニングのように元モデルの破壊的変更が起こらな
    いため、比較的小規模なデータセットでも過学習しにくく、よく汎化する。
    ❖ Zero Convolution の提案
    前述のように、重みとバイアスがゼロで初期化された 1x1 Conv層を導入。複製された
    層を挟む形でこのZero Conv層を適用し、条件付け入力を処理するモジュールとする。
    190
    ControlNet
    [Stanford Univ.]
    Figure citation | Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60]
    ▲ [60: Figure 9] より抜粋。 OpenPoseのボーンから条件付け生成。右例のように同時にプロンプトを与えることも可能。
    ▲ [60: Figure 11] より抜粋。 セグメンテーションから条件付け生成。ADE20Kで定義された色と対象の対応を学習している。
    ▲ [60: Figure 15] より抜粋。
    線画からアニメ風生成。  
    ◀ [60: Figure 1] より引用。
    左上の元画像から、左下のCannyエッジを抽
    出。このエッジを条件付けに画像生成。
    Zero Conv
    複製パラメータ
    (学習可能)
    条件付け
    元パラメータ(凍結)

    View Slide

  191. ❖ 使用可能な計算資源に応じた訓練戦略を提案
    家庭用計算環境など比較的計算資源に乏しい場合は、ControlNetからStableDiffusionへの接続をU-Netの中間ブロック
    のみとすることで、要求計算量を下げる方法を提案(RTX 3070Ti にて約 1.6倍の高速化)。条件付けが獲得されてきた
    ことを確認できた段階で、切断した接続を復活させて継続学習させる。 一方で、GPU クラスタなどの強力な計算資源と
    大規模なデータセットが使用可能な場合は、 十分に(50Kステップ程度)学習させたのち、 凍結していた元モデルのパ
    ラメータも学習可能としてモデル全体を同時学習する方法を提案。よりタスク特化型のモデルの獲得が期待できる。
    ❖ 細かな特徴を指定しやすい画像ベースの条件付けを包括的に実験
    空間的な特徴を指定できる条件付けを網羅的に調査。 通常の画像テキストペアに加え、以下に示すような特徴をペアと
    したデータセットを構成し、それぞれでControlNetを学習して実験。ただし、もともとテキストが付随していないデー
    タについては、BLIP と呼ばれる画像キャプションモデルで対応するテキストも作成して用いた。StableDiffusion v2系
    で追加された深度マップ学習手法を流用する場合と比較して、ControlNetは定性的に同等かより明瞭な結果に。また、
    訓練の途中で突如としてモデルが条件付けに適応できるようになる『突然の収束現象』も確認された。
    Cannyエッジ :Cannyエッジ検出器で3Mのデータを用意。また、解像度順にサブセット作成し規模ごとに実験。
    Hough変換 :Places2から直線検出し、BLIPでキャプションを付与して計600Kのデータを用意。
    HED境界 :HED(Holistically-Nested Edge Detection)の境界検出器で計3Mのデータを用意。
    スケッチ :HEDと強いオーグメンテーションを組み合わせて500Kの落書きデータセットを合成。
    ポーズ :OpenPifPafやOpenPoseの検出器を用い、30%以上のキーポイントが検知できた画像から構成。
    セグメンテーション :COCOやADE20KにBLIPでキャプションを付与し、それぞれ164Kのデータセットを構成。
    深度 :MiDaSを用いて3Mのデータを用意。200Kのサブセットも用意し、学習可能な最低件数を検討。
    法線マップ :DIODEにBLIPを適用して構成。また、深度から推定した粗い法線で選択的にデータセットを拡張。
    線画 :Anime2sketchによる線画検出により、インターネット上の画像から1Mのデータを用意。
    191
    ControlNet
    [Stanford Univ.]
    Figure citation | Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60]
    ◀ [60: Figure 2] より引用。
    パラメータ複製とZero Conv層の導入。
    ▲ [60: Figure 3] より引用。
    StableDiffusionのU-NetへControlNetを適用する概要図。エンコーダ部と中間ブロックを
    複製し、出力をそれぞれ対応するスキップ接続に加える。条件付け入力は、はじめに簡単
    なCNNsでLDMの潜在空間と同じサイズに縮小されてから処理される。

    View Slide

  192. ❖ StableDiffusion系の画像生成界隈に新たなパラダイムを引き起こした
    詳細で複雑なテキストプロンプト研究が蓄積されてもなお、姿勢や物体位置調整は十分とは言い難
    い制御性であったが、ControlNetの台頭がゲームチェンジャーとなり、特に OpenPose を活用し
    た人体の姿勢制御が爆発的に界隈に普及。 反映されやすい入力の工夫や web UI への拡張機能など、
    発表から数日で目覚ましく進展する様子は、さながら StableDiffusion の登場初期を彷彿とさせた。
    応用は複雑な姿勢での画像生成に留まらず、例えば、動画をフレーム単位でImg2Imgしてアニメ風
    動画に変換する取り組みにも、OpenPose や Cannyエッジ、HEDによる、細部まで自由度が高く高
    精細な制御を中心に、ControlNet を積極的に取り込む動きが広まりつつある。
    ❖ 複数の条件付けを同時適用する Multi-ControlNet の実装も
    オリジナルの ControlNet は特定タスクに特化したモデルの提案だが、複数モデルによる条件付け
    を複合することでさらなる制御性を実現する拡張手法が公開された。実装観点では、単に複数の条
    件付けを線形結合してU-Net各層へ与えている模様。
    潜在的な応用可能性は広いが、とりわけ、 従来から難易度の高い描画対象として知られている手指
    の改善に関する取り組みは盛んなもののひとつ。例えば OpenPose を用いても手指を十分に制御す
    ることは困難だが、Cannyエッジや HED、深度マップなどで手先の形状のみ条件付けたモデル、お
    よび姿勢のためにボーンを指定したモデルを複合することで、 姿勢の自由度を保ったまま従来より
    忠実な手先を描画することに成功した事例も。
    192
    ControlNet
    [Stanford Univ.]
    Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60]
    ControlNet
    lllyasviel
    https://github.com/lllyasviel/ControlNet
    sd-webui-controlnet
    Mikubill
    https://github.com/Mikubill/sd-webui-controlnet

    View Slide

  193. ❖ ベースモデルの差を吸収する転移制御も実装
    公式モデルはStableDiffusion v1.5に基づくが、他バージョンモデルや他の様々な
    派生モデルにも学習済みControlNetを応用できるよう、 モデル間のパラメータ転
    移をサポート。具体的な発想は単純で、ControlNet と StableDiffusion v1.5 の重
    みの差分を転移先モデルの重みに加算し、転移先モデルの ControlNet 部分とする。
    一方で、CLIPテキスト埋め込みに関する差異は留意点だとしている。具体的には、
    人気のある現行モデルの多くは『ある周知の事実(=NovelAI Diffusionリーク)』
    に基づき、CLIPの最後から2番目の層から特徴を抽出したり、入力トークン数が拡
    張されたりしている。この差がオリジナルのControlNetで学習された条件付けと齟
    齬を生じる可能性があるということ。
    こうした単なる差分でモデル間の差を吸収できるのは、事前学習済みモデルとファ
    インチューニング後のモデル差分は微小であり、タスク特化のベクトルとして線形
    加算可能だとする先行研究 Editing Models with Task Arithmetic [Ilharco et al.,
    ICLR 2023] [75] と共通する数理が背後に潜んでいることを予見させる。
    193
    ControlNet
    [Stanford Univ.]
    Adding Conditional Control to Text-to-Image Diffusion Models [Zhang et al., 2023] [60]
    SD 1.5
    SD 1.5 複製から学習された
    ControlNet
    ControlNetのオフセット
    任意モデル
    転移されたControlNet
    差分抽出 差分付与

    View Slide

  194. Feb 14, 2023 | 分類器誘導を拡張し、再学習なしに補助入力経路を追加
    既存の様々なモデルを流用可能な誘導手法を提案。分類器不使用型誘導の潮流にあって、分類器誘導の可能性を改めて
    示した。拡散モデルを追加条件に合わせて学習し直す必要がなく、既存モデルを自由に組み合わせられる点が強力。
    ❖ 拡散モデルと分類器誘導の和解
    分類器誘導の最も基本的な考え方は、ある特定クラス(e.g., 猫)の画像を生成したいとき、分類器による
    そのクラスの予測確率が大きくなる方向の勾配を利用して逆拡散過程を誘導するというものである。 しか
    しながら、 逆拡散過程の各時刻における画像は一般に強いノイズを含むため、自然画像でしか学習されて
    いない分類器は多くの場合で正しい予測確率を出力できないという問題点が内在することが共通認識され
    ており、これが分類器不使用型誘導のパラダイムの一因でもあった。一部の従来手法ではノイズの乗った
    画像でCLIP等を再学習することでこの問題を解決しようとしたが、そのようなアプローチはさらなる計算
    量を要求するため好ましくない。したがって著者らは、サンプリングのスキームを工夫することで、既存
    の分類器を再学習することなしにこの問題を解決することを試みた。結果的に、提案手法は分類器に留ま
    らない様々なモデルを用いた普遍的な誘導を実現した。
    ❖ 普遍的誘導
    DDPMの逆拡散過程②補足に基づいて、 最終的なノイズ除去画像の推定値  を逆拡散過程の各時刻で計
    算できる。特に逆拡散過程の初期では非常に平均的でぼやけたものになってしまうなど、不完全ではある
    が、この推定値を活用することで普遍的な誘導手法を導く。提案手法は順普遍的誘導、逆普遍的誘導から
    構成される。また、最終的な生成品質を改善する自己再帰的な手法も考案された。
    194
    Universal Guided Diffusion
    [UMD, UNC Chapel Hill, NYU]
    Figure citation | Universal Guidance for Diffusion Models [Bansal et al., 2023] [61]
    ▲ [61: Figure 1] より引用。
    既存モデルをそのまま活用し、多様な誘導を実現。

    View Slide

  195. ❖ 順普遍的誘導
    ここでの論点は明快である。まず、各時刻でノイズの乗った画像が分類器に与えられてしまう既存課題は、先述の推定された綺麗な
    画像を用いることで緩和する。また、分類器誘導における係数を時刻に関する任意関数とすることで、分類器不使用型誘導のように、
    誘導の強さを柔軟に指定できるようにした。綺麗な画像を利用する考え方自体は、例えば UPainting でも採用されている。
    ❖ 逆普遍的誘導
    順普遍的誘導だけでは、生成結果の『本物らしさ』が過剰に重視されて条件付けが無視される場合があることを確認。一方で、誘導
    係数を大きくしすぎると生成が不安定になってしまう。そこで、分類器への入力画像をより尤もらしいものに補正することを考える。
    具体的には、分類確率がより高くなるような画像を、  周辺の摂動として求める。この計算は順普遍的誘導より一般に軽量(分類器
    は学習しないため)なので、複数ステップの勾配降下法が利用できる。これをもとに推定ノイズをさらに補正することで、追加条件
    がより反映される方向へ誘導が強化されることが期待できる。
    195
    Universal Guided Diffusion
    [UMD, UNC Chapel Hill, NYU]
    Figure citation | Universal Guidance for Diffusion Models [Bansal et al., 2023] [61]
    ▲ [61] より引用。
    普遍的誘導のアルゴリズム。ただし、ここでの 
    は、本資料中の  に相当することに留意。
    任意の追加条件
    (e.g., 猫とその矩形領域)
    任意の既存モデル
    (e.g., 物体検出器)
    負の対数尤度
    ➡ 任意の損失関数  
    負の対数尤度の最小化
    ➡ 予測確率の最大化  
    微小な差分
    求めた摂動を加味した上で、この拡散過程の
    関係性が成り立つようなノイズ項を逆算。   を代入。

    View Slide

  196. ❖ ステップ単位での自己再帰
    生成画像の本物らしさと条件に対する誘導性を両立することは難しく、順普遍的誘導と逆普遍的誘導を組み合わせても品質が
    不十分な場合も確認された。誘導関数の情報損失が大きいとき、生成中の画像が自然な軌跡から逸脱することが原因だと推察
    されるが、これらの品質のトレードオフを改善するちょうど良いバランスが軌跡上に常に存在する保証はない。そこで、サン
    プリングの各時刻において、時刻に応じたノイズを付与しては前の時刻に戻すという操作を規定回数繰り返す方法を提案。簡
    易的な焼きなまし法にも見えるこの対処によって解の探索空間が広がり、生成品質の改善が観測された。
    ❖ 様々な条件付けへの汎用性
    実験は以下の条件付けについて StableDiffusion に基づき行われた。また、CLIP誘導と物体位置に関しては、ImageNet で学
    習された非条件付け拡散モデルでも実験。いずれにおいても定性的に提案手法の有効性と高い汎用性が確認された。
    CLIP誘導 :生成画像をCLIPで埋め込み、入力テキストとの負のcos類似度を利用。
    セグメンテーション :MobileNetV3-Large を利用。与セグメンテーションとのピクセル単位のクロスエントロピーを平均。
    顔認識 :顔検出の MTCNN と顔認識の FaceNet を併用。検出領域に関して顔埋め込みを計算し誘導。
    物体位置 :FasterRCNN を利用。 アンカー予測や矩形座標回帰、ラベル予測といった一通りの損失関数で誘導。
    スタイル :入力画像と生成画像のCLIP埋め込みについて、負のcos類似度を利用。
    196
    Universal Guided Diffusion
    [UMD, UNC Chapel Hill, NYU]
    Figure citation | Universal Guidance for Diffusion Models [Bansal et al., 2023] [61]
    誘導
    ノイズ
    ▲ [61, Figure 2] より引用。
    最左が条件付けとなるセグメンテーション。続いて、自己
    再帰を各時刻でそれぞれ 1, 4, 10回適用した結果。
    ▲ [61, Figure 8] より引用。
    ImageNetで非条件付け学習した拡散モデルに対し、提案手
    法でCLIP誘導した結果。Text2Imageの文脈で学習してい
    ないにも関わらず、プロンプトに沿った生成を実現。
    GLIDEの悲願を達成したという印象を受ける。
    ▲ [61, Figure 10] より抜粋。
    複数の誘導を同時適用した例。左がセグメンテーション条件
    で、中央がクラス分類器のみでInpaintingした結果。右は分
    類器とセグメンテーションによる誘導を併用。

    View Slide

  197. Feb 16, 2023 | 追加学習なしで任意解像度における空間制御性を付与
    事前学習済みモデルによる推定ノイズを融合することで、任意のアスペクト比を扱えるように。 同時に、粗い領域指定
    による空間的制御性を兼ね備える。余剰計算量もなく、効率的に機能する。
    ❖ MultiDiffuser
    StableDiffusionのような事前学習済みモデルが用意されているとき、これを用いて任意解像度、かつ異なる
    条件付けでの拡散モデルを構成する問題を考える。 簡単のため、対象解像度が元モデルが扱う解像度より大
    きいとすると、対象解像度から元解像度に相当する領域を複数切り抜くことができる。このそれぞれの切り
    抜きに対して、学習済みモデルと可能な限り同一の挙動をしつつ、全体として滑らかに繋がった画像を生成
    するモデルを MultiDiffuser とし、最適化問題の閉形式の解としてこれを定義した。汎用的な定式化が為さ
    れているが、本質的には、可能な全ての切りで元モデルを適用した際の加重平均を考える問題に帰着する。
    ❖ 応用
    元モデルよりも遥かに大きな任意解像度、アスペクト比へ拡張することで、パノラマ画像を容易に生成可能。
    また、 任意のマスクとテキストペアが与えられたとき、MultiDiffuser のフレームワークで領域に基づく生
    成も可能となる。具体的には、与えられたプロンプト全てに対して条件付け生成し、各ピクセルでマスク指
    定されているプロンプトに対応するノイズ集合でのみ加重平均を取ればよい。マスク付き生成の品質を向上
    させるため、さらにサンプリング時のスケジュールを提案。初期から一定時刻(20%程度)まではマスクと
    単色背景画像の重ね合わせで重み付けし、残りはマスクを撤廃して逆拡散過程を進める。
    197
    MultiDiffusion
    [WIS]
    Figure citation | MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [Tal et al., 2023] [62]
    ▲ [62, Figure 1] より引用。
    任意解像度で多様な条件付け生成が可能。図はセグメンテーションとテキストペアによる制御例。
    ▲ [62, Figure 2] より引用。
    学習済みモデルに基づく MultiDiffuser の概要。

    View Slide

  198. Feb 16, 2023 | 学習済みモデルに眠る表現力を精緻な制御へ転用
    Text2Imageモデルが空間制御性に乏しいのは、モデルの表現力不足ではなくテキスト表現の限界のためであるとし、
    元モデルを凍結したまま、追加の条件付けを学習する適合器のみを学習する手法を提案。複数の条件付けを扱う汎用
    性や、条件同士の自由な複合機能を有する。問題設定や手法は ControlNet と類似しているが、追加の学習パラメー
    タが比較的小さく済むのは利点である。一方、複合可能性や、同一モデルからファインチューニングされたモデルへ
    はパラメータ転移できる点などは、先述した ControlNet の拡張機能と競合するといえる。
    ❖ 適合器の構造
    ピクセルシャッフルによりLDMの潜在特徴と同次元まで条件付け入力を低解像度化したのち、Conv層と
    Res Block を繰り返しながら解像度を下げていき、それぞれの段階で U-Net の対応する解像度帯の中間
    特徴に加算するという単純な構造。複数条件を扱う際は任意係数で重み付けすれば良い。 訓練時は所望
    の条件付けデータを用いて通常通り拡散モデルを学習。このとき、元モデルは凍結する。
    ❖ 適合器の構造
    実験は StableDiffusion に基づいて行われた。対象とした条件は以下。単体での効果もさることながら、
    相補的な条件を複合することにより、単体では忠実に再現できなかった部分の品質向上が確認された。
    スケッチ :エッジ検出モデルを用い、COCOの120K枚の画像に適用して学習。
    セグメンテーション :COCO-Stuffから164K枚の画像を使用。
    キーポイント :LAION-AESTHETICSから150K枚を抽出し、MMPoseでポーズ推定。
    198
    T2I-Adapter
    [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT]
    Figure citation | T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models [Mou et al., 2023] [63]
    ▲ [63, Figure 4] より引用。 T2I-Adapterのパイプライン。条件ごとに適合器を学習して用いる。
    ▲ 抽出したスケッチによる条件付け生成。[63, Figure 10] より抜粋。
    ▲ [63, Figure 7] より抜粋。 ポーズによる条件付け生成。

    View Slide

  199. Feb 22, 2023 | MCMCに基づく新たなサンプリングと構成的生成の提案
    拡散モデルのスコアベース解釈やEBM解釈を通じ、拡散モデルの条件付けや改変、再利用法を再考。さらに、複数の対象を扱
    う構成的生成について、既存モデルが不得意とする種類が存在すること、その対処法、および新たなサンプリング手法を提案。
    ❖ 拡散モデルで扱える確率密度の複合範囲を拡張
    複数の確率モデルの積で表されるような複合モデルを考えたとき、その正しい対数勾配は元の対数勾配の単なる和
    ではなくなることから、既存の拡散モデルの複合手法の課題点を指摘。 Hamiltonian Monte Carlo(HMC)と呼
    ばれるMCMCサンプリング手法の一種を用いてこの課題に対処した。また、EBM解釈に基づき、モデルがノイズ推
    定ではなく対数密度を推定するようパラメタライズしなおすことで、確率積だけでなく確率混合を扱えるように。
    複数の拡散モデルの複合といえばComposable Diffusionのような複数概念の混合が想像しやすいが、実際には分類
    器誘導や分類器不使用型誘導も条件付けの異なる出力を複合しているため、提案手法を適用する恩恵を受けうる。
    ❖ 複数の確率密度を併用する様々な問題設定にて有効性を確認
    2次元の合成点群データやCLEVRによる評価で提案手法の有効性を確認したのち、分類器による条件付けやText2-
    Imageでも実験評価。前者では、非条件付け拡散モデルとノイズの乗った画像で条件付けされたImageNet分類器を
    学習し、分類器誘導の要領でクラスによる条件付け生成を評価した。 結果、通常の逆拡散過程に基づくサンプリン
    グよりも、EBMに基づくパラメタライズとHMCを組み合わせた場合が定量的・定性的に高品質となった。また、後
    者のText2Imageにおける実験では Composable Diffusionに倣い、プロンプトを複数要素に分解した上でANDやOR
    で結合し条件づける方式を採用。 EBM に基づくパラメタライズでは対象の確率密度をより明示的に反映でき、複合
    条件での忠実性が向上した。一方、論文中の実験は 64x64 で生成した画像を 1024x1024 に超解像している関係上、
    生成品質にはアーティファクトも目立ち、改善の余地が見受けられる。
    199
    Reduce, Reuse, Recycle
    [MIT, DeepMind, Google Brain, INRIA]
    Figure citation | Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [Du et al., 2023] [64]
    ▲ [64, Figure 4] より引用。
    ImageNet 128x128における分類器誘導。上段が通常の逆拡散過程、下段が提案手法。
    ▲ [64, Figure 7] より引用。
    テキスト条件の複合(下段)により、より意図に沿った生成が可能に。
    ▲ [64, Figure 8] より引用。
    複数の領域とテキストペアの条件付けを複合した生成結果。

    View Slide

  200. 200
    拡張技術【推論高速化】
    補遺F

    View Slide

  201. 拡散モデルは愚直に推論すると非常に遅い
    既に紹介したDDIMや改良型DDPMのように、推論時のステップ数を削減することは大きな関心事のひとつである。本節では数ある手法のうちいくつかを紹介。
    ❖ 蒸留
    教師モデルから、より計算量の小さい生徒モデルを学習する手法。
    Sep 29, 2021 | 漸進的蒸留 [Google Brain]
    逆拡散過程に必要なステップを徐々に減らすようにモデルを蒸留
    Oct 06, 2022 | 誘導拡散モデルの蒸留 [Stanford Univ., Stablity AI, LMU, Google Brain]
    分類器不使用型誘導を用いるモデルも蒸留可能に
    201
    拡散モデルの推論高速化
    ❖ 微分方程式の応用
    微分方程式の効率的な数値解法やサンプリング方法には多くの既存研究が存在する。それらの
    有効活用に向け、拡散モデルを微分方程式として解釈する動きが主流となりつつある。本節で
    はその理論背景について簡単に概説したのち、関連研究の一部を紹介。
    Feb 20, 2022 | PNDM [ZJU]
    DDPMが作る多様体上での擬似数値解法の提案
    Jun 02, 2022 | DPM-Solver [THBI Lab, Tsinghua Univ., GSAI, +]
    SNRに基づくODE数値解法を提案
    Nov 02, 2022 | DPM-Solver++ [THBI Lab, Tsinghua Univ., GSAI, +]
    誘導付きでも安定して高品質生成可能なサンプリング手法の提案

    View Slide

  202. 202
    推論高速化【蒸留】
    補遺F-1

    View Slide

  203. Sep 29, 2021 | 逆拡散過程に必要なステップを徐々に減らすようにモデルを蒸留
    無条件生成およびクラス条件付け生成において、必要なサンプリングステップを数桁削減。
    ❖ 教師モデルの半分のステップで生成する生徒モデルを繰り返し学習
    最初の教師モデルとして任意の拡散モデルを学習。次に教師モデルをコピーして生徒モ
    デルを用意。 教師モデルにDDIMを2ステップ連続で適用した出力を 1ステップのDDIM
    で再現できるように生徒モデルを学習することにより、教師モデルの半分のステップで
    生成可能な生徒モデルを獲得する。この手続きを繰り返すことにより、必要なステップ
    数を半分にした生徒モデルが段階的に学習されていく。
    ❖ パラメータ化と損失関数の変更
    DDPMのようにノイズ差分を予測するモデルでは、蒸留が進んでステップ数が小さくなるほど予測
    誤差が増幅することを指摘。 これを避けるため、最終目的である綺麗なデータそのものや、DDIM
    を回転角解釈することで登場する速度の概念を代替の学習対象とする方法を提案。加えて、時刻ご
    との損失関数の重みをSNR(信号対雑音比)に基づいて調整し、学習安定化を図った。
    203
    漸進的蒸留
    [Google Brain]
    Figure citation | Progressive Distillation for Fast Sampling of Diffusion Models [Salimans et al., ICLR 2022] [65]
    [65: Figure 4] より抜粋。 ▶
    CIFAR-10、ImageNet 64x64、LSUM系のデータセットでステップ数を減
    少させた際の品質比較。提案手法は品質の劣化が少なく、極端に小さなス
    テップ数でも一定程度の品質を保っていることがわかる。
    ◀ [65: Figure 3] より引用。
    ImageNet 64x64にて各ステップ数まで蒸留されたモデルを用い、ランダム
    シードを固定して生成した例。極端に小さなステップ数でも定性品質がある
    程度保たれていることが見てとれる。ただし、特に1ステップの例では、構
    図が部分的に変わったり、形状が崩れてしまったものも存在。

    View Slide

  204. Oct 06, 2022 | 分類器不使用型誘導を用いるモデルも蒸留可能に
    2段階蒸留を提案し、ピクセル領域の拡散モデルでは4ステップ程度、LDMでは1~4ステップ程度まで必要推論ステップを削減。
    ❖ 第1蒸留段階
    教師モデルとして、条件付け学習したモデルと無条件学習モデルのペアが用意されているとする。通常であれば、こ
    れらを適当な係数で線形補間することで分類器不使用型誘導を適用するが、 本手法の第1段階では、任意時刻の線形
    補間後の出力を再現する生徒モデルをMSEで新たに学習する。このとき、生徒モデルの入力には教師モデルの入力に
    加え、分類器不使用型誘導の係数のフーリエ埋め込みが追加される(時刻情報の埋め込みと類似)。これにより、推
    論の各ステップで必要なモデル評価回数が半分となる。
    ❖ 第2蒸留段階
    漸進的蒸留に倣い、推論に必要なステップ数を半分にする生徒モデルを段階的に学習していく。このようにして獲得
    されたモデルはDDIMにより決定論的に推論することができるほか、 DDIMによりある時刻距離だけ 1ステップノイズ
    除去し、 その半分の時刻距離に相当する確率的ノイズを加えるという流れを繰り返すことで確率的に推論することも
    可能(ただし、訓練方法に若干の調整が必要な場合もあり)。
    204
    誘導拡散モデルの蒸留
    [Stanford Univ., Stablity AI, LMU, Google Brain]
    Figure citation | On Distillation of Guided Diffusion Models [Meng et al., NeurIPS WS 2022] [66]
    ▲ [66: Figure 1] より抜粋。

    View Slide

  205. ❖ 様々な問題設定で有効性を確認
    ピクセル領域のモデルでは、超解像モデルの影響を排除するため低解像度な
    CIFAR-10およびImageNet 64x64で実験。 DDIMによる1024x2回のモデル
    評価が必要な教師モデルに対し、幅広い分類器不使用型誘導の係数にて 4~
    16ステップで同等以上の生成品質(FIDおよびIS値)を実現。
    LDMでは StableDiffusion を用いて実験。ImageNet 256x256で事前学習し
    たクラス条件付けモデルでは、 2~4ステップで 1000ステップの教師モデル
    に匹敵。 また、事前学習済みStableDiffusionを用いたText2Image、Img2-
    Img、Inpainting タスクの実験において、定量・定性的に提案手法の生成品
    質の高さを確認。
    205
    誘導拡散モデルの蒸留
    [Stanford Univ., Stablity AI, LMU, Google Brain]
    Figure citation | On Distillation of Guided Diffusion Models [Meng et al., NeurIPS WS 2022] [66]
    ▲ [66: Figure 1] より抜粋。
    ▲ [66: Figure 6] より引用。ただし、横並びを縦並びに改変。
    上段が提案手法で蒸留したStableDiffusion。4ステップでも一
    定 以 上の高 品 質な生 成 結 果。一 方、元モデルを4ステップの
    DDIMで生成した中段の結果は不明瞭で細部も破綻。8ステップ
    まで増やした下段は若干品質改善するが、依然低品質。

    View Slide

  206. 206
    DDPMの微分方程式化【基礎背景】
    補遺F-2-1

    View Slide

  207. 目的 
    207
    【再掲】DDPMのこころ
    対象分布のデータ がランダムノイズ に崩壊する過程
    [方法] 時刻に応じて徐々にノイズを混合し、元の綺麗なデータの情報を薄めていく(   )。
    [方向] から を表現。
    逆拡散過程
    拡散過程
    ランダムノイズ から対象分布のデータ を獲得
     理論背景
    … …
    Denoising Diffusion Probabilistic Models [Ho et al., NeurIPS 2020] [3]
    ある時刻の状態から(少しだけ
    変化した)次の時刻が決まる。
     ノイズを加える。
    微小な係数
    議論の出発点。

    View Slide

  208. 208
    拡散過程の確率微分方程式化

    拡散過程
     理論背景
    … …
    Score-Based Generative Modeling through Stochastic Differential Equations [Song et al., ICLR 2021] [67]
    離散時刻の添字は便宜上 とおいた。
    対象分布のデータ がランダムノイズ に崩壊する過程として連続時間化
    [方針] 離散的なDDPMの定式化において、時刻刻みの極限を考える。
    標準正規分布

     マルコフ連鎖の極限を取るための準備。

     微小時間における差分の形。
    下記では直ちに用いない
    が、準備として関数化。
    拡散過程の任意時刻について考える。
    各確率変数を、数列ではなく、正規化された時刻を引数とする関数と見做して変数変換。

    View Slide

  209. 209
    拡散過程の確率微分方程式化

    拡散過程
     理論背景
    ③左辺の極限は微小要素へ。


    標準Wiener過程
    時刻が連続化し、拡散過程が確率微分方程式(SDE)化。
        のとき、    である。  の定義からは一見発散するよ
    うに思われるが、      のように最大離散時刻に応じて元
    の拡散強度が十分小さく調整されていれば、発散しない。すなわ
    ち、最大離散時刻が幾らであろうと、拡散過程全体で付与するノ
    イズ総量が一定のオーダに保たれていると考えれば自然である。
    Score-Based Generative Modeling through Stochastic Differential Equations [Song et al., ICLR 2021] [67]
    対象分布のデータ がランダムノイズ に崩壊する過程として連続時間化
    [方針] 離散的なDDPMの定式化において、時刻刻みの極限を考える。
    … …
    ③右辺の極限には、標準Wiener過程と呼ばれる連続化した確率分布が現れる。

    View Slide

  210. 210
    拡散過程の確率微分方程式化
    拡散過程
     理論背景
    対象分布のデータ がランダムノイズ に崩壊する過程として連続時間化
    [方針] SDEのフレームワークを用いて様々な道具を定式化。
    ⑧ 初期時刻から積分することで、任意時刻の摂動核を表せる。


    Itô SDEの一般形
    各時刻における確率密度
    目的のデータ分布
    ランダムノイズ
      から    への遷移核
    (条件付き確率)
    Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    同様に、任意時刻の周辺確率密度を表現できる。
    余談:DDPMの拡散過程と比較することで以下が導ける。
    … …
    ⑥は Itô SDE の一実現として表せる。
    減衰係数 ➡
    分散の規模 ➡
    ある綺麗なデータをサンプリングしてきて任意時
    刻まで拡散させる、という操作を元のデータ分布
    全域にわたっておこない積分する。

    View Slide

  211. 211
    余談:標準Wiener過程の概要
     理論背景
    ランダムウォークを連続時間化した確率過程
    物理学分野にて、Brown運動の挙動をモデル化するために考案された経緯を持つ。確率微分方程式における重要な基礎概念。


    時刻
    位置
    時刻
    位置
    1ステップの
    時間:
    距離:
    進む確率:
    戻る確率:
      ステップの間に
      進んだ回数:
      戻った回数:
    とすると、
    より
     
    このとき、  と  の偶奇は一致することに留意。すなわ
    ち、あるステップ数  を固定したとき、ランダムウォー
    カーが存在しうるポイントは偶数番目または奇数番目のい
    ずれかのみとなり、常に飛ばし飛ばしとなる。
    ここで考えるランダムウォーカーは前に進むか戻るかの選択
    肢しか取らないので、  ステップ経過後にポイント   に存
    在する確率は二項分布に従う。
    ② 以降、進む確率と戻る確率が等しい等
    方的なランダムウォークを考える。
    Stirlingの公式
    【中心極限定理の応用】  が十分に大きいとき、二項
    分布は正規分布に分布収束。 ただし、ある   におい
    て  は常に偶数または奇数集合の値しか取り得ないた
    め、正規化定数に定数倍の違いがあることに留意。

    View Slide

  212. 212
    余談:標準Wiener過程の概要
     理論背景
    ランダムウォークを連続時間化した確率過程
    物理学分野にて、Brown運動の挙動をモデル化するために考案された経緯を持つ。確率微分方程式における重要な基礎概念。

    時刻
    位置
    時刻
    位置
    1ステップの
    時間:
    距離:

    数直線上の連続座標における確率密度を、ランダムウォー
    クの各ポイントを囲む短冊状に考えて定義。ある    にお
    いて確率質量関数が定義されるポイントは飛び飛びである
    ため、短冊の幅は   であることに留意。

    このような確率過程    において、時間と空間の刻み幅が      の関係を
    保ったまま          の極限を取るとき、標準Wiener過程  が得られる。
    ここまでの議論から、標準Wiener過程は次の性質を有する:
    1.
    2. 定常独立増分:
    3. 時刻に比例した分散を持つ正規分布に従う:
    4. 連続標本経路を持つ。
    したがって、改めて標準Wiener過程に従う確率変数     を考
    えるとき、微小時間における変化量は次のような極限で表せる
    ことがわかる。
    拡散過程の確率微分方程式化⑤ではこれを用いて式変形した。
    ただし、互いに独立な標準Wiener過程の集合から多次元標準
    Wiener過程を構築できる(多変量標準正規分布に対応)。
    ここで、離散確率である     と巨視的には同一視
    できる確率密度    を考える。

    View Slide

  213. 213
    逆拡散過程の微分方程式化
    ランダムノイズ  から対象分布のデータ   を獲得

    逆拡散過程
    目的 
    … …
    Score-Based Generative Modeling through Stochastic Differential Equations [Song et al., ICLR 2021] [67]
    この逆過程では、時刻 は逆方向(   )に流れる。
    時刻が逆向きの標
    準Wiener過程
    (負の)微小時間
    ② あらゆる時刻における任意データの
    対数密度を厳密に得ることは困難で
    あるため、その勾 配であるスコアも
    一般には求まらない。
    したがって、機械学習によるスコア
    の最小二乗近似を考える。十分量の
    データが 与 えられればモデルによる
    良い近似が期待でき、ランダムノイ
    ズから①に 基 づきサンプリングする
    ことで所望のデータ分布に近いデー
    タを獲得することができる。
    モデルによるスコア推定
    また、上式と同じ周辺確率密度を共有する微分方程式として、確率
    流常微分方程式(probability flow ODE)が対応することも導出さ
    れている。こちらはノイズ項を持たない決定的な過程である。
    【おさらい】SDE化したDDPMは Itô SDE と
    して表現される。
    Itô SDE の逆過程は、同様に、時間が逆向きの Itô SDE で表現できることが、
    先行研究 Reverse-time Diffusion Equation Models [Anderson, Stochastic
    Processes and their Applications, 1982] [69] にて示されている。
    対数密度勾配(スコア)

    View Slide

  214. 214
    逆拡散過程の微分方程式化
    ランダムノイズ  から対象分布のデータ   を獲得
    逆拡散過程
    目的 
    A Connection Between Score Matching and Denoising Autoencoders [Vincent, Neural Computation 2011] [70]
    ③ ④
    陽に表せないスコアを直接推定するのは難しいので、表現可能な形式になるよう分解していく。

    元の最小二乗誤差と同値な損失関数を導くことができた。これはDDPMの逆拡散過程②と類似した考え方
    であるといる。すなわち、目的の綺麗なデータ     がわかっているときの事後分布で表されるスコ
    アを、綺麗なデータを知ることのできないモデルで最尤推定することを表している。綺麗なデータにアク
    セスできないモデルにとって個別の全サンプルにおける誤差を0にすることは不可能であるため、各時刻
    におけるモデルの挙動は、訓練データセット全体から推定される理想平均に近づくよう学習されていく。
    モデルパラメータに非依存な定数項
    … …
    ③の第2項がモデルによる推定値とスコアを含むので、ここをさらに展開していく。
    対数勾配 ➡
    拡散課程の微分方程式化⑨ ➡
    積分と微分の順序交換 ➡
    対数勾配 ➡

    View Slide

  215. 215
    DDPMはスコアマッチングである


    ノイズ推定とスコア推定が同値であることを示す
    簡単のため、離散的な逆拡散過程について述べる。実応用上、微分方程式化した逆拡散過程も離散的な数値計算
    を行わざるを得ないほか、多くの拡散モデルは訓練時はDDPMを踏襲するため、汎用的な議論であるといえる。
    … …
    逆拡散過程
     理論背景
    したがって、モデルが推定する関数を改めて
    とおくと、ノイズ除去による逆拡散過程の学習は、スコアマッチングによる対数密度勾配
    の学習と同値である:
    [参考] 【AI論文解説】拡散モデルによるデータ生成の高速化技術 -詳細編Part3-
    nnabla ディープラーニングチャンネル
    Nov 11, 2022
    https://www.youtube.com/watch?v=qo-pR-kgKbc
      DDPMの損失関数
    モデルパラメータに非依存な定数項
      正規分布の指数部分


    View Slide

  216. 216
    DDIMの微分方程式化【基礎背景】
    補遺F-2-2

    View Slide

  217. 217
    逆拡散過程の微分方程式化
    ランダムノイズ  から対象分布のデータ   を獲得
    逆拡散過程
    目的 
    ①’

    DDIMの逆拡散過程は上式で表される決定的な過程である。
    Pseudo Numerical Methods for Diffusion Models on Manifolds [Liu et al., ICLR 2022] [71]
    余談:PNDM論文中では右辺の符号が上式と異なるが、論文の計算ミスであることを確認(論文中(9)式から
    微小時間の極限を取る際、左辺の符号を反転するのに合わせて右辺の符号を反転するのを忘れている模様)。
    Denoising Diffusion Implicit Models [Song et al., ICLR 2021] [4]
    このように、時刻以外の微小要素で定式化される場合もある。そのような場合におけるサンプリングでは、
    必ずしも時刻ではなく、それぞれの微小要素に対応する変数に関して数値計算されることが多い。
    余談:これらのODEを整理すると、実はDDPMの微分方程式化にて登場した probability flow ODE と一致
    することが示せる。このことからも、SDE化したDDPMとODE化したDDIMの密接な関係性が伺える。
    … …
    【PNDM】DDPMと同様に連続時間化することでODEを得ることができる。
    【DDIM】変数のまとめ方を工夫することにより、単純な形のODEに帰着させることが可能。

    View Slide

  218. 218
    推論高速化【微分方程式の応用】
    補遺F-2-3

    View Slide

  219. Feb 20, 2022 | DDPMが作る多様体上での擬似数値解法の提案
    ❖ 古典的な数値解法を2段階に分割
    DDIMのODE化における①’式を用いてそのまま古典的な数値解法を適用すると、ステップ数を削減するにつれ顕著に性能が劣化する。
    その原因として、古典的な数値解法は対象となる関数が理想的にあらゆる場所で定義されることを暗に仮定しているが、ニューラル
    ネットワークにより学習された関数は限られた定義域でしかよく定義されていないためである(任意入力に何らかの値は返すが、学
    習過程で経験していない入力領域ほど出力の信頼性は低下する)。
    以上の考察から、古典的な数値解法をまず「勾配補正部」と「遷移部」に分け、勾配に沿った単なる線形推移である遷移部をDDPM
    に応じた非線形な遷移に置き換えた。具体的には、DDIMのODE化における①’式の導出過程を利用して以下のように推移させる:
    ❖ 勾配補正部に既存の数値解法を適用
    既存の高性能なODEの数値解法では、ある時刻における勾配だけでなく、付近の異なる時刻の勾配を利用して遷移方向を補正する。
    PNDMでは特に4次のRunge–Kutta法と線形多段(LMS)法を組み合わせた手法をF-PNDMとして提案し、DDIMや古典的な数値解法
    をそのまま適用した方法と比較。10ステップから1000ステップまでの広い範囲にてPNDMの有効性を確認した。 また、勾配補正部
    は任意の数値解法で置換できるため、他に2次解法を利用したS-PNDMも提案している(F-PNDMには精度は劣る)。
    219
    PNDM
    [ZJU]
    Figure citation | Pseudo Numerical Methods for Diffusion Models on Manifolds [Liu et al., ICLR 2022] [71]
    ▲ [71: Figure 2] より引用。
    時刻とデータノルムの密度分布の関係。ほとんどの時刻で幅0.1程
    度の狭い領域に集中していることがわかる。
    補正した推定ノイズ
    ▲ [71] より引用。
    Runge–Kutta法で初期の必要時刻数の勾配を求めつつ遷移さ
    せ、残りをLMS法で解く。

    View Slide

  220. Jun 02, 2022 | SNRに基づくODE数値解法を提案
    ❖ 時刻ではなくSNR(信号対雑音比)に基づいてDDPMをODE化
    DDPMのprobability flow ODEをさらに式変形し、以下に示す (SNRの平方根の対数に相当)を変数としてODEを導出。
    この逆拡散過程を数値的にサンプリングする際は、 に関して離散化したのち、右辺第2項の積分を整理し、解析解が求ま
    る積分とノイズ関数の に関する高次導関数の積の和に分解。導関数は厳密には求まらないため近似する。k次導関数まで
    近似する手法を特にDPM-Solver-kと呼称する。DPM-Solver-1はODE化したDDIMと同値であることが示されている。
    ❖ サンプリングスケジュールにも工夫
    本論文では、NFE(関数評価回数)を固定して各手法の比較実験を実施している。 そのような設定において、本論文では
    まず可能な限りDPM-Solver-3を適応的ステップサイズにおいて適用し、 残存NFEが20以下となった段階で、 が等間隔
    となるよう時刻を分割してDPM-Solver-2やDPM-Solver-1を適用することを提案している。ただし、いずれにおいても、
    モデルに入力される(離散的なDDPMに対応する)時刻は、学習時の整数時刻の範囲から逸脱して実数となることに留意。
    しかしながら、時刻埋め込みの連続性により、実用上はこのような実数時刻でも推論が機能することが実証されている。
    220
    DPM-Solver
    [THBI Lab, Tsinghua Univ., GSAI, +]
    Figure citation | DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps [Lu et al., NeurIPS 2022] [72]
    ▲ [72: Figure 2] より引用。
    ▲ [72: Figure 1] より引用。

    View Slide

  221. Nov 02, 2022 | 誘導付きでも安定して高品質生成可能なサンプリング手法の提案
    従来手法は大きな誘導係数で不安定になりやすく、生成中の画素値が範囲外に逸脱したり飽和しやすいという課題を抱えていた。
    ❖ 被積分関数内の予測値をノイズではなく各時刻の出力そのものに変更
    変数設定がODEを解く上での安定性に寄与しているとし、DPM-Solverを踏襲しつつ、 DDPMのprobability flow ODEを
    さらに式変形。 DPM-Solverと同様、サンプリング時刻間の時刻を用いてモデル出力の導関数を近似する2次解法として
    DPM-Solver++(2S) を提案(それ以上の高階解法は不安定になるため今後の展望としている)。 さらに、導関数近似の
    ために関数評価回数が増加するのを抑制するため、 事前に計算したステップでの値を再利用するAdams-Bashforth法の
    ような多段解法であるDPM-Solver++(2M) を提案。同じ計算回数のもとで一段法よりも細かいステップサイズを設定で
    きるため、同規模の計算量のもとでDPM-Solver++(2S) よりも僅かに高性能となる。
    ❖ 閾値処理による生成品質向上
    各ピクセルのRGB値の範囲が定まっている画像のようなデータの処理では、生成中のデータが指定範囲を逸脱しないよう
    に各時刻で閾値処理をすることで最終品質が向上することが知られている。特に誘導付きの推論では、生成を高速化する
    ためにステップ数を減らすほど画素値が範囲外に飛びやすくなるため、閾値処理は提案手法の安定性に寄与する。
    221
    DPM-Solver++
    [THBI Lab, Tsinghua Univ., GSAI, +]
    Figure citation | DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models [Lu et al., 2022] [73]
    ▲ [73: Figure 1] より引用。
    ImageNet 256x256で学習した拡散モデルにおいて、分類器誘導のスケールを8.0として
    推論した結果の比較。関数評価回数は15回で固定。従来の高次解法を中心に生成結果が破
    綻しているが、提案手法は定性的に最良のサンプルを生成できている。
    ▲ [73: Figure 3] より抜粋。
    ピクセル空間やLDMにて誘導スケールを変えて品質比較した例。提案手法は少ない関数評
    価回数でも一貫して高品質を実現している。

    View Slide

  222. 222
    既存のDiffusionのその先へ
    補遺G

    View Slide

  223. DDPMから始まる系譜は次の世代へ
    ❖ 拡散モデルの包括的な解明に向けた考察
    Jun 01, 2022 | EDM [NVIDIA]
    拡散モデルの理論と実践面を統一的な観点から分離し、性能改善へ多数の示唆
    ❖ U-Netからの脱却
    Dec 19, 2022 | DiT [UC Berkeley, NYU]
    Transformerを用いた新たなデザインであるDiT(Diffusion Transformer)を提案
    223
    既存のDiffusionのその先へ
    ❖ 人手のフィードバックの利用
    Feb 23, 2023 | 二値報酬推定に基づく整合性改善 [Google Research, UC Berkeley]
    大規模言語モデルを飛躍的に改善させた知見の輸入

    View Slide

  224. 224
    拡散モデルの包括的な解明に向けた考察
    補遺G-1

    View Slide

  225. Jun 01, 2022 | 拡散モデルの理論と実践面を統一的な観点から分離し、性能改善へ多数の示唆
    DDPMから始まる過度に理論化された拡散モデルの背景を俯瞰し、ハイパーパラメータの設計や学習、および推論を一般化したのちに実践的な手法を提案。
    ❖ 拡散過程の微分方程式化を一般化
    元来の拡散過程のODEやSDEは、DDPMから連なる理論に基づき係数等が導出されていた。これを次のように、時刻に応じた元データ    の減衰係数 とノイズの強度係数   を任意関数とした表現形
    に一般化。そこからさらに、拡散過程に対応するODEを導出した。ただし、画像等の対象データは     からサンプリングされるものとし、あるデータ に標準偏差  の独立同分布な正規分布を加算する
    分布を    と表している。
    225
    EDM
    [NVIDIA]
    Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    初期時刻からの遷移核を一般化。 左の定式化に基づき確率流微分方程式化。
    … …
    時刻の最大値は規定なし

    View Slide

  226. ❖ スコアマッチング関数の一般化
    あるデータ と標準偏差  が与えられたときのニューラルネットワークの出力を    とする。これを用いて、 が獲得された元となる綺麗なデータを予測するノイズ除去器     を次のように定義
    する。ただし、各係数は  に応じた、すなわち逆拡散過程の各時刻に依存する任意関数である。
    このノイズ除去器の出力がデータ分布の綺麗なデータに近づくよう二乗誤差近似で学習することを考えると、次の損失関数が得られる。ただし は適当な係数。
    また、仮にモデルが理想的にこの損失関数を最小化できたとき、このノイズ除去器は次のようにスコア推定関数として機能する。
    226
    EDM
    [NVIDIA]
    Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    モデルによるノイズ除去結果を綺麗なデータに近づける。 実質的な係数 モデル出力 実質的な訓練対象

    View Slide

  227. ❖ Heun法に基づく新たなサンプリング手法の提案
    モデルアーキテクチャや訓練過程とサンプリング過程は分離して考えられるという仮説のもと、任意の と において、ODEの2次解法であるHeun法を適用したサンプリング手法を提案。時刻間隔に
    ついては、拡散強度の最大最小値を      と定めた上で、冪乗的に単調減少するよう設計した。ただし、指数の は、事前実験の品質比較により決定された値を採用。
    EDMでは、DDIMと同様に減衰係数と拡散強度を         と定めた。その上で、Euler法のような1次解法に基づく既存手法を、オリジナルを含む複数のサンプリング手法で再評価。結果、これら
    の工夫を採用したHeun法による提案手法が最も少ない関数評価回数で最小FID値を実現できることを確認。
    227
    EDM
    [NVIDIA]
    Figure citation | Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    設定した関数で
    時刻に逆射影。
    拡散強度が冪乗的に等間隔となるよう分割。
    ▲ [68] より引用。
    ▲ [68: Figure 2] より引用。枠線追加により一部改変。

    View Slide

  228. ❖ Heun法に基づく確率的サンプリング手法の提案
    決定的サンプリング手法は、生成が一意であるため、データ分布を潜在表現と紐づけることができる利点がある。一方で生成品質の観点では、一般に確率的なサンプリング手法が勝る場合が多いことが知
    られている。EDMでは、先述の係数         を採用した上で、次のように確率的なサンプリング手法を設計した。
    結果、最適な             を用いることでさらに生成品質が向上することを示した。ただし、これらの変数は固定せず、問題ごとに調整するべきであるとの知見も得られた。
    228
    EDM
    [NVIDIA]
    Figure citation | Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    ▲ [68] より引用。
    ▲ [68: Figure 4] より引用。枠線追加により一部改変。

    View Slide

  229. ❖ 訓練時の工夫
    DDPMのように時刻に関して一様に訓練するのではなく、効果的な拡散強度帯を重点的に学習できるようなスキームを提案。これは、極めて小さな拡散強度帯では付加されたノイズレベルを見分けることが
    困難かつ最終出力とほぼ無関係であること、 および大きな拡散強度帯では入力がほぼノイズであり 、損失関数を最小化するような解(データセットの平均)と個別の学習対象が乖離するという考察に基づ
    いている。具体的には、範囲を限定した対数正規分布からランダムに拡散強度  をサンプリングし訓練に用いる。加えて、GANの文脈で提案されたデータオーグメンテーションが一貫して品質向上に有用
    であることも確認された。
    下表は、ここまでの各観点での工夫を整理し、既存手法の一部と比較したもの。     を構成する各係数は、主に学習安定化の観点から理論的あるいは実験的に導出された。
    229
    EDM
    [NVIDIA]
    Table citation | Elucidating the Design Space of Diffusion-Based Generative Models [Peebles et al., NeurIPS 2022] [68]
    ▲ [68: Table 1] より引用。

    View Slide

  230. 230
    U-Netからの脱却
    補遺G-2

    View Slide

  231. Dec 19, 2022 | Transformerを用いた新たなデザインである DiT(Diffusion Transformer)を提案
    ViTの流れを汲み、U-NetをTransformerに置換する手法。LDMへの適用で従来手法から生成品質を向上させSOTAを達成。
    ❖ 潜在空間をパッチ化することでTransformerでの処理に接続
    画像分野においてTransformerを成功裡に導入したViTを踏襲しつつ、Transformerのスケーリング則を維持するために標準的なモデルにできるだけ忠実な構造を目指した。具体的には、例えば画像入力の
    解像度が256x256x3であれば、まずLDMのエンコーダにて32x32x4の潜在特徴量に圧縮した上で、これを小領域のグリッドで区切りパッチ化。線形層や位置埋め込みを介してトークン化し、Transformer
    部の入力とする。パッチ化に際しては、各パッチの1辺のピクセル数を2, 4, 8(c.f., 元解像度が256x256であれば、トークン数としては256, 64, 16)として実験。
    231
    DiT
    [UC Berkeley, NYU]
    Figure citation | Scalable Diffusion Models with Transformers [Peebles et al., 2022] [74]
    ▲ [74: Figure 1] より引用。 ▲ [74: Figure 17] より抜粋。 ▲ [74: Figure 18] より抜粋。

    View Slide

  232. ❖ 複数のモデルサイズを用意
    層数や潜在空間の次元数、Attention のヘッド数を変え、パラメータが大きくなる順にDiT-
    S、DiT-B、DiT-Lおよび DiT-XL を提案(e.g., DiT-XLは28層、1152次元、16ヘッド)。か
    つ、潜在特徴をパッチ化する際の1辺のピクセル数を末尾に付け加え、モデル設定を表現。
    ❖ 4種類のTransformer Blockを提案し、性能比較
    逆拡散過程の時刻情報、クラス情報やプロンプト等、様々な条件付けを DiT のTransformer
    Blockに取り込む方法として、以下の4種類を提案。
    In-context conditioning : 条件付けをそれぞれトークン化し、入力のトークン列に結合す
    る([CLS] などの特殊トークンと同様の扱い)。モデルアーキ
    テクチャへの変更が不要。
    Cross-Attention block : 条件付けをトークン化して結合し、追加のCross-Attentionの
    Key-Value として取り込む。
    adaLN block : LN(Layer Normalization)を、ADMにおける adaGN のよう
    に適応的な層に改変。条件付けのトークンの和から LN のパラ
    メータを求めて用いる。候補中で最小の計算量。
    adaLN-Zero block : adaLNに加えて残差接続の前に線形層を設け、出力が0ベクト
    ルとなるよう初期化。 学習初期は残差接続が恒等関数となり、
    学習の安定化や加速が促進される。
    ImageNetにおけるDiT-XL/2設定の実験にて、adaLN-Zero blockが最も優秀なFID値を達成。
    このとき、解像度256x256の画像において、DiT-XL/2の計算量は118.6Gflops。
    232
    DiT
    [UC Berkeley, NYU]
    Figure citation | Scalable Diffusion Models with Transformers [Peebles et al., 2022] [74]
    ▲ [74: Figure 3] より引用。
    DiTのコアとなる構造。LDMの潜在特徴を受け取り、逆拡散過程におけるノイズとその分散を予測する。
    ▲ [74: Figure 5] より引用。
      adaLN-Zeroが安定して高性能。
    ▲ [74: Figure 4] より引用。
    ViTに準拠した入力方法。空間的な潜在特徴を
    パッチ化して直列に並べ、Transformerに通す。

    View Slide

  233. ❖ Transformerモデルのスケーリング則を実証
    モデルの各設定を網羅的に調査し、モデルが大きいほど、またパッチサイズが小さい(画
    像を表現するトークン数が多い)ほど性能向上することを確認。これらを合わせ、モデル
    サイズそのものではなく、モデル全体の計算量が生成品質と強い相関があることを示した。
    ❖ 大きなモデルほど学習時の計算効率性が高いことを確認
    誤差逆伝播も含めた学習時の総計算量を概算し、各設定ごとに性能比較。モデルサイズが
    大きくパッチサイズが小さいほど、同じ訓練計算量でより良い性能に到達することを実証。
    ❖ 大きなモデルほど推論時の計算効率性が極めて高いことを確認
    推論時のサンプルステップを変えて各設定間の生成品質を比較。同水準の計算量を消費し
    ても、より小さい設定はより大きな設定の品質から乖離することを示した(e.g., DiT-L/2
    にて1000ステップで推論した場合と DiT-XL/2 にて128ステップで推論した場合を比較す
    ると、後者は5倍以上高効率でありながらより低いFID値を達成)。
    ❖ 上記の性質を定性的にも確認
    各設定を400Kステップ学習させ、様々なクラスで条件付けした画像をそれぞれ同一のノイ
    ズから生成(右図)。DiT-XL/2 の設定が最も自然で高品質な生成ができている。パッチを
    大きくしたりモデルを小さくすると、全体構造が壊滅的に崩壊する様子が見てとれる。
    233
    DiT
    [UC Berkeley, NYU]
    Figure citation | Scalable Diffusion Models with Transformers [Peebles et al., 2022] [74]
    ▲ [74: Figure 7] より抜粋。
    各画像で右に行くほどモデルサイズが大きく、下に行くほどパッチサイズが小さい設定。右下がDiT-XL/2を表す。
    ▲ [74: Figure 9] より引用。
    DiT-XL/2が最も学習計算効率が高い。
    ▲ [74: Figure 10] より引用。
    ステップ数 [16, 32, 64, 128, 256, 1000] での生成品質。

    View Slide

  234. ここまでのベストプラクティスに基づき先行研究と比較
    adaLN-Zero blockで構成したDiT-XL/2を1000時刻の逆拡散過程で学習。ADMと同様に
    ノイズの平均と分散を予測するほか、時刻とクラス情報の埋め込みもADMに倣う。画像
    を潜在空間に射影するモジュールには事前学習済みStableDiffusionのVAEを流用。 より
    大きなモデルやトークン数でスケーリング則を推し進めたり、 条件付けにテキストを用
    いるText2Imageへの応用は今後の展望であるとしている。
    ❖ 解像度256x256のImageNet
    クラスで条件付けするSOTA手法と比較。 分類器不使用型誘導と併用するこ
    とで、 主要な拡散モデル手法を凌駕する性能を記録。 また、StyleGAN-XL
    を含む生成モデルと比較しても FID値および IS値でSOTA。表中のDiT-XL/2
    は 7Mステップで学習しているが、ADMと同程度の2.35Mステップで学習し
    ても既存のDiffuson系手法を上回るFID値2.55を達成。
    ❖ 解像度512x512のImageNet
    256x256の場合と同様のハイパーパラメータで3Mステップ学習。既存の
    拡散モデルを上回った。解像度が上がったことでトークン数は1024へ増
    加しているが、ADMよりも省計算量を実現(e.g., ADM-Uは2813 Gflops、
    DiT-XL/2は524.6 Gflops)。
    234
    DiT
    [UC Berkeley, NYU]
    Figure & Table citation | Scalable Diffusion Models with Transformers [Peebles et al., 2022] [74]
    ▲ [74: Figure 2] より引用。
    円が小さいほど計算量が小さく、図の下側にあるほど生成品質が高い。DiT-XL/2はLDMと同程度の軽量さで最も高性能。
    ▲ [74: Table 2] より引用。
    ▲ [74: Table 3] より引用。

    View Slide

  235. 235
    人手のフィードバックの利用
    補遺G-3

    View Slide

  236. Feb 23, 2023 | 大規模言語モデルを飛躍的に改善させた知見の輸入
    2022年末から突如として一世を風靡したChatGPTや、その前身であるInstructGPTで用いられたスキー
    ムを簡易化して導入。 特に、人手の評価に基づく強化学習(RLHF)ではなく、半教師あり学習に基づく
    ファインチューニングである点には留意。テキスト反映度と生成品質のトレードオフを劇的に改善。
    236
    二値報酬推定に基づく整合性改善
    [Google Research, UC Berkeley]
    Figure citation | Aligning Text-to-Image Models using Human Feedback [Lee et al., 2023] [76]
    ▲ [76: Figure 1] より引用。 提案手法の概要。
    ▲ [76: Figure 2] より抜粋。
    元モデル(左)と提案手法適用後(右)の比較。元モデルでは『緑色の犬』のように稀有な属性の組み合わせが正しく反映
    されなかったり、犬や虎の個体数が指示と乖離していたりする一方で、提案手法はプロンプトに忠実な生成を実現。
    ❖ 第一段階:データ収集
    従来の Text2Image モデルが特に苦手としていたカテゴリ(i.e., 数、色、背景)に着目し、いくつ
    かの属性と何らかの対象を組み合わせて簡易的なプロンプトセットを作成。 同一プロンプトに対し
    て複数種類(e.g., 60枚)の画像を生成し、生成画像群の良し悪しを複数のラベラーにより二値評価。
    プロンプトの単純さに鑑み、 ランキングのような複雑な指標は本研究では不使用。

    View Slide

  237. ❖ 第二段階:報酬推定
    CLIP 画像埋め込みとテキストプロンプトを入力に、第一段階で得られた二値評価を予測する報酬関数を MSE で学習。
    このとき、評価値に基づくデータオーグメンテーションを導入。具体的には、『良い』と評価された画像テキストペア
    に対し、元テキストの亜種を複数作成 (e.g., 元が『緑色の犬』なら『赤/青/…/黄色の犬』)。 それぞれの組み合
    わせにおける報酬推定値を温度付きSoftmaxに通し、正しいペアの予測確率が高くなるようにクロスエントロピーを取
    ることで補助的な損失関数とする。
    ❖ 第三段階:Text2Imageモデルのファインチューニング
    プロンプトと生成画像のペアに対し、その報酬推定値で重み付けした負の対数尤度を最適化。これは、フィードバック
    に基づいて直接テキストと生成画像の整合性を改善する指標として設計されている。ただし、生成画像のみを用いた学
    習では多様性が損なわれる可能性があるため、事前学習に用いたデータセットも併用。通常データセットにおけるキャ
    プションから実際の画像を生成する負の対数尤度を最適化し、生成画像の品質や自然性を担保する。InstructGPT にお
    ける RLHF ではPPOと呼ばれる強化学習手法が採用されたが、そのような手法はより高品質な結果を導くことが期待さ
    れる傍らでハイパーパラメータ調整等の難易度が高いことに触れ、今後の展望としている。
    ❖ 棄却型サンプリング
    DALL·E や Parti で用いられたように、入力プロンプトに対して複数枚の画像を生成した上で、ある指標における最良
    の結果を返す方法を試行。 提案手法を適用しないオリジナルのStableDiffusionについて、16枚の生成後、報酬推定値
    に基づき上位4枚を抽出した結果、画像とテキストの整合性が優位に改善することを確認。これをもって、学習された
    報酬関数の重要性が裏付けられた。 一方で、 提案手法によりファインチューニングされたモデルでは棄却型サンプリ
    ングに優位な効果は見られず、学習を通じて適切なバランスがモデル内に内包されていることが示唆された。
    237
    二値報酬推定に基づく整合性改善
    [Google Research, UC Berkeley]
    Figure citation | Aligning Text-to-Image Models using Human Feedback [Lee et al., 2023] [76]
    ▲ [76: Figure 4] より引用。
    120プロンプトにおいて、元モデルの生成画像と提案手法による生成画像を人手
    で評価した結果。生成品質(右)はほぼ同水準といえる一方で、画像とテキスト
    の整合性(左)は提案手法が優位に勝る評価を得た。
    ▲ [76: Figure 6] より抜粋。
    元モデルに棄却型サンプリングを適用した評価結果。

    View Slide

  238. © DeNA Co., Ltd.
    23
    8

    View Slide