SSII2024 [SS1] 拡散モデルの今　〜 2024年の研究動向〜

by 画像センシングシンポジウム

Slide 1

Slide 1 text

拡散モデルの今〜2024年の研究動向〜 2024.6.13  シーン誠（Sakana AI）

Slide 2

Slide 2 text

自己紹介：シーン　誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベースのtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例左：「北極にある京都」右：「ひまわりの油絵」

Slide 3

Slide 3 text

今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5. 最後に

Slide 4

Slide 4 text

拡散モデルの基礎

Slide 5

Slide 5 text

GANとの比較 GAN 拡散モデルノイズ画像から一気に生成少しずつノイズを除去することで生成

Slide 6

Slide 6 text

拡散モデルの学習入力 • 画像 • 時間 t ∊ [0, T] 出力 • 時間 t におけるノイズ除去する方向（scoreと呼ぶ）目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって近似している（Denoising score matching） “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456

Slide 7

Slide 7 text

拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE（Probability Flow ODE）として解いている • 最初のノイズ画像が決まれば決定的に決まる • SDEで解くと、毎時点でランダム性があるランダム項 SDE ODE 画像時点への軌跡画像時点への軌跡

Slide 8

Slide 8 text

ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている！（後述） Figure 2. “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456

Slide 9

Slide 9 text

拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法（e.g. GAN）と比べて遅い

Slide 10

Slide 10 text

最近の拡散モデルの応用先

Slide 11

Slide 11 text

最近の拡散モデルの応用先動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成 “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成

Slide 12

Slide 12 text

テキスト生成（1/3）自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれているscoreが定義されないこれまでの単語に依存して、生成される。同時分布は、 p(吾輩は猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩は) 吾輩吾輩は吾輩は猫

Slide 13

Slide 13 text

テキスト生成（2/3） • scoreの代わりに、系列間の比率（concrete score）を使う！ • score：データ分布の密度の高い方向 • concrete score：系列xと比べた時の系列yの出やすさ ∇log p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/

Slide 14

Slide 14 text

テキスト生成（3/3） ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling（吾輩は？である）も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/

Slide 15

Slide 15 text

拡散モデルの改善

Slide 16

Slide 16 text

U-NetからTransformerへ ● これまではU-Netベースが基本だった ○ Transformerベース（DiT）の手法は2023年には提案されていたが、まだ広く使われていなかった ● Transformerベースが現在は使われてきている（e.g. PixArt-α, SD3, Sora） ● Transformer構造はU-Netと比べ、 ○ スケーリングがしやすい ○ Transformer構造は様々なモダリティで研究されており拡張がしやすい

Slide 17

Slide 17 text

生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ（5~20倍の生成速度）で十分になってきている！ • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565

Slide 18

Slide 18 text

生成の高速化：Consistency Models（1/4）拡散モデルデータ分布への方向（スコア）を推定任意の時点から直接データを推定 Consistency Models 【定義】（Consistency Model）任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

Slide 19

Slide 19 text

生成の高速化：Consistency Models（2/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ① データから任意の時点のノイズ画像をサンプル【定義】（Consistency Model）任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

Slide 20

Slide 20 text

生成の高速化：Consistency Models（3/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ② teacherからODE solverを使って、前の時点の画像を推定【定義】（Consistency Model）任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

Slide 21

Slide 21 text

生成の高速化：Consistency Models（4/4） • ゼロから学習するのではなく、学習済み拡散モデル（例えば、SDXL）を利用 ③ 2つのノイズ画像をf θ に入力し、それぞれが近くなるように学習する「ODEの軌道上の点は、理論的に同じ地点に戻る」性質を利用している！【定義】（Consistency Model）任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。

Slide 22

Slide 22 text

生成の高速化：敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル（Generator）と識別器（Discriminator）を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation Generatorはteacherの生成画像に似るように学習 Discriminatorは元画像とGeneratorの生成画像を区別できるように学習

Slide 23

Slide 23 text

見方を変えた拡散モデル

Slide 24

Slide 24 text

Rectified Flow（1/3） • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE（ランダム項ないSDE）を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する

Slide 25

Slide 25 text

Rectified Flow（2/3） • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能！ • Stable Diffusion 3で用いられている

Slide 26

Slide 26 text

Rectified Flow（3/3） • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能 Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003

Slide 27

Slide 27 text

最後に

Slide 28

Slide 28 text

まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきている

Slide 29

Slide 29 text

今後の研究予想（1/2） • Transformer構造がベースとしてあるNLP技術（e.g. MoE）が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究（e.g. 異常検知） • 実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456

Slide 30

Slide 30 text

今後の研究予想（2/2） • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根本となる”Score Matching”により忠実な目的関数の導入データ分布への方向（スコア）を推定本当は、真の方向⛛log p(x t )を推定したい（pは真のデータ分布）拡散モデル（Denoising Score Matching）は、条件付きスコア⛛log p(x t | x 0 )を推定している

Slide 31

Slide 31 text

No content