Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
Search
画像センシングシンポジウム
PRO
June 11, 2024
Research
2
2.6k
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
画像センシングシンポジウム
PRO
June 11, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
950
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
250
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.4k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
770
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
730
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
610
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
620
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.4k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.6k
Other Decks in Research
See All in Research
ドローンやICTを活用した持続可能なまちづくりに関する研究
nro2daisuke
0
150
Building Height Estimation Using Shadow Length in Satellite Imagery
satai
3
200
Optimal and Diffusion Transports in Machine Learning
gpeyre
0
1.2k
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
24
6k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.4k
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
430
DeepSeek-R1の論文から読み解く背景技術
personabb
3
350
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
350
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
5
1k
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.7k
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
1.1k
EBPMにおける生成AI活用について
daimoriwaki
0
280
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
22
1.4k
How GitHub (no longer) Works
holman
314
140k
A Tale of Four Properties
chriscoyier
158
23k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
51k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
134
33k
Optimizing for Happiness
mojombo
377
70k
For a Future-Friendly Web
brad_frost
176
9.6k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.3k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7.1k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
拡散モデルの今 〜2024年の研究動向〜 2024.6.13 シーン 誠(Sakana AI)
自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に
拡散モデルの 基礎
GANとの比較 GAN 拡散モデル ノイズ画像から一気に生成 少しずつ ノイズを除去することで生成
拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE(Probability Flow ODE)として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性がある ランダム項 SDE ODE 画像時点への軌跡 画像時点への軌跡
ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている!(後述) Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法(e.g. GAN)と比べて遅い
最近の 拡散モデルの 応用先
最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
テキスト生成(1/3) 自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない 拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれて いるscoreが定義されない
これまでの単語に依存して、生成される。 同時分布は、 p(吾輩 は 猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩 は) 吾輩 吾輩 は 吾輩 は 猫
テキスト生成(2/3) • scoreの代わりに、系列間の比率(concrete score)を使う! • score:データ分布の密度の高い方向 • concrete score:系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/
テキスト生成(3/3) ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling(吾輩は?である)も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/
拡散モデルの 改善
U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース(DiT)の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている(e.g. PixArt-α, SD3, Sora)
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい
生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ(5~20倍の生成速度)で十分に なってきている! • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565
生成の高速化:Consistency Models(1/4) 拡散モデル データ分布への方向(スコア)を推定 任意の時点から直接データを推定 Consistency Models 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(2/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ① データから任意の時点の ノイズ画像をサンプル 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(3/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ② teacherからODE solverを使って、 前の時点の画像を推定 【定義】(Consistency Model)
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(4/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ③ 2つのノイズ画像をf θ に入力し、そ れぞれが近くなるように学習する 「ODEの軌道上の点は、理論的に同じ地点に戻る
」性 質を利用している! 【定義】(Consistency Model) 任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル(Generator)と識別器(Discriminator)を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像 に似るように学習 Discriminatorは元画像とGeneratorの 生成画像を区別できるように学習
見方を変えた 拡散モデル
Rectified Flow(1/3) • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE(ランダム項ないSDE)を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する
Rectified Flow(2/3) • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能! • Stable Diffusion 3で用いられている
Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003
最後に
まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手 法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る
今後の研究予想(1/2) • Transformer構造がベースとしてあるNLP技術(e.g. MoE)が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究(e.g. 異常検知) •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456
今後の研究予想(2/2) • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根 本となる”Score Matching”により忠実な目的関数の導入 データ分布への方向(スコア)を推定 本当は、真の方向⛛log p(x t
)を推定したい (pは真のデータ分布) 拡散モデル(Denoising Score Matching)は、条 件付きスコア⛛log p(x t | x 0 )を推定している
None