Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
Search
画像センシングシンポジウム
PRO
June 11, 2024
Research
2
2.6k
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
画像センシングシンポジウム
PRO
June 11, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
880
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
250
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.3k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
730
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
670
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
590
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
590
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.3k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.6k
Other Decks in Research
See All in Research
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
220
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
770
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
180
国際会議ACL2024参加報告
chemical_tree
1
410
QGISハンズオン事に質問のあったProjectのGeoPackageへの保存方法についての、補足の資料です。
wata909
0
120
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
180
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
270
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
380
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
190
精度を無視しない推薦多様化の評価指標
kuri8ive
1
350
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.5k
リモートワークにおけるパッシブ疲労
matsumoto_r
PRO
7
4.9k
Featured
See All Featured
A designer walks into a library…
pauljervisheath
205
24k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
520
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Designing for humans not robots
tammielis
250
25k
How GitHub (no longer) Works
holman
312
140k
How to Ace a Technical Interview
jacobian
276
23k
It's Worth the Effort
3n
184
28k
4 Signs Your Business is Dying
shpigford
182
22k
Transcript
拡散モデルの今 〜2024年の研究動向〜 2024.6.13 シーン 誠(Sakana AI)
自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に
拡散モデルの 基礎
GANとの比較 GAN 拡散モデル ノイズ画像から一気に生成 少しずつ ノイズを除去することで生成
拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE(Probability Flow ODE)として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性がある ランダム項 SDE ODE 画像時点への軌跡 画像時点への軌跡
ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている!(後述) Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法(e.g. GAN)と比べて遅い
最近の 拡散モデルの 応用先
最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
テキスト生成(1/3) 自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない 拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれて いるscoreが定義されない
これまでの単語に依存して、生成される。 同時分布は、 p(吾輩 は 猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩 は) 吾輩 吾輩 は 吾輩 は 猫
テキスト生成(2/3) • scoreの代わりに、系列間の比率(concrete score)を使う! • score:データ分布の密度の高い方向 • concrete score:系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/
テキスト生成(3/3) ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling(吾輩は?である)も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/
拡散モデルの 改善
U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース(DiT)の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている(e.g. PixArt-α, SD3, Sora)
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい
生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ(5~20倍の生成速度)で十分に なってきている! • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565
生成の高速化:Consistency Models(1/4) 拡散モデル データ分布への方向(スコア)を推定 任意の時点から直接データを推定 Consistency Models 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(2/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ① データから任意の時点の ノイズ画像をサンプル 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(3/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ② teacherからODE solverを使って、 前の時点の画像を推定 【定義】(Consistency Model)
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(4/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ③ 2つのノイズ画像をf θ に入力し、そ れぞれが近くなるように学習する 「ODEの軌道上の点は、理論的に同じ地点に戻る
」性 質を利用している! 【定義】(Consistency Model) 任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル(Generator)と識別器(Discriminator)を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像 に似るように学習 Discriminatorは元画像とGeneratorの 生成画像を区別できるように学習
見方を変えた 拡散モデル
Rectified Flow(1/3) • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE(ランダム項ないSDE)を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する
Rectified Flow(2/3) • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能! • Stable Diffusion 3で用いられている
Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003
最後に
まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手 法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る
今後の研究予想(1/2) • Transformer構造がベースとしてあるNLP技術(e.g. MoE)が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究(e.g. 異常検知) •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456
今後の研究予想(2/2) • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根 本となる”Score Matching”により忠実な目的関数の導入 データ分布への方向(スコア)を推定 本当は、真の方向⛛log p(x t
)を推定したい (pは真のデータ分布) 拡散モデル(Denoising Score Matching)は、条 件付きスコア⛛log p(x t | x 0 )を推定している
None