Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
Search
画像センシングシンポジウム
PRO
June 11, 2024
Research
2
2.5k
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
画像センシングシンポジウム
PRO
June 11, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
800
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
230
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.3k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
680
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
580
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
560
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
570
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.3k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.5k
Other Decks in Research
See All in Research
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
4
960
[依頼講演] 適応的実験計画法に基づく効率的無線システム設計
k_sato
0
180
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
170
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
2
140
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
210
アプリケーションから知るモデルマージ
maguro27
0
200
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
210
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
710
さんかくのテスト.pdf
sankaku0724
0
570
12
0325
0
200
Weekly AI Agents News! 12月号 プロダクト/ニュースのアーカイブ
masatoto
0
110
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
360
Featured
See All Featured
Site-Speed That Sticks
csswizardry
2
200
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Rails Girls Zürich Keynote
gr2m
94
13k
Unsuck your backbone
ammeep
669
57k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
830
How GitHub (no longer) Works
holman
311
140k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Statistics for Hackers
jakevdp
796
220k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Practical Orchestrator
shlominoach
186
10k
Transcript
拡散モデルの今 〜2024年の研究動向〜 2024.6.13 シーン 誠(Sakana AI)
自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana
AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
今日のアジェンダ 1. 拡散モデルの基礎 2. 最近の拡散モデルの応用先 3. 拡散モデルの改善 4. 見方を変えた拡散モデル 5.
最後に
拡散モデルの 基礎
GANとの比較 GAN 拡散モデル ノイズ画像から一気に生成 少しずつ ノイズを除去することで生成
拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]
出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの推論 • 推定したscoreを用いてサンプリング • 多くは、対応するODE(Probability Flow ODE)として解いている • 最初のノイズ画像が決まれば決定的に決まる •
SDEで解くと、毎時点でランダム性がある ランダム項 SDE ODE 画像時点への軌跡 画像時点への軌跡
ODEベースのサンプリング • ODEは、ノイズからデータまでの軌跡が一定 • ノイズ画像が決まれば、その軌跡をたどって決定的に画像が決まる • 学習時にもODEベースで考える手法が多く出ている!(後述) Figure 2. “Score-Based
Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
拡散モデルの課題点 • ノイズを少しずつ除去していく → 除去の区間を短くすればするほど良い画像が手に入る → 生成速度が従来手法(e.g. GAN)と比べて遅い
最近の 拡散モデルの 応用先
最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成
“Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
テキスト生成(1/3) 自己回帰モデルの課題 • 自己回帰の仮定から、同時分布を限定 • 推論時の並列計算ができない 拡散モデルを適用する時の課題 • 離散データであるため、勾配が含まれて いるscoreが定義されない
これまでの単語に依存して、生成される。 同時分布は、 p(吾輩 は 猫) = p(吾輩) ᐧ p(は | 吾輩) ᐧ p(猫 | 吾輩 は) 吾輩 吾輩 は 吾輩 は 猫
テキスト生成(2/3) • scoreの代わりに、系列間の比率(concrete score)を使う! • score:データ分布の密度の高い方向 • concrete score:系列xと比べた時の系列yの出やすさ ∇log
p(x) p(y) / p(x) Language Modeling by Estimating the Ratios of the Data Distribution https://aaronlou.com/blog/2024/discrete-diffusion/
テキスト生成(3/3) ★ top-pサンプリングなどのサンプリング手法が必要ない ★ Infilling(吾輩は?である)も可能 ★ top-pありの自己回帰モデルと同等の精度を達成 “Discrete Diffusion Modeling
by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/
拡散モデルの 改善
U-NetからTransformerへ • これまではU-Netベースが基本だった ◦ Transformerベース(DiT)の手法は2023年には提案されていたが、まだ広く使われていなかった • Transformerベースが現在は使われてきている(e.g. PixArt-α, SD3, Sora)
• Transformer構造はU-Netと比べ、 ◦ スケーリングがしやすい ◦ Transformer構造は様々なモダリティで研究されており拡張がしやすい
生成の高速化 • 従来20~50ステップ必要だったところ、1~8ステップ(5~20倍の生成速度)で十分に なってきている! • 中でも、注目のConsistency Modelsと敵対的学習 https://twitter.com/multimodalart/status/1783145462029062565
生成の高速化:Consistency Models(1/4) 拡散モデル データ分布への方向(スコア)を推定 任意の時点から直接データを推定 Consistency Models 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(2/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ① データから任意の時点の ノイズ画像をサンプル 【定義】(Consistency Model) 任意の時点t,
t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(3/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ② teacherからODE solverを使って、 前の時点の画像を推定 【定義】(Consistency Model)
任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:Consistency Models(4/4) • ゼロから学習するのではなく、学習済み拡散モデル(例えば、SDXL)を利用 ③ 2つのノイズ画像をf θ に入力し、そ れぞれが近くなるように学習する 「ODEの軌道上の点は、理論的に同じ地点に戻る
」性 質を利用している! 【定義】(Consistency Model) 任意の時点t, t’ ∈ [0, T]に対して、 f(x t ) = f(x t’ )=x 0 となるfをconsistency modelと呼ぶ。
生成の高速化:敵対的学習の活用 • GANで使われている敵対的学習を導入する手法が増えている • 生成モデル(Generator)と識別器(Discriminator)を同時に学習する • GeneratorはDiscriminatorが区別できないように、似た画像を生成 SDXL Turbo: https://stability.ai/research/adversarial-diffusion-distillation
Generatorはteacherの生成画像 に似るように学習 Discriminatorは元画像とGeneratorの 生成画像を区別できるように学習
見方を変えた 拡散モデル
Rectified Flow(1/3) • データ分布とノイズ分布の効率的な輸送を考える • データ → ノイズのODE(ランダム項ないSDE)を考える • 画像時点からノイズ時点を直線で結んだベクトルを学習する
Rectified Flow(2/3) • 推論では、学習されたベクトルを逆方向にしたものを用いて、サンプリング • 少ないステップでも良い精度の画像生成が可能! • Stable Diffusion 3で用いられている
Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能
Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003
最後に
まとめ • 色々なモダリティで拡散モデルが使われている • 拡散モデルもTransformerベースの構造を利用 • 拡散モデルの最大の課題を解決するために、軌道が一定なODEをベースとした手 法が盛んに研究されている • ODEの軌道の中でも、輸送という立場から最短の軌道を学習する手法がでてきてい
る
今後の研究予想(1/2) • Transformer構造がベースとしてあるNLP技術(e.g. MoE)が導入 • ODEベースの研究が盛んに行われ、ゼロから高速モデルが学習可能になる • 拡散モデルから計算される尤度の研究(e.g. 異常検知) •
実は、ODEから尤度を計算することができる* * “Score-Based Generative Modeling through Stochastic Differential Equations”, https://arxiv.org/abs/2011.13456
今後の研究予想(2/2) • 現在、広く使われている拡散モデルは、実は真のスコアを推定できていない。→ 根 本となる”Score Matching”により忠実な目的関数の導入 データ分布への方向(スコア)を推定 本当は、真の方向⛛log p(x t
)を推定したい (pは真のデータ分布) 拡散モデル(Denoising Score Matching)は、条 件付きスコア⛛log p(x t | x 0 )を推定している
None