拡散モデルによる画像生成（CVIMチュートリアル）

• • 𝑝(𝑥) {𝑥𝑖 }𝑖=1 𝑁 𝑥~𝑝(𝑥)

• • • 𝑝(𝑧) 𝑧~𝑝(𝑧) … … … … …
… {𝑥𝑖 }𝑖=1 𝑁 𝑥 = 𝑓(𝑧)

• • •

• • 𝑞 𝑥𝑡 𝑥𝑡−1 ≔ 𝑁(𝑥𝑡 ; 1 −
𝛽𝑡 𝑥𝑡−1 , 𝛽𝑡 𝐈) 𝑥𝑡 = 1 − 𝛽𝑡 𝑥𝑡−1 + 𝛽𝑡 𝜖 𝑞 𝑥1:𝑇 𝑥0 = ෑ 𝑡=1 𝑇 𝑞 𝑥𝑡 𝑥𝑡−1 𝑥𝑖 𝑡=1 𝑇

• 𝑥0 𝑥𝑡 • 𝑥0 𝑥𝑡 = 1 − 𝛽𝑡
𝑥𝑡−1 + 𝛽𝑡 𝜖 = 1 − 𝛽𝑡 ( 1 − 𝛽𝑡−1 𝑥𝑡−2 + 𝛽𝑡−1 𝜖′) + 𝛽𝑡 𝜖 = 1 − 𝛽𝑡 1 − 𝛽𝑡−1 𝑥𝑡−2 + 1 − (1 − 𝛽𝑡 )(1 − 𝛽𝑡−1 )𝜖′′ = … = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 ത 𝛼𝑡 = ς𝑖=1 𝑡 (1 − 𝛽𝑖 )

• 𝑥0 𝑥𝑡 • 𝑥0 𝑥𝑡 = 1 − 𝛽𝑡
𝑥𝑡−1 + 𝛽𝑡 𝜖 = 1 − 𝛽𝑡 ( 1 − 𝛽𝑡−1 𝑥𝑡−2 + 𝛽𝑡−1 𝜖′) + 𝛽𝑡 𝜖 = 1 − 𝛽𝑡 1 − 𝛽𝑡−1 𝑥𝑡−2 + 1 − (1 − 𝛽𝑡 )(1 − 𝛽𝑡−1 )𝜖′′ = … = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 ത 𝛼𝑡 = ς𝑖=1 𝑡 (1 − 𝛽𝑖 ) 𝛽𝑡 ത 𝛼𝑡

• • •

• 𝑥𝑡−1 𝑥𝑡 𝑥𝑡−1 𝑥𝑡 1 − 𝛽𝑡 𝑥𝑡−1 𝑥𝑡−1
𝛽𝑡

• 𝑥𝑡−1 𝑥𝑡 𝑥𝑡−1 𝑥𝑡 1 − 𝛽𝑡 𝑥𝑡−1 𝑥𝑡−1
𝛽𝑡 𝛽𝑡 𝑝𝜃 𝑥𝑡−1 𝑥𝑡 = 𝑁(𝑥𝑡−1 ; 𝜇𝜃 (𝑥𝑡 ,𝑡), 𝚺𝜃 (𝑥𝑡 ,𝑡)) 𝜎𝑡 2𝑰 𝜎𝑡 2 = 𝛽𝑡

# Initialization xt = random.normal(0, 1, (3,H,W)) # Reverse diffusion
process for t in range(T, 0, -1): # estimate mean mu = estimate_mean(model, xt, t) # use fixed sigma sigma = beta[t] ** 0.5 # sample x_{t-1} xt = mu + sigma * random.normal(0, 1, (3,H,W)) # return x_0 return xt

• • •

• 𝑝𝜃 (𝑥) 𝑝data (𝑥) • 𝜃∗ = arg min
𝜃 𝐷𝐾𝐿 (𝑝data (𝑥)||𝑝𝜃 (𝑥)) = arg min 𝜃 𝔼𝑝data(𝑥) log𝑝data (𝑥) − 𝔼𝑝data(𝑥) log 𝑝𝜃 (𝑥) = arg min 𝜃 𝔼𝑝data(𝑥) − log 𝑝𝜃 (𝑥)

• − log 𝑝𝜃 𝑥0 = − log න 𝑝𝜃
𝑥0:𝑇 d𝑥1:𝑇 = − log න 𝑞(𝑥1:𝑇 |𝑥0 ) 𝑝𝜃 𝑥0:𝑇 𝑞(𝑥1:𝑇 |𝑥0 ) d𝑥1:𝑇 ≤ − න 𝑞 𝑥1:𝑇 𝑥0 log 𝑝𝜃 𝑥0:𝑇 𝑞 𝑥1:𝑇 𝑥0 d𝑥1:𝑇 = 𝔼𝑞(𝑥1:𝑇|𝑥0) log 𝑞 𝑥1:𝑇 𝑥0 𝑝𝜃 𝑥0:𝑇 log𝔼𝑞 [𝑉] ≥ 𝔼𝑞 [log𝑉] 𝑥0 𝑥0:𝑇 𝑥0 𝑥1:𝑇

• 𝑞 𝑥1:𝑇 𝑥0 = ෑ 𝑡=1 𝑇 𝑞 𝑥𝑡
𝑥𝑡−1 = 𝐷KL 𝑞 𝑥𝑇 𝑥0 ԡ𝑝𝜃 𝑥𝑇 − 𝔼𝑞(𝑥1|𝑥0) log 𝑝𝜃 (𝑥0 |𝑥1 ) + ෍ 𝑡=2 𝑇 𝔼𝑞(𝑥𝑡|𝑥0) 1 2𝜎𝑡 2 ෤ 𝜇𝑡 𝑥𝑡 ,𝑥0 − 𝜇𝜃 (𝑥𝑡 , 𝑡) 2 + const. 𝑥𝑡 ෤ 𝜇𝑡

• ෤ 𝜇𝑡 𝑥𝑡 ,𝑥0 = 𝑐0 𝑥0 + 𝑐1
𝑥𝑡 = 𝑐0 ത 𝛼𝑡 + 𝑐1 𝑥𝑡 − 𝑐0 1 − ത 𝛼𝑡 ത 𝛼𝑡 𝜖 𝑐0 = 𝛽𝑡 1 − 𝛽𝑡−1 1 − ത 𝛼𝑡 , 𝑐1 = 1 − 𝛽𝑡 (1 − ത 𝛼𝑡−1 ) 1 − ത 𝛼𝑡 𝑥𝑡 = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 𝑥𝑡 ෤ 𝜇𝑡 𝑥𝑡 𝑥0 𝑥𝑡 𝜖

• 𝑞 𝑥1:𝑇 𝑥0 = ෑ 𝑡=1 𝑇 𝑞 𝑥𝑡
𝑥𝑡−1 = 𝐷KL 𝑞 𝑥𝑇 𝑥0 ԡ𝑝𝜃 𝑥𝑇 − 𝔼𝑞(𝑥1|𝑥0) log 𝑝𝜃 (𝑥0 |𝑥1 ) + ෍ 𝑡=2 𝑇 𝔼𝑞(𝑥𝑡|𝑥0) 1 2𝜎𝑡 2 ෤ 𝜇𝑡 𝑥𝑡 ,𝑥0 − 𝜇𝜃 (𝑥𝑡 , 𝑡) 2 + const. 𝜖

• 𝜖 • • = 𝔼𝑡,𝜖 𝜖 − 𝜖𝜃 (
ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖, 𝑡) 2

• • • 𝑡~𝑈(1,𝑇) 𝑥0 𝜖~𝑁(0,1) 𝜖𝜃 ത 𝛼𝑡 𝑥0
+ 1 − ത 𝛼𝑡 𝜖

• • • • 𝛽𝑡 • 𝛽1 = 10−4, 𝛽𝑇
= 0.02 • 𝜎𝑡 • 𝜎𝑡 2 = 𝛽𝑡 •

𝑁ℎ 𝑁𝑚 𝑁𝑙 𝑁𝑏 𝑁𝑙 𝑁𝑚 𝑁ℎ 𝑡

• • •

• 𝑡

•  

• • • • • • • • • •
• • • • • • • • • • • • • • • • • • • • • • • • • • •

• • 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )

• • 𝑡0 𝑥𝑡0 𝑡0 𝑥𝑡0−1 𝑥𝑡0 𝑥0 𝑥𝑇 𝑡0

• •

• 𝑦 = 𝐻𝑥 + 𝑛

• • 𝑥~𝑝(𝑥) 𝑦 𝑥~𝑝(𝑥|𝑦)

• 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑦 = 𝐻𝑥 + 𝑛

• • 𝑥𝑡 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑦 = 𝐻𝑥

• • 𝑥0 𝑥𝑡−1 𝑥𝑡 𝐻 𝐻 𝑦 𝜇𝜃 𝐻
𝑥𝑡−1 𝑥𝑡−1

• •

# Initialization xt = random.normal(0, 1, (3,H,W)) # Reverse diffusion
process for t in range(T, 0, -1): # estimate mean mu = estimate_mean(model, xt, t) # use fixed sigma sigma = beta[t] ** 0.5 # sample x_{t-1} xt = mu + sigma * random.normal(0, 1, (3,H,W)) # return x_0 return xt

𝑥𝑡−1 𝑥𝑡 𝑥𝑡−2 𝑥𝑡−1 𝑥𝑡 𝑥𝑡−2

• • • 𝑧1 𝑧𝑇 𝑧0 𝐻 × 𝑊 ×
3 𝐻 𝑛 × 𝑊 𝑛 × 𝑐

• •

• • • 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑥𝑡−1 𝑥𝑡 𝑥0
𝑥𝑇

• • 𝜏1 ,… , 𝜏𝑆 (𝜏𝑖 ∈ [1,𝑇]) 𝛽
𝛽𝜏𝑖 = 1 − ෑ 𝑗=𝜏𝑖−1+1 𝜏𝑖 1 − 𝛽𝑗 𝜏𝑖−1 𝜏𝑖 𝑥𝑡−1 𝑥𝑡 𝑥𝑡−2 𝑥𝑡−1 𝑥𝑡 𝑥𝑡−2 𝜏𝑖

• • 𝑥 𝑡 = 0 𝑡 = 𝑇 𝑥0
𝑥𝑇 𝑥𝑇−1 𝑥1 𝑥𝑡+1 = 1 − 𝛽𝑡+1 𝑥𝑡 + 𝛽𝑡+1 𝜖

• 𝑥 𝑡 = 0 𝑡 = 1 𝑥0 𝑥1
d𝑥 = − 1 2 𝛽 𝑡 𝑥 d𝑡 + 𝛽(𝑡) d𝑤 𝑤

⇒ ⇒ 𝑁(𝑥𝑡 ; 1 − 𝛽𝑡 𝑥𝑡−1 , 𝛽𝑡
𝐈) 𝑁(𝑥𝑡−1 ; 𝜇𝜃 (𝑥𝑡 ,𝑡),𝜎𝑡 2𝐈) d𝑥 = − 1 2 𝛽 𝑡 𝑥 d𝑡 + 𝛽(𝑡) d𝑤

• 𝑥 𝑡 = 0 𝑡 = 1 𝑥0 𝑥1
ഥ 𝑤 d𝑥 = −𝛽 𝑡 1 2 𝑥 + ∇𝑥 log 𝑞𝑡 (𝑥) d𝑡 + 𝛽(𝑡) dഥ 𝑤

• • • d𝑥 = −𝛽 𝑡 1 2 𝑥
+ ∇𝑥 log 𝑞𝑡 (𝑥) d𝑡 + 𝛽(𝑡) dഥ 𝑤 𝑥1 ~𝑞1 (𝑥) 𝑠𝜃 𝑥 = − 𝜖𝜃 (𝑥, 𝑡) 1 − ത 𝛼𝑡

∇𝑥 log 𝑞𝑡 (𝑥) 𝜖𝜃 (𝑥𝑡 ,𝑡) 𝔼𝑞𝑡(𝑥) 1 2
𝑠𝜃 𝑥 − ∇𝑥 log 𝑞𝑡 𝑥 2 𝔼𝑥0~𝑞0(𝑥) 𝜖~𝑁(0,𝐼) 𝜖𝜃 ( ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖, 𝑡) − 𝜖 2 𝑠𝜃 𝑠𝜃 𝑥 = − 𝜖𝜃 (𝑥,𝑡) 1 − ത 𝛼𝑡

⇒ ⇒ 𝑁(𝑥𝑡 ; 1 − 𝛽𝑡 𝑥𝑡−1 , 𝛽𝑡
𝐈) 𝑁(𝑥𝑡−1 ; 𝜇𝜃 (𝑥𝑡 ,𝑡),𝜎𝑡 2𝐈) d𝑥 = − 1 2 𝛽 𝑡 𝑥 d𝑡 + 𝛽(𝑡) d𝑤 d𝑥 = −𝛽 𝑡 1 2 𝑥 − 𝜖𝜃 (𝑥, 𝑡) 1 − ത 𝛼𝑡 d𝑡 + 𝛽(𝑡) dഥ 𝑤

• • d𝑥 = −𝛽 𝑡 1 2 𝑥 +
∇𝑥 log 𝑞𝑡 (𝑥) d𝑡 + 𝛽(𝑡) dഥ 𝑤 𝑥1 ~𝑞1 (𝑥) d𝑥 = −𝛽 𝑡 1 2 𝑥 + 1 2 ∇𝑥 log 𝑞𝑡 (𝑥) d𝑡 𝑥1 ~𝑞1 (𝑥) 𝑥1 𝑥0

𝑥 𝑡 = 0 𝑡 = 1 𝑥 𝑡 =
0 𝑡 = 1 𝑞0 (𝑥) 𝑞𝑡 (𝑥) 𝑞1 (𝑥) 𝑞0 (𝑥) 𝑞𝑡 (𝑥) 𝑞1 (𝑥)

• ∆𝑡 𝑥 𝑥1 𝑥0 𝑥 𝑡 − ∆𝑡 =
𝑥𝑡 − ∆𝑡 ቤ d𝑥 d𝑡 𝑥=𝑥𝑡 𝑥 𝑡 = 0 𝑡 = 1 𝑥0 𝑥∆𝑡 𝑥1 𝑥1−∆𝑡 d𝑥 = −𝛽 𝑡 1 2 𝑥 + 1 2 ∇𝑥 log 𝑞𝑡 (𝑥) d𝑡 ∆𝑡 𝑥

• ∆𝑡 ∆𝑡

𝑡 𝑡 𝑡 𝑡 𝜎′1/𝜌 log 𝛼 1−𝛼 𝑡1/𝜌

𝑡 𝑡 𝑡 𝑡 𝜎′1/𝜌 log 𝛼 1−𝛼 𝑡1/𝜌 𝑥
∆𝑡

拡散モデルによる画像生成（CVIMチュートリアル）

拡散モデルによる画像生成（CVIMチュートリアル）

Other Decks in Research

Featured

Transcript