Slide 15
Slide 15 text
14
Copyright 2023 rinna Co., Ltd.
Diverse and Expressive Speech Prosody Prediction with
Denoising Diffusion Probabilistic Model (3/7: 背景②)
◼ Denoising Diffusion Probabilistic Model (DDPM) [Ho+, NeurIPS2020]
◆ データ𝐱0
の分布𝑝(𝐱0
)を学習する生成モデルの一種
◆ データにノイズを付加する過程 (forward process) は以下のように表現可能
› 𝐱𝑡
𝐱0
, 𝝐 = ത
𝛼𝑡
𝐱0
+ 1 − ത
𝛼𝑡
𝝐 (𝝐~𝒩 𝟎, 𝐈 , ത
𝛼𝑡
は事前に定められた定数から計算可能)
◆ ノイズから元のデータを復元する過程 (reverse process) を学習
› DDPMでは、データに付加されたノイズ𝝐を予測するようなネットワーク𝝐𝜃
(𝐱𝑡
, 𝑐, 𝑡)を学習
ℒ = 𝝐 − 𝝐𝜃
(𝐱𝑡
, 𝑐, 𝑡) 2 (𝑐は条件付け特徴量)
› 推論時は、𝑡 = 𝑇, … , 1についてreverse processを辿ることでデータの生成が可能
𝐱𝑡−1
= 1
𝛼𝑡
𝐱𝑡
− 𝛽𝑡
1−ഥ
𝛼𝑡
𝝐𝜃
(𝐱𝑡
, 𝑐, 𝑡)) + 𝜎𝑡
𝐳 (𝐳~𝒩(𝟎, 𝐈))