論文紹介：A Study on Speech Enhancement Based on Diffusion Probabilistic Mode

A Study on Speech Enhancement Based on Diffusion Probabilistic Model
Yen-Ju Lu, Yu Tsao and Shinji Watanabe 山形大学理工学研究科中澤和司論文紹介２ Y.-J. Lu, Y. Tsao, and S. Watanabe, “A Study on Speech Enhancement Based on Diffusion Probabilistic Model,” in 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2021, pp. 659–666.

はじめに • 音声強調（Speech enhancement: SE）の目的は歪んだ音声からクリーンな音声にマッピングして品質を向上させること • 様々な音声を用いたシステムで応用されている • DNNベースのモデルは強力で低SNRや非定常ノイズに対しても有効に働く
• SEの方法として時間周波数領域でのマッピングがある • 手順 ノイズ入りスペクトログラム→推定クリーンスペクトログラム→逆 STFT→時間領域波形 時間領域波形復元時にノイズ入り位相を使用 • 時間領域のSEモデルではノイズ入り位相による歪を回避できる ➢Generative adversarial network(GAN), autoregressive, variational autoencoder (VAE)を用いたモデルなど様々な生成モデルでの手法が提案されている ➢ 拡散確率モデルは強力な生成能力があり，画像生成や音声生成においても優れた性能を示す ➢ 拡散確率モデルを使用したSEモデルの提案

拡散確率モデル • 拡散確率モデルは拡散（順）過程と逆拡散過程を含む • 拡散過程ではクリーンな入力に対してガウシアンノイズを加えていき純粋なガウスノイズに変換する • 逆拡散過程では拡散確立モデルはノイズを推定し，推定したノイズをノイズ入り入力から除去することでクリーンな信号を復元する •
拡散過程における変分下限(evidence lower bound : ELBO)を最大化することで学習を行う

拡散確率モデル • 音声生成モデルDiffWave[1]は条件付き，非条件付音声波形タスクを少ないパラメータでSoTAの性能を達成している • 拡散確立モデルベースのSE モデルDiffuSEを提案 • モデルの構成はDiffwaveと似ている ➢条件付けにクリーンなメルスペクトログラムを使用
➢ノイズ入りスペクトルを条件付けに使用 ➢事前学習でクリーンなメルスペクトログラムを使用 DiffuSEの特徴最初の確率拡散モデルを適用したSEモデル逆拡散過程において雑音音声を組み込む補助逆拡散過程を導入他の時間領域の生成モデルのSEと比べても高い強調性能

拡散確率モデル（拡散過程） • 入力データの分布は𝑞𝑑𝑎𝑡𝑎 𝑥0 , 𝑥0 ∈ ℝ𝐿(Lはデータのサンプル長） • 𝑥𝑡
∈ ℝ𝐿はステップごとに独立な変数 Tステップ𝑡 = (0,1, … , 𝑇)の拡散確率モデルは以下のような処理を行う • 𝑥0 から𝑥𝑇 までの過程は以下の式で表す

拡散確率モデル（拡散過程） • 𝑞 𝑥𝑡 𝑥𝑡−1 はマルコフ連鎖で定式化でき以下の正規分布にしたがう 𝑞 𝑥𝑡 𝑥𝑡−1 =
𝑁(𝑥𝑡 | 1 − 𝛽𝑡 𝑥𝑡−1 , 𝛽𝑡 𝐼)  𝛽𝑡 : 微小な正の定数  𝜖はガウスノイズ • 拡散過程により𝑥0 はガウス分布に従う表現𝑝𝑙𝑎𝑡𝑒𝑛𝑡 𝑥𝑇 = N 0, I に変化していく 𝛽1, … , 𝛽𝑇 は事前に設定する 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑥𝑡 = 1 − 𝛽𝑡 𝑥𝑡−1 + 𝛽𝑡 𝜖 1 − 𝛽𝑡 𝑥𝑡−1 𝛽𝑡 𝜖 + 減衰させた前ステップの信号ガウスノイズクリーン信号成分は減衰していきガウスノイズのみになる Reparameterization Trick

拡散確率モデル（拡散過程） • 𝑥𝑡 の分布は𝑥0 の分布から直接求めることも出来る 𝛼𝑡 = 1 − 𝛽𝑡
𝛼𝑡 = ෑ 𝑡=𝑠 𝑡 𝛼𝑠 段階的 𝑥𝑡−1 から𝑥𝑡 の分布を計算直接 𝑥0 から𝑥𝑡 の分布を計算 𝑥𝑡 𝑥0 , 𝜖 = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖

拡散確率モデル(逆拡散過程）ステップ𝑡 = 𝑇, 𝑇 − 1, … , 0
では潜在表現𝑥𝑇 を𝑥0 に変化させていく • 学習可能なパラメータ𝜃に従う分布𝑝𝜃 を用いて以下のマルコフ連鎖で表せる • 𝑥0 を生成できるように𝜃を最適化する必要がある 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )

拡散確率モデル • 周辺尤度𝑝𝜃 𝑥0 は一般的に解くことが難しい 𝑝𝜃 𝑥0 = ∫ 𝑝𝜃
𝑥0 , … , 𝑥𝑇−1 𝑥𝑇 𝑝𝑙𝑎𝑡𝑒𝑛𝑡 𝑥𝑇 𝑑𝑥1:𝑇 • モデルは変分下限（ELBO）の最大化を目指して最適化を行う • 特定の条件においてはELBOは閉じた形式で解くことが出来る

学習とサンプリング • 逆拡散過程の遷移確率𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡)は2つの学習可能なパラメータ𝜇𝜃 と𝜎𝜃 で表現できる 𝑝𝜃 (𝑥𝑡−1
|𝑥𝑡 ) = 𝑁(𝑥𝑡−1 ; 𝜇𝜃 𝑥𝑡 , 𝑡 , 𝜎𝜃 𝑥𝑡 , 𝑡 2𝐼) 𝜇𝜃 𝑥𝑡 , 𝑡 : 𝑥𝑡−1 の分布の平均値を推定するモデル 𝜎𝜃 (𝑥, 𝑡): 𝑥𝑡−1 の分布の標準偏差を推定するモデル 𝜎𝜃 𝑥𝑡 , 𝑡 𝜇𝜃 𝑥𝑡 , 𝑡 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡) ノイズの大きさ雑音低減した信号成分

学習とサンプリング • 逆拡散過程では𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡)はtの分布から前のt-1分布を予測する • そのためには𝜇𝑡−1 と𝜎𝑡−1 を𝜇𝜃 𝑥𝑡
, 𝑡 と𝜖𝜃 𝑥𝑡 , 𝑡 を使用して予測する必要がある ➢ 𝜇𝜃 𝑥𝑡 , 𝑡 は混合データ𝑥𝑡 からガウシアンノイズ𝜖を除くことで定式化される ➢ 拡散過程で加算されたノイズ𝜖は逆拡散過程では未知である • ノイズ𝜖を推定するモデル𝜖𝜃 (𝑥𝑡 , 𝑡)を導入するノイズ減算逆過程では未知なので不可能推定ノイズを減算推定ノイズ逆拡散過程 𝑥𝑡 𝑥0 , 𝜖 = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 𝑥𝑡 = 1 − 𝛽𝑡 𝑥𝑡−1 + 𝛽𝑡 𝜖

学習とサンプリング • 一方で分散𝜎𝑡 は各ステップtごとの定数とする（推定しない， 𝜎𝜃 の学習はしない) 𝑥𝑡 𝑥0 , 𝜖
= ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 • そのため逆拡散過程で𝑡 − 1の分布を推定するためには， 𝜖𝜃 (𝑥𝑡 , 𝑡)でガウシアンノイズ𝜖推定をすればよい • 拡散過程において訓練損失は推定ノイズ𝜖𝜃 (𝑥𝑡 , 𝑡)とガウシアンノイズ𝜖の距離を最小化するように設定する（これがELBOを最大化する閉じた式である） 𝑥𝑡 より以下のように表現できる 𝜖~𝑁(0, 𝐼) 𝛽𝑡 は拡散時に設定したパラメータ

学習とサンプリング • 訓練後は𝑥𝑡−1 は以下の式によって算出される 𝑧~𝑁(0, 𝐼) 学習済みノイズ予測器 𝑥𝑡−1 𝑥𝑡 𝑥0
𝑥𝑇 𝑥𝑡 − 𝛽𝑡 1 − ത 𝛼𝑡 𝜖𝜃 (𝑥𝑡 , 𝑡) +𝜎𝑡 𝑧 ノイズを低減した信号ガウスノイズまたは 𝑥𝑡−1 = 𝜇𝜃 𝑥𝑡 , 𝑡 + 𝜎𝑡 𝑧

学習とサンプリング • 拡散過程で𝜖𝜃 (𝑥𝑡 , 𝑡)はガウシアンノイズ𝜖を推定するように学習 • 逆拡散過程で𝜖𝜃 (𝑥𝑡 ,
𝑡) を用いて𝑥0 を復元する • 以下が拡散確率モデルで使用するパラメータである

補助逆拡散 • DiffuSEでは本来の逆拡散仮定に置き換えて補助逆拡散(Supportive reverse process)を導入している • これによりさらに効果的にノイズを取り除くことが期待できる拡散過程 • 本来の拡散モデルでは逆過程でガウシアンノイズ𝜖が適用されている
• クリーン音声は逆拡散過程では未知であるので減算やガウスノイズの加算により逆過程で算出された𝑥𝑡 はそれ以前の過程(𝑇, … , 𝑡 + 1)で歪んでいるかもしれない補助逆拡散過程 • 劣化音声𝑦のサンプリングから始める， • 𝑦を各逆過程に組み込みながらガウシアンノイズを低減する • 新たな変数 Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 を導入する，これは𝜇𝜃 (𝑥𝑡 , 𝑡)とyを組み合わせて𝑡 − 1の平均を推定する

補助逆拡散 𝑥𝑡−1 = 𝜇𝜃 𝑥𝑡 , 𝑡 + 𝜎𝑡 𝑧
𝑥𝑡−1 = Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 + ො 𝜎𝑡 𝑧 ノイズ低減した信号成分（実環境の）ノイズ入り音声 • Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 は以下のように設定する 𝛾𝑡 は混合比 • サンプリング以下の式に従って行う従来のサンプリング従来の逆拡散

補助逆拡散 𝑥𝑡−1 = (1 − 𝛾𝑡 ) 1 𝛼𝑡 (𝑥𝑡
− 𝛽𝑡 1−ഥ 𝛼𝑡 𝜖𝜃 (𝑥𝑡 , 𝑡)) + 𝛾𝑡 ഥ 𝛼𝑡−1𝑦 + 𝜎𝑡 2 − 𝛾𝑡 2 ത 𝛼𝑡−1 𝑧 ノイズを低減した信号 + 実環境ノイズ入り雑音 + ガウスノイズノイズ低減した信号実環境のノイズ入り音声ガウスノイズ信号成分従来純粋なガウスノイズ補助逆拡散実環境のノイズ入り雑音従来ノイズを低減した信号 + ガウスノイズ

補助逆拡散 • 拡散確立モデルでは𝜖𝜃 (𝑥𝑡 , 𝑡)はガウシアンノイズ𝜖を推定するように学習する • 𝜖𝜃 (𝑥𝑡
, 𝑡)目的は音声以外のノイズ𝜖推定すると考えられる • そのため補助逆拡散過程は推定平均とガウスノイズの組み合わせをノイズ入り音声で置き換えているが， 𝜖𝜃 (𝑥𝑡 , 𝑡)は依然音声以外の成分をtステップにおいて推定することが出来る • また𝑥𝑡 はクリーン音声とガウシアンノイズ𝜖の組み合わせであるから，より効果的にクリーン音声を復元するために，補助逆拡散過程は直接ノイズ入り音声を使用する

モデルの説明 1. DiffWave (参考にしている音声生成モデル) 2. DiffuSE（提案モデル)

モデル構成(DiffWave) • WeveNet[2]と似ている • 自己回帰の制約（因果性）をなくして，dialated convolution から bidirectional dilated convolution
(Bi-Dilconv)に変更 • 自己回帰を無くすことにより生成速度を高速にしている。 [3]D. Rethage, J. Pons, and X. Serra, “A Wavenet for Speech Denoising,” arXiv [cs.SD], Jun. 22, 2017. [Online]. Available: http://arxiv.org/abs/1706.07162

モデル構成(DiffWave) • チャネル数CのN個の残差接続層から構成される • カーネルサイズは3，dilationは各層ごとに２倍になる 1,2,4 … ,
2𝑛−1 • 各残差層ではoutputへのスキップコネクションを持つ • 条件付け(conditioner)にはメルスペクトログラムを入力条件付け

DiffuSE Architecture • 出力音声を目標音声に近づけるため条件付け(conditioner)をする • 条件付けにより𝜖𝜃 (𝑥𝑡 , 𝑡)は混合音中のノイズとクリーン音声を分離することができる
• 条件付けには雑音入り音声のスペクトル特徴量を入力する • パラメータ𝜖𝜃 はℝ𝐿 × ℕ → ℝ𝐿 雑音入り音声のスペクトログラム

メルスペクトログラムを使用した事前学習 • 高品質な音声を生成するために，DiffuSEをクリーンなメルスペクトログラムを使用して事前学習をする • 事前学習後は条件付け部を前述のノイズ入りスペクトル入力にして，パラメータを初期化する。 • 条件付け部以外のパラメータは保持して訓練にそのまま使用するクリーン音声のメル
スペクトログラム

Fast Sampling • DiffWaveの著者は𝑡 = 0付近のサンプリングステップにおいてノイズ除去の効果が高いことを発見しFast samplingを提案 • 雑音低減のステップ数を減らすことができる
拡散過程 𝑥0 から𝑥𝑡 の分布を計算逆拡散過程 𝑥𝑡 から𝑥𝑡−1 の分布を計算おそらく拡散過程で直接𝑥0 を計算する手順の逆のようなことをしている

実験

使用音声データ • DEMAND datesetを使用 VoiceBank corpas からの30人話者で構成されている • サンプリング周波数は16 kHz
使用法話者数ノイズ SNR [dB] 合計音声長 [Hour] 訓練 26 ８種（実環境）２種（人口） 0, 5 ,10 , 15 8.6 検証 2 0.7 テスト 2 その他のノイズ 2.5, 7.5, 12.5, 17.5 0.6

モデル設定と学習方法 • 3つのdilation cycle[1,2,…512]からなる30の残差レイヤーから構成 • カーネルサイズ: 3 • 学習率: 2
× 10−4(プリトレインとファインチューニング) • プリトレイン時のメルスペクトログラムの次元数80 • ノイジースペクトログラムの次元数は513(長さ1024の窓を256シフト) • 補助逆過程のパラメータ𝛾𝑡 = 𝜎𝑡 ഥ 𝛼𝑡−1 𝑡 > 1 , 𝑟1 = 0.2 • アーリーストッピング使用 Base Diffuse • [拡散ステップ𝑇, 残差チャネル𝐶] ∈ 50,63 • 訓練時ノイズ𝛽𝑡 ∈ 1 × 10−4, 0.05 • バッチサイズ:16 • イテレーション数300X1000 Large Diffuse • [拡散ステップ𝑇, 残差チャネル𝐶] ∈ 200, 128 • 訓練時ノイズ𝛽𝑡 ∈ 1 × 10−4, 0.02 • バッチサイズ15 • イテレーション数700x1000

評価方法以下の客観評価指標を用いて性能評価を行う ◆Peeveptual evaluation of speech quality(PESQ) ◆Prediction of the
signal distortion (CSIG) ◆Prediction of the background intrusiveness(CBAK) ◆Prediction of the overall speech quality(COVL) ◆CSIG, CBAK, COVLは客観評価指標PESQ, WSS, IS, CEP, WSSの線形結合によって得られる値である[4] ◆これらの指標は高いほど精度が良いことが示される

• Log-likelihood ratio (LLR ) 𝑎 𝑐 はクリーンな音声のLPC係数と Ԧ 𝑎𝑝
は強調音声のLPC係数，𝑅𝑐 はクリーンな音声の自己相関マトリックス フォルマントピークの位置の誤差を測る  周波数領域では以下のように表現される[5] 客観評価指標

• Itakura-Saito distance (IS) 𝜎𝑐 2と𝜎𝑝 2はそれぞれクリーン音声と強調音声の全極ゲイン ISはゲインの差を測る しかしスペクトルのレベル差は音質に大きく影響しないということが心理実験から示されている
客観評価指標

客観評価指標 • Cepstrum distortion (CEP) クリーンなケプストラムԦ 𝑐𝑐 と強調した音声のԦ 𝑐𝑝 の距離
• Weighted Spectral slope distance (WSS) 各帯域j,時間フレームにおけるクリーンな音声のスペクトロスロープ𝑆𝑐 と強調音声のスペクトロスロープ𝑆𝑝 の距離 スペクトロスロープは 𝑊は帯域ごとの重み

結果

条件の説明 Full schedule • 拡散過程と同じ𝛽𝑡 を使用 Fast（高速サンプリング) • [0.0001, 0.001,
0.01. 0.05, 0.2, 0.5] Base • [0.0001, 0.001, 0.01. 0.05, 0.2, 0.7] Large • 補助逆過程(SRP)の有効性を示すために以下のような条件でも学習をしている • 𝑅𝑃 − 𝑁𝑖𝑛:ガウシアンノイズを雑音入り音声に変えて逆過程を行う • 𝑅𝑃 − 𝑁𝑜𝑢𝑡 :最終出力時の音声(強調音声)8割，雑音入り音声2割の重みを足して出力 • 𝑅𝑃 − 𝑁𝑖𝑛+𝑜𝑢𝑡:両方行う 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑅𝑃 − 𝑁𝑖𝑛 純粋なガウスノイズから雑音入り音声に置き換えて通常の逆拡散過程を行う 𝑅𝑃 − 𝑁𝑜𝑢𝑡 : 最終出力時に雑音入り音声を重み付けして加算する SRP 途中の逆過程でも雑音入り音声を加える

補助逆過程の有効性 • 全ての条件でNoisyから評価値を向上 • 雑音入り音声を入力する条件では𝑅𝑃 − 𝑁𝑖𝑛+𝑜𝑢𝑡 が最も精度が高く，従来のRPより高い •
補助逆拡散過程SRPで最も高い評価値を得る

Large Diffuse Model • Base モデルと同様の傾向がある • 全ての条件でNoisy以上の評価値となる • SRPが最も高い評価値を得る
• Base Diffuse Modelより高い強調性能がある ➢ より複雑な拡散モデルはより高い性能を示す

結果 • 𝑅𝑃と𝑅𝑃 − 𝑁𝑜𝑢𝑡 :ではフルサンプル計画が高速サンプル計画より高い評価値を示す ➢ DiffWaveでも同様の結果が得られている •
一方で𝑅𝑃 − 𝑁𝑖𝑛 と𝑅𝑃 − 𝑁𝑖𝑛+𝑜𝑢𝑡 と𝑆𝑅𝑃では高速サンプル計画の方が高い ➢ノイズ音声はクリーン音声とノイズから構成されており，ガウスノイズとは異なる性質がある。そのためノイズ音声を入力場合，フルサンプリングよりも高速サンプリングが適している。 ➢従来のRPだとガウスノイズを仮定しているため適しない https://github.com/neillu23/DiffuSE

スペクトログラムによる定性評価 • Diffuse SEによりノイズ成分を低減している • Diffuse SE RPは高周波領域で歪が生じている（赤い四角）
• SRPでもノイズが残っているが，音声の成分がRPより残っている

波形による定性評価 • DiffuseSEによりノイズを低減している • SRPでは音声の構造をより保持している(0.8から 1.3 s)

他の波形領域での強調方法との比較 • 他の既存の時間波形領域の生成モデルによる強調手法より高い評価値 • 提案手法の有効性が示される

結論 • 拡散確立モデルベースのSEモデルを提案 • SEタスクに適した補助逆過程(SRP)の導入 • SRPでは少ないステップ（高速サンプリング）でフルサンプリングの従来SRより高い強調性能を示した • 他の既存の時間領域SE方法(Sota)と比べても高い性能を示す
• 拡散確率モデルのSEタスクへの有効性が示された

参考文献 1. Z. Kong, W. Ping, J. Huang, K. Zhao,
and B. Catanzaro, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” arXiv [eess.AS], Sep. 21, 2020. [Online]. Available: http://arxiv.org/abs/2009.09761 2. A. van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” arXiv [cs.SD], Sep. 2016, [Online]. Available: https://arxiv.org/abs/1609.03499 3. D. Rethage, J. Pons, and X. Serra, “A Wavenet for Speech Denoising,” arXiv [cs.SD], Jun. 22, 2017. [Online]. Available: http://arxiv.org/abs/1706.07162 4. Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. Audio Speech Lang. Processing, vol. 16, no. 1, pp. 229–238, Jan. 2008. 5. P. C. Loizou, Speech enhancement: Theory and practice, second edition, 2nd ed. Boca Raton, FL: CRC Press, 2013. 理解に役に立った資料 • 山本龍一 , 高道慎之介, Pythonで学ぶ音声合成. インプレス, 2021.(特にwavenetの説明分） • 小泉悠馬, “拡散確率モデルと音声波形生成,” Speaker Deck. https://speakerdeck.com/yumakoizumi/kuo-san-que-lu-moderutoyin-sheng-bo-xing-sheng-cheng (accessed Apr. 27, 2023).

論文紹介：A Study on Speech Enhancement Based on Dif...

論文紹介：A Study on Speech Enhancement Based on Diffusion Probabilistic Mode

More Decks by Kazushi Nakazawa

Featured

Transcript