Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:A Study on Speech Enhancement Based on Diffusion Probabilistic Mode

Kazushi Nakazawa
June 01, 2024
72

論文紹介:A Study on Speech Enhancement Based on Diffusion Probabilistic Mode

大学時代の講義で使用した資料です。

Kazushi Nakazawa

June 01, 2024
Tweet

Transcript

  1. A Study on Speech Enhancement Based on Diffusion Probabilistic Model

    Yen-Ju Lu, Yu Tsao and Shinji Watanabe 山形大学 理工学研究科 中澤和司 論文紹介2 Y.-J. Lu, Y. Tsao, and S. Watanabe, “A Study on Speech Enhancement Based on Diffusion Probabilistic Model,” in 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2021, pp. 659–666.
  2. はじめに • 音声強調(Speech enhancement: SE)の目的は歪んだ音声からクリーンな音声 にマッピングして品質を向上させること • 様々な音声を用いたシステムで応用されている • DNNベースのモデルは強力で低SNRや非定常ノイズに対しても有効に働く

    • SEの方法として時間周波数領域でのマッピングがある • 手順 ノイズ入りスペクトログラム→推定クリーンスペクトログラム→逆 STFT→時間領域波形 時間領域波形復元時にノイズ入り位相を使用 • 時間領域のSEモデルではノイズ入り位相による歪を回避できる ➢Generative adversarial network(GAN), autoregressive, variational autoencoder (VAE)を用いたモデルなど様々な生成モデルでの手法が提案され ている ➢ 拡散確率モデルは強力な生成能力があり,画像生成や音声生成においても優 れた性能を示す ➢ 拡散確率モデルを使用したSEモデルの提案
  3. 拡散確率モデル • 音声生成モデルDiffWave[1]は条件付き,非条件付音声波形タスクを少ないパ ラメータでSoTAの性能を達成している • 拡散確立モデルベースのSE モデルDiffuSEを提案 • モデルの構成はDiffwaveと似ている ➢条件付けにクリーンなメルスペクトログラムを使用

    ➢ノイズ入りスペクトルを条件付けに使用 ➢事前学習でクリーンなメルスペクトログラムを使用 DiffuSEの特徴 最初の確率拡散モデルを適用したSEモデル 逆拡散過程において雑音音声を組み込む補助逆拡散過程を導入 他の時間領域の生成モデルのSEと比べても高い強調性能
  4. 拡散確率モデル(拡散過程) • 入力データの分布は𝑞𝑑𝑎𝑡𝑎 𝑥0 , 𝑥0 ∈ ℝ𝐿(Lはデータのサンプル長) • 𝑥𝑡

    ∈ ℝ𝐿はステップごとに独立な変数 Tステップ𝑡 = (0,1, … , 𝑇)の拡散確率モデルは以下のような処理を行う • 𝑥0 から𝑥𝑇 までの過程は以下の式で表す
  5. 拡散確率モデル(拡散過程) • 𝑞 𝑥𝑡 𝑥𝑡−1 はマルコフ連鎖で定式化でき以下の正規分布にしたがう 𝑞 𝑥𝑡 𝑥𝑡−1 =

    𝑁(𝑥𝑡 | 1 − 𝛽𝑡 𝑥𝑡−1 , 𝛽𝑡 𝐼)  𝛽𝑡 : 微小な正の定数  𝜖はガウスノイズ • 拡散過程により𝑥0 はガウス分布に従う表現𝑝𝑙𝑎𝑡𝑒𝑛𝑡 𝑥𝑇 = N 0, I に変化し ていく 𝛽1, … , 𝛽𝑇 は事前に設定する 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑥𝑡 = 1 − 𝛽𝑡 𝑥𝑡−1 + 𝛽𝑡 𝜖 1 − 𝛽𝑡 𝑥𝑡−1 𝛽𝑡 𝜖 + 減衰させた前ステップの信号 ガウスノイズ クリーン信号成分は減衰していき ガウスノイズのみになる Reparameterization Trick
  6. 拡散確率モデル(拡散過程) • 𝑥𝑡 の分布は𝑥0 の分布から直接求めることも出来る 𝛼𝑡 = 1 − 𝛽𝑡

    𝛼𝑡 = ෑ 𝑡=𝑠 𝑡 𝛼𝑠 段階的 𝑥𝑡−1 から𝑥𝑡 の分布を計算 直接 𝑥0 から𝑥𝑡 の分布を計算 𝑥𝑡 𝑥0 , 𝜖 = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖
  7. 拡散確率モデル(逆拡散過程) ステップ𝑡 = 𝑇, 𝑇 − 1, … , 0

    では潜在表現𝑥𝑇 を𝑥0 に変化させていく • 学習可能なパラメータ𝜃に従う分布𝑝𝜃 を用いて以下のマルコフ連鎖で表せる • 𝑥0 を生成できるように𝜃を最適化する必要がある 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )
  8. 拡散確率モデル • 周辺尤度𝑝𝜃 𝑥0 は一般的に解くことが難しい 𝑝𝜃 𝑥0 = ∫ 𝑝𝜃

    𝑥0 , … , 𝑥𝑇−1 𝑥𝑇 𝑝𝑙𝑎𝑡𝑒𝑛𝑡 𝑥𝑇 𝑑𝑥1:𝑇 • モデルは変分下限(ELBO)の最大化を目指して最適化を行う • 特定の条件においてはELBOは閉じた形式で解くことが出来る
  9. 学習とサンプリング • 逆拡散過程の遷移確率𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡)は2つの学習可能なパラメータ𝜇𝜃 と𝜎𝜃 で 表現できる 𝑝𝜃 (𝑥𝑡−1

    |𝑥𝑡 ) = 𝑁(𝑥𝑡−1 ; 𝜇𝜃 𝑥𝑡 , 𝑡 , 𝜎𝜃 𝑥𝑡 , 𝑡 2𝐼) 𝜇𝜃 𝑥𝑡 , 𝑡 : 𝑥𝑡−1 の分布の平均値を推定するモデル 𝜎𝜃 (𝑥, 𝑡): 𝑥𝑡−1 の分布の標準偏差を推定するモデル 𝜎𝜃 𝑥𝑡 , 𝑡 𝜇𝜃 𝑥𝑡 , 𝑡 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡) ノイズの大きさ 雑音低減した信号成分
  10. 学習とサンプリング • 逆拡散過程では𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡)はtの分布から前のt-1分布を予測する • そのためには𝜇𝑡−1 と𝜎𝑡−1 を𝜇𝜃 𝑥𝑡

    , 𝑡 と𝜖𝜃 𝑥𝑡 , 𝑡 を使用して予測する必要がある ➢ 𝜇𝜃 𝑥𝑡 , 𝑡 は混合データ𝑥𝑡 からガウシアンノイズ𝜖を除くことで定式化される ➢ 拡散過程で加算されたノイズ𝜖は逆拡散過程では未知である • ノイズ𝜖を推定するモデル𝜖𝜃 (𝑥𝑡 , 𝑡)を導入する ノイズ減算 逆過程では未知な ので不可能 推定ノイズを減算 推定ノイズ 逆拡散過程 𝑥𝑡 𝑥0 , 𝜖 = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 𝑥𝑡 = 1 − 𝛽𝑡 𝑥𝑡−1 + 𝛽𝑡 𝜖
  11. 学習とサンプリング • 一方で分散𝜎𝑡 は各ステップtごとの定数とする(推定しない, 𝜎𝜃 の学習はしない) 𝑥𝑡 𝑥0 , 𝜖

    = ത 𝛼𝑡 𝑥0 + 1 − ത 𝛼𝑡 𝜖 • そのため逆拡散過程で𝑡 − 1の分布を推定するためには, 𝜖𝜃 (𝑥𝑡 , 𝑡)でガウシアン ノイズ𝜖推定をすればよい • 拡散過程において訓練損失は推定ノイズ𝜖𝜃 (𝑥𝑡 , 𝑡)とガウシアンノイズ𝜖の距離を 最小化するように設定する(これがELBOを最大化する閉じた式である) 𝑥𝑡 より以下のように表現できる 𝜖~𝑁(0, 𝐼) 𝛽𝑡 は拡散時に設定したパラメータ
  12. 学習とサンプリング • 訓練後は𝑥𝑡−1 は以下の式によって算出される 𝑧~𝑁(0, 𝐼) 学習済みノイズ予測器 𝑥𝑡−1 𝑥𝑡 𝑥0

    𝑥𝑇 𝑥𝑡 − 𝛽𝑡 1 − ത 𝛼𝑡 𝜖𝜃 (𝑥𝑡 , 𝑡) +𝜎𝑡 𝑧 ノイズを低減した信号 ガウスノイズ または 𝑥𝑡−1 = 𝜇𝜃 𝑥𝑡 , 𝑡 + 𝜎𝑡 𝑧
  13. 補助逆拡散 • DiffuSEでは本来の逆拡散仮定に置き換えて補助逆拡散(Supportive reverse process)を導入している • これによりさらに効果的にノイズを取り除くことが期待できる 拡散過程 • 本来の拡散モデルでは逆過程でガウシアンノイズ𝜖が適用されている

    • クリーン音声は逆拡散過程では未知であるので減算やガウスノイズの加算により 逆過程で算出された𝑥𝑡 はそれ以前の過程(𝑇, … , 𝑡 + 1)で歪んでいるかもしれない 補助逆拡散過程 • 劣化音声𝑦のサンプリングから始める, • 𝑦を各逆過程に組み込みながらガウシアンノイズを低減する • 新たな変数 Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 を導入する,これは𝜇𝜃 (𝑥𝑡 , 𝑡)とyを組み合わせて𝑡 − 1の 平均を推定する
  14. 補助逆拡散 𝑥𝑡−1 = 𝜇𝜃 𝑥𝑡 , 𝑡 + 𝜎𝑡 𝑧

    𝑥𝑡−1 = Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 + ො 𝜎𝑡 𝑧 ノイズ低減し た信号成分 (実環境の) ノイズ入り音声 • Ƹ 𝜇𝜃 𝑥𝑡 , 𝑡 は以下のように設定する 𝛾𝑡 は混合比 • サンプリング以下の式に従って行う 従来のサンプリング 従来の逆拡散
  15. 補助逆拡散 𝑥𝑡−1 = (1 − 𝛾𝑡 ) 1 𝛼𝑡 (𝑥𝑡

    − 𝛽𝑡 1−ഥ 𝛼𝑡 𝜖𝜃 (𝑥𝑡 , 𝑡)) + 𝛾𝑡 ഥ 𝛼𝑡−1𝑦 + 𝜎𝑡 2 − 𝛾𝑡 2 ത 𝛼𝑡−1 𝑧 ノイズを低減した信号 + 実環境ノイズ入り雑音 + ガウスノイズ ノイズ低減した信号 実環境のノイ ズ入り音声 ガウスノイズ 信号成分 従来 純粋なガウスノイズ 補助逆拡散 実環境のノイズ入り雑音 従来 ノイズを低減した信号 + ガウスノイズ
  16. 補助逆拡散 • 拡散確立モデルでは𝜖𝜃 (𝑥𝑡 , 𝑡)はガウシアンノイズ𝜖を推定するように学習 する • 𝜖𝜃 (𝑥𝑡

    , 𝑡)目的は音声以外のノイズ𝜖推定すると考えられる • そのため補助逆拡散過程は推定平均とガウスノイズの組み合わせをノイ ズ入り音声で置き換えているが, 𝜖𝜃 (𝑥𝑡 , 𝑡)は依然音声以外の成分をtス テップにおいて推定することが出来る • また𝑥𝑡 はクリーン音声とガウシアンノイズ𝜖の組み合わせであるから, より効果的にクリーン音声を復元するために,補助逆拡散過程は直接ノ イズ入り音声を使用する
  17. モデル構成(DiffWave) • WeveNet[2]と似ている • 自己回帰の制約(因果性)をなくして,dialated convolution から bidirectional dilated convolution

    (Bi-Dilconv)に変更 • 自己回帰を無くすことにより生成速度を高速にしている。 [3]D. Rethage, J. Pons, and X. Serra, “A Wavenet for Speech Denoising,” arXiv [cs.SD], Jun. 22, 2017. [Online]. Available: http://arxiv.org/abs/1706.07162
  18. モデル構成(DiffWave) • チャネル数CのN個の残差接続層か ら構成される • カーネルサイズは3,dilationは各層 ごとに2倍になる 1,2,4 … ,

    2𝑛−1 • 各残差層ではoutputへのスキップコ ネクションを持つ • 条件付け(conditioner)にはメルスペ クトログラムを入力 条件付け
  19. DiffuSE Architecture • 出力音声を目標音声に近づけるため条件付け(conditioner)をする • 条件付けにより𝜖𝜃 (𝑥𝑡 , 𝑡)は混合音中のノイズとクリーン音声を分離する ことができる

    • 条件付けには雑音入り音声のスペクトル特徴量を入力する • パラメータ𝜖𝜃 はℝ𝐿 × ℕ → ℝ𝐿 雑音入り音声のス ペクトログラム
  20. Fast Sampling • DiffWaveの著者は𝑡 = 0付近のサンプリングステップにおいてノイズ除 去の効果が高いことを発見しFast samplingを提案 • 雑音低減のステップ数を減らすことができる

    拡散過程 𝑥0 から𝑥𝑡 の分布を計算 逆拡散過程 𝑥𝑡 から𝑥𝑡−1 の分布を計算 おそらく拡散過程で直接𝑥0 を計算する手順の逆の ようなことをしている
  21. 使用音声データ • DEMAND datesetを使用 VoiceBank corpas からの30人話者で構成されている • サンプリング周波数は16 kHz

    使用法 話者数 ノイズ SNR [dB] 合計音声長 [Hour] 訓練 26 8種(実環境) 2種(人口) 0, 5 ,10 , 15 8.6 検証 2 0.7 テスト 2 その他のノイズ 2.5, 7.5, 12.5, 17.5 0.6
  22. モデル設定と学習方法 • 3つのdilation cycle[1,2,…512]からなる30の残差レイヤーから構成 • カーネルサイズ: 3 • 学習率: 2

    × 10−4(プリトレインとファインチューニング) • プリトレイン時のメルスペクトログラムの次元数80 • ノイジースペクトログラムの次元数は513(長さ1024の窓を256シフト) • 補助逆過程のパラメータ𝛾𝑡 = 𝜎𝑡 ഥ 𝛼𝑡−1 𝑡 > 1 , 𝑟1 = 0.2 • アーリーストッピング使用 Base Diffuse • [拡散ステップ𝑇, 残差チャネル𝐶] ∈ 50,63 • 訓練時ノイズ𝛽𝑡 ∈ 1 × 10−4, 0.05 • バッチサイズ:16 • イテレーション数300X1000 Large Diffuse • [拡散ステップ𝑇, 残差チャネル𝐶] ∈ 200, 128 • 訓練時ノイズ𝛽𝑡 ∈ 1 × 10−4, 0.02 • バッチサイズ15 • イテレーション数700x1000
  23. 評価方法 以下の客観評価指標を用いて性能評価を行う ◆Peeveptual evaluation of speech quality(PESQ) ◆Prediction of the

    signal distortion (CSIG) ◆Prediction of the background intrusiveness(CBAK) ◆Prediction of the overall speech quality(COVL) ◆CSIG, CBAK, COVLは客観評価指標PESQ, WSS, IS, CEP, WSSの線形結 合によって得られる値である[4] ◆これらの指標は高いほど精度が良いことが示される
  24. • Log-likelihood ratio (LLR ) 𝑎 𝑐 はクリーンな音声のLPC係数と Ԧ 𝑎𝑝

    は強調音声のLPC係数,𝑅𝑐 はクリー ンな音声の自己相関マトリックス フォルマントピークの位置の誤差を測る  周波数領域では以下のように表現される[5] 客観評価指標
  25. 客観評価指標 • Cepstrum distortion (CEP) クリーンなケプストラムԦ 𝑐𝑐 と強調した音声のԦ 𝑐𝑝 の距離

    • Weighted Spectral slope distance (WSS) 各帯域j,時間フレームにおけるクリーンな音声のスペクトロスロープ𝑆𝑐 と 強調音声のスペクトロスロープ𝑆𝑝 の距離 スペクトロスロープは 𝑊は帯域ごとの重み
  26. 条件の説明 Full schedule • 拡散過程と同じ𝛽𝑡 を使用 Fast(高速サンプリング) • [0.0001, 0.001,

    0.01. 0.05, 0.2, 0.5] Base • [0.0001, 0.001, 0.01. 0.05, 0.2, 0.7] Large • 補助逆過程(SRP)の有効性を示すために以下のような条件でも学習をしている • 𝑅𝑃 − 𝑁𝑖𝑛:ガウシアンノイズを雑音入り音声に変えて逆過程を行う • 𝑅𝑃 − 𝑁𝑜𝑢𝑡 :最終出力時の音声(強調音声)8割,雑音入り音声2割の重みを足して出力 • 𝑅𝑃 − 𝑁𝑖𝑛+𝑜𝑢𝑡:両方行う 𝑥𝑡−1 𝑥𝑡 𝑥0 𝑥𝑇 𝑅𝑃 − 𝑁𝑖𝑛 純粋なガウスノイズから雑 音入り音声に置き換えて通 常の逆拡散過程を行う 𝑅𝑃 − 𝑁𝑜𝑢𝑡 : 最終出力時に雑音入 り音声を重み付けし て加算する SRP 途中の逆過程でも雑音入り音 声を加える
  27. Large Diffuse Model • Base モデルと同様の傾向がある • 全ての条件でNoisy以上の評価値となる • SRPが最も高い評価値を得る

    • Base Diffuse Modelより高い強調性能がある ➢ より複雑な拡散モデルはより高い性能を示す
  28. 結果 • 𝑅𝑃と𝑅𝑃 − 𝑁𝑜𝑢𝑡 :ではフルサンプル計画が高速サンプル計画より高い評価 値を示す ➢ DiffWaveでも同様の結果が得られている •

    一方で𝑅𝑃 − 𝑁𝑖𝑛 と𝑅𝑃 − 𝑁𝑖𝑛+𝑜𝑢𝑡 と𝑆𝑅𝑃では高速サンプル計画の方が高い ➢ノイズ音声はクリーン音声とノイズから構成されており,ガウスノ イズとは異なる性質がある。そのためノイズ音声を入力場合,フル サンプリングよりも高速サンプリングが適している。 ➢従来のRPだとガウスノイズを仮定しているため適しない https://github.com/neillu23/DiffuSE
  29. 参考文献 1. Z. Kong, W. Ping, J. Huang, K. Zhao,

    and B. Catanzaro, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” arXiv [eess.AS], Sep. 21, 2020. [Online]. Available: http://arxiv.org/abs/2009.09761 2. A. van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” arXiv [cs.SD], Sep. 2016, [Online]. Available: https://arxiv.org/abs/1609.03499 3. D. Rethage, J. Pons, and X. Serra, “A Wavenet for Speech Denoising,” arXiv [cs.SD], Jun. 22, 2017. [Online]. Available: http://arxiv.org/abs/1706.07162 4. Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. Audio Speech Lang. Processing, vol. 16, no. 1, pp. 229–238, Jan. 2008. 5. P. C. Loizou, Speech enhancement: Theory and practice, second edition, 2nd ed. Boca Raton, FL: CRC Press, 2013. 理解に役に立った資料 • 山本龍一 , 高道慎之介, Pythonで学ぶ音声合成. インプレス, 2021.(特にwavenetの説明分) • 小泉 悠馬, “拡散確率モデルと音声波形生成,” Speaker Deck. https://speakerdeck.com/yumakoizumi/kuo-san-que-lu-moderutoyin-sheng-bo-xing-sheng-cheng (accessed Apr. 27, 2023).