Upgrade to Pro — share decks privately, control downloads, hide ads and more …

拡散確率モデルと音声波形生成

 拡散確率モデルと音声波形生成

琉球大学での招待講演(2022/07/06)のスライドです。
URL: https://www.ieice.org/kyushu/2022koen_1/

B8224b243a146b8fd9a2e783fe3eb371?s=128

Yuma Koizumi

July 06, 2022
Tweet

Other Decks in Technology

Transcript

  1. 拡散確率モデルと音声波形生成 小泉 悠馬 琉球大招待講演, 2022/07/06

  2. Proprietary + Confidential 自己紹介 ❏ 氏名:小泉 悠馬 ❏ 経歴 ❏

    2020〜現在:Google Research, Research Scientist ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員 ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室 ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声&音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..
  3. Proprietary + Confidential Google Speech Group in Tokyo Michiel Bacchiani

    Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi
  4. Proprietary + Confidential Acknowledgments Michiel Bacchiani Heiga Zen Nanxin Chen

    矢田部 浩平准教授 (農工大)
  5. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  6. Proprietary + Confidential 拡散確率モデル [1, 2] ❏ Denoising Diffusion Probabilistic

    Models (DDPM) ❏ ノイズをだんだん除去して、出力を得るモデル ❏ 音や画像の生成に使えそう! [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 最初は ホワイトノイズ ちょっとずつ雑音を除 去していき 最後は綺麗な画像になる [2] の図2
  7. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や

    DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. Imagen で生成された画像 imagen.research.google/
  8. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や

    DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [4] の図2 prior と decoder を拡散確 率モデルで設計
  9. Proprietary + Confidential ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave

    [6] が ICLR 2021 で提案された 拡散確率モデルとアプリケーション [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. メルスケールの対数振幅スペクトログラム 波形 拡散確率 モデル 今日はいい 天気です encoder
  10. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と

    DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [4] の図2
  11. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と

    DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
  12. Proprietary + Confidential 拡散確率モデルって面白そう 🤔 😋 🥴 高精細な画像や音を生成できるなんて魅力的だな [2] の図も簡単そうだし、パッとやってなんかできるんじゃ!

    よ〜し、サクッと論文 [2] 読んでみるか [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
  13. Proprietary + Confidential Oh… [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020.
  14. Proprietary + Confidential 新しい手法を勉強するのはいつも大変 ❏ (私の経験上)世の中の素晴らしい研究に簡単なものなんてない😟 ❏ ある程度は数式と向き合わないと、新しい研究をしたり、キャッチアップは できない...😇 ❏

    でも世の中に存在する資料は、頭のいい人が、頭のいい人向けに、誤解 の起きないように、丁寧に説明したものばかり...🤯
  15. Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める 🤯 😍

  16. Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める アルゴリズムの お気持ちがわ

    かる 主要な数式が なんとなく 理解できる 😍 😄 🤨 😎
  17. Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める アルゴリズムの お気持ちがわ

    かる 主要な数式が なんとなく 理解できる 😍 😄 🤨 😎 今日のトーク
  18. Proprietary + Confidential 今日の説明手順 ❏ ボトムアップに拡散確率モデルを説明してみます ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明しま す ❏

    拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文 を読んでみてください。 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
  19. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  20. Proprietary + Confidential 難しそうな疑似コード [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. まずはこちらから
  21. Proprietary + Confidential 推論手順のお気持ち ❏ “ホワイトノイズ絶対除去するマン”がいたらいいな... ホワイトノイズ 絶対除去するマン 音声 音声

    ホワイト ノイズ SNR = 10dB
  22. Proprietary + Confidential 推論手順のお気持ち ❏ 完璧は無理だから“ホワイトノイズ大体除去するマン”としよう ホワイトノイズ 大体除去するマン 音声 音声

    歪み ホワイト ノイズ SNR = 10dB
  23. Proprietary + Confidential 推論手順のお気持ち ❏ ホワイトノイズを入れると、“歪みだらけの音声っぽい波形” を無理やり取り 出してくれるだろう ホワイトノイズ 大体除去するマン

    音声 歪み ホワイト ノイズ SNR = -20dB
  24. Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 歪み

    音声 歪み
  25. Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう

    ホワイトノイズ 大体除去するマン 音声 歪み
  26. Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう

    ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み SNR = 0dB
  27. Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 歪み

    音声 歪み
  28. Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう

    ホワイトノイズ 大体除去するマン 音声 歪み
  29. Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう

    ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み SNR = 10dB
  30. Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 音声

    歪み 歪み
  31. Proprietary + Confidential 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう 音声 歪み

    ホワイト ノイズ ホワイトノイズ 大体除去するマン
  32. Proprietary + Confidential 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ これを何回も繰り返せば、音声が生成できるだろう 音声 歪み

    ホワイト ノイズ 音声 SNR = 20dB ホワイトノイズ 大体除去するマン
  33. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020.
  34. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する
  35. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する 次はこっち
  36. Proprietary + Confidential 学習手順のお気持ち ❏ “ホワイトノイズ大体除去するDNN”を学習しよう ホワイトノイズ 大体除去するDNN

  37. Proprietary + Confidential 学習手順のお気持ち ❏ 音声とホワイトノイズを用意しよう ホワイトノイズ 大体除去するDNN 音声 ホワイト

    ノイズ
  38. Proprietary + Confidential 学習手順のお気持ち ❏ それを適当な SNR で mix しよう

    ホワイトノイズ 大体除去するDNN 音声 ホワイト ノイズ SNR = 5dB +
  39. Proprietary + Confidential 学習手順のお気持ち ❏ それをDNNに入力し、元のノイズを推定しよう ※引き算すれば、音声を推定しているのと同じこと ホワイトノイズ 大体除去するDNN ホワイト

    ノイズ SNR = 5dB 推定ホワイト ノイズ 音声
  40. Proprietary + Confidential 学習手順のお気持ち ❏ 推定誤差が小さくなるように、DNNを更新しよう ホワイトノイズ 大体除去するDNN ホワイト ノイズ

    誤差計算 推定ホワイト ノイズ
  41. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [3] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. ランダムに音声を選ぶ ランダムにSNRを決める ホワイトノイズを生成する そのSNRで混ぜた信号から元のノイズを推定し、 推定誤差を小さくするように DNNを更新する 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する
  42. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  43. Proprietary + Confidential 何故このアルゴリズムになるの🤔? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020.
  44. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい これが欲しい

  45. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 🤔 ???

    これが欲しい
  46. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

  47. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル これは?

  48. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

  49. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

  50. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

  51. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

  52. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 最初はホワイトノイズ

  53. Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル この子が推定できればいい

  54. Proprietary + Confidential Reverseプロセスを知りたい! ❏ 雑音から音声に戻すプロセス(※)を reverseプロセスと呼ぶ ❏ でも、どうやって雑音になったか分からないと、戻しようがない... Reverseプロセス

    ※ 正しくは、結合分布 を reverse process と呼ぶ
  55. Proprietary + Confidential ※ 正しくは、結合分布 を diffusion process と呼ぶ Diffusionプロセス

    ❏ 信号を拡散(diffusion)させて雑音に変換するプロセス ❏ どうやって ”拡散” させよう? Reverseプロセス Diffusionプロセス
  56. Proprietary + Confidential Diffusionプロセスで大事な数式まとめ (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる ❏ 少し式がややこしいので、ここだけ分かればいい2点を先に出します

  57. Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

  58. Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

    係数が0以上1未満なら音声は小さくなる
  59. Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

    音声が小さくなった分、ホワイトノイズを足す
  60. Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

    こんな正規分布からのサンプリングに相当
  61. Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

    つまり、拡散の1ステップはこれ
  62. Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると Note

  63. Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏

    正規分布の再生性より Note
  64. Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏

    正規分布の再生性より ❏ 一般形に書き換えて Note よって、 なら、十分大きいステップでは標準正 規分布になる
  65. Proprietary + Confidential Diffusionプロセスで大事な数式まとめ (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる

  66. Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion

    Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)
  67. Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion

    Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)
  68. Proprietary + Confidential Reverseプロセスの1ステップ ❏ 平均値の意味するところ ❏ ややこしい係数は計算機に任せればいいので現段階では無視でいい ❏ 大切なのは、tステップ目の信号に、クリーン音声を混ぜてる点

    ❏ なので、1ステップ進めると、少しクリーンになる、というイメージ クリーン音声に係数を掛けて、 noisy な信号に足す 🤔 いや、だからクリーン音声を知りたいんだけど...
  69. Proprietary + Confidential Reverseプロセスの1ステップ ❏ Diffusionプロセスに便利な式があった

  70. Proprietary + Confidential Reverseプロセスの1ステップ ❏ Diffusionプロセスに便利な式があった ❏ 代入すると... 分からない変数が、x t

    に含まれている雑音だけになった!
  71. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  72. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN SNR = 5dB 推定ホワイト ノイズ 音声 ホワイト ノイズ +
  73. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...
  74. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...
  75. Proprietary + Confidential DNNの使い方 ❏ DNNを雑音の推定に使う DNN SNR = 5dB

    😃ここに使う💡
  76. Proprietary + Confidential もっと知りたい方へ ❏ 日本語で、わかりやすいページ ❏ What are Diffusion

    Models? の和訳 :https://zenn.dev/nakky/articles/09fb1804001ff8 ❏ Yohei Kikuta さんの論文読みメモ :https://github.com/yoheikikuta/paper-reading/issues/62 ❏ 英語で、わかりやすいページ ❏ Diffusion Models as a kind of VAE:https://angusturner.github.io/generative_models/2021/06/29/diffus ion-probabilistic-models-I ❏ An introduction to Diffusion Probabilistic Models:https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models
  77. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  78. Proprietary + Confidential 拡散確率モデルと信号対雑音比 ❏ 拡散ステップは何をしているのか? ❏ Signal-to-Noise Ratio (SNR)

    を調整していると解釈できる※注 [7] [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. + ※注 [7] での SNR の定義。音声と雑音のパワーが一緒だったら、信号処理で使われる SNR と意味の対応が
  79. Proprietary + Confidential 拡散確率モデルと信号対雑音比 ❏ 音声が小さい区間は、ノイズも小さくて良いのでは? この区間は既に波形が見えない この区間はまだ波形がよく見える

  80. Proprietary + Confidential PriorGrad [8] ❏ Segmental SNR を調整するようにすれば良い [8]

    ❏ 条件付けの log-mel spectrogram から雑音パワーを決める [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. ※ PriorGrad は Microsoft Research Asia の研究です!
  81. Proprietary + Confidential PriorGradの雑音生成 ❏ 時間領域で、ホワイトノイズに振幅係数をかける 条件付け 対数メルスペクトログラム 雑音の振幅 フレーム毎に

    パワー計算 ホワイトノイズ PriorGrad のノイズ tf.random.normal() +
  82. Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 対角共分散行列を持つ正規分布を利用することに相当 ❏ 共分散要素が信号のパワーを表すことを利用 ❏ ロス計算以外は、元のアルゴリズムをそのまま使える(証明は[8]参照)

    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [5] PriorGrad [8] 雑音の事前分布(Prior)を、 条件付けログメルスペクトログラムに適応( Adapt)する
  83. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる [8] S. Lee+, "PriorGrad:

    Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音の振幅 ホワイトノイズ PriorGrad のノイズ + DNN 推定ノイズ 振幅を戻したノイズ 平均二乗誤差
  84. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] [2]

    J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視
  85. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏

    ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視
  86. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏

    ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視 無視した方がうまくいくので無視 [2] 係数 β t は無視 [2] WaveGrad は単位行列なので逆行列が不要 [5] PriorGrad は振幅で除算することに相当 [8]
  87. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  88. Proprietary + Confidential SpecGrad [9] [8] S. Lee+, "PriorGrad: Improving

    Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. ❏ 雑音のスペクトル包絡も制御したらいいのでは? 時間 メルスケール周波数 条件付け 対数メルスペクトログラム PriorGrad [8] の雑音の スペクトログラム SpecGrad [9] の雑音の スペクトログラム 時間 周波数 時間 周波数
  89. Proprietary + Confidential SpecGrad [9] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 [9] Y. Koizumi+,

    "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  90. Proprietary + Confidential SpecGradの雑音生成 ❏ 時間周波数領域で、ホワイトノイズにフィルタをかける 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ

    ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT
  91. Proprietary + Confidential SpecGradのロス計算 ❏ 時間周波数領域で、推定ノイズに逆フィルタをかける [8] S. Lee+, "PriorGrad:

    Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音のスペクトル包絡 制御フィルタ ホワイトノイズ SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT
  92. Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [5] N. Chen+, “WaveGrad:

    Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 時間 周波数 振幅 時間 周波数 振幅 時間 周波数 振幅
  93. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ また、乱数生成は、以下の式となる

    ❏ また、ロス計算は、以下の式となる [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  94. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  95. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  96. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  97. Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列 

    で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT
  98. Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列 

    で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT
  99. Proprietary + Confidential 評価実験:実験設定 ❏ データセット ❏ 学習データ:男性10名、女性11名、英語、184時間、24kHzサンプリング ❏ テストデータ:学習データから

    holdout した1,000サンプル ❏ パラメータ設定 ❏ ネットワーク構造:WaveGrad [5] と同じ、パラメータ数 13.8M ❏ 学習法:Adam optimizer、学習率 1e-4、1M step、バッチサイズ 512 ❏ 周波数分析:50ms ハン窓、12.5 msシフト、2,048点FFT、128次元メルフィルタ バンク(20Hz〜12kHz) ❏ 比較手法 ❏ WaveGrad [5] および PriorGrad [8] と比較 [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  100. Proprietary + Confidential 評価実験:評価尺度 ❏ 音声の自然性を Mean-Opinion-Score (MOS) で絶対評価 ❏

    0.5 ポイント刻みで、1(Bad)〜5(Excellent) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)と、WaveGrad のスケ ジュールで50回(WG-50)の2パターンで評価 ❏ 定量評価として、WARP-Q [11] も利用 ❏ 音声の自然性を A/Bテストで相対評価 ❏ 1 ポイント刻みで、−3(Bが良い)〜3(Aが良い) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)で評価 ❏ 評価者 ❏ クラウドソーシングを利用した試験 ❏ 静かな部屋でヘッドホンで受聴、一人当たり最大6回まで評価 [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021
  101. Proprietary + Confidential 音質評価:MOS試験 ❏ SpecGrad が、両方のスケジュールで最もMOSが高い ❏ WARP-Q score

    も、両方のスケジュールで提案法が最も高い
  102. Proprietary + Confidential 音質評価:A/Bテスト ❏ SpecGrad > WaveGrad > PriorGrad

    という結果だった ❏ WaveGrad は、高域が生成されないためと考えられる [12] ❏ PriorGrad は、高域が生成されるものの、高域の位相歪みが観測された ❏ PriorGrad の論文 [8]は、メルフィルタバンクの最大周波数を 7.6 kHz で設計し ており、今回の実験とのパラメータの不一致が原因と考えられる [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021
  103. Proprietary + Confidential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/ Text: I

    can't speak for Scooby, but have you looked in the Mystery Machine? [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 6 iter. 50 iter.
  104. Proprietary + Confidential 音声強調にも利用可能 ❏ Parametric resynthesis [13] の波形生成にも利用可能 ❏

    雑音を含んだメルスペクトログラムを、別のネットワークを利用して、クリーンな メルスペクトログラムに変換 ❏ 雑音/残響除去されたメルスペクトログラムから波形生成 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 音声波形 SpecGrad 別のネット ワーク 雑音/残響付き 対数メルスペクトログラム 強調された 対数メルスペクトログラム
  105. Proprietary + Confidential 評価実験:音声強調 ❏ 実験設定 ❏ DF-Conformer [14] を

    front-end に利用 ❏ 事前学習した DF-Conformer と接続し、500k step fine-tuning ❏ データセット ❏ 前述の音声データに、鏡像法で残響を付与&TAU Urban AudioVisual Scenes 2021 dataset [15] を雑音として付与 ❏ 評価尺度 ❏ 明瞭度:ESTOI [16] ❏ 音質:WARP-Q [11] [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.
  106. Proprietary + Confidential 評価実験:音声強調 ❏ SpecGrad > WaveGrad > PriorGrad

    という結果だった ❏ アルゴリズムの特性上、ノイズ生成や誤差計算がメルスペクトログラムの推定 精度に影響されるが、誤差を含んだメルスペクトログラムを利用してもなお、従 来法より高精度に波形生成可能であることがわかった
  107. Proprietary + Confidential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/ クリーン音声 雑音&残響入り音声

    強調音声 Text: The new entity set about warping reality all over Scotland.
  108. Proprietary + Confidential まとめ ❏ 拡散確率モデルは面白い! ❏ 魅力的なアプリケーションが沢山ある ❏ アルゴリズム自体はそこまで複雑じゃない

    ❏ アルゴリズムが分かると、論文の数式を追うのもそこまで苦ではない ❏ 拡散確率モデルを利用した波形生成 ❏ 雑音の事前分布を、条件付けメルスペクトログラムから適応する手法を紹介 ❏ 他にも手法を改善するアプローチは沢山 ❏ 興味のある方は⏬
  109. Proprietary + Confidential 参考文献 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning

    using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [3] A. Nichol+, "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models," arXiv:2112.10741, 2021. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.