Upgrade to Pro — share decks privately, control downloads, hide ads and more …

拡散確率モデルと音声波形生成

 拡散確率モデルと音声波形生成

琉球大学での招待講演(2022/07/06)のスライドです。
URL: https://www.ieice.org/kyushu/2022koen_1/

Yuma Koizumi

July 06, 2022
Tweet

More Decks by Yuma Koizumi

Other Decks in Technology

Transcript

  1. Proprietary + Confidential 自己紹介 ❏ 氏名:小泉 悠馬 ❏ 経歴 ❏

    2020〜現在:Google Research, Research Scientist ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員 ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室 ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声&音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..
  2. Proprietary + Confidential Google Speech Group in Tokyo Michiel Bacchiani

    Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi
  3. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  4. Proprietary + Confidential 拡散確率モデル [1, 2] ❏ Denoising Diffusion Probabilistic

    Models (DDPM) ❏ ノイズをだんだん除去して、出力を得るモデル ❏ 音や画像の生成に使えそう! [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 最初は ホワイトノイズ ちょっとずつ雑音を除 去していき 最後は綺麗な画像になる [2] の図2
  5. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や

    DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. Imagen で生成された画像 imagen.research.google/
  6. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や

    DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [4] の図2 prior と decoder を拡散確 率モデルで設計
  7. Proprietary + Confidential ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave

    [6] が ICLR 2021 で提案された 拡散確率モデルとアプリケーション [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. メルスケールの対数振幅スペクトログラム 波形 拡散確率 モデル 今日はいい 天気です encoder
  8. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と

    DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [4] の図2
  9. Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と

    DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
  10. Proprietary + Confidential 今日の説明手順 ❏ ボトムアップに拡散確率モデルを説明してみます ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明しま す ❏

    拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文 を読んでみてください。 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
  11. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  12. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する
  13. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する 次はこっち
  14. Proprietary + Confidential 学習手順のお気持ち ❏ それを適当な SNR で mix しよう

    ホワイトノイズ 大体除去するDNN 音声 ホワイト ノイズ SNR = 5dB +
  15. Proprietary + Confidential なんだか可愛く見えてきたでしょう? [3] J. Ho+, "Denoising Diffusion Probabilistic

    Models," NeurIPS 2020. ランダムに音声を選ぶ ランダムにSNRを決める ホワイトノイズを生成する そのSNRで混ぜた信号から元のノイズを推定し、 推定誤差を小さくするように DNNを更新する 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する
  16. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  17. Proprietary + Confidential ※ 正しくは、結合分布 を diffusion process と呼ぶ Diffusionプロセス

    ❏ 信号を拡散(diffusion)させて雑音に変換するプロセス ❏ どうやって ”拡散” させよう? Reverseプロセス Diffusionプロセス
  18. Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏

    正規分布の再生性より ❏ 一般形に書き換えて Note よって、 なら、十分大きいステップでは標準正 規分布になる
  19. Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion

    Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)
  20. Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion

    Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)
  21. Proprietary + Confidential Reverseプロセスの1ステップ ❏ 平均値の意味するところ ❏ ややこしい係数は計算機に任せればいいので現段階では無視でいい ❏ 大切なのは、tステップ目の信号に、クリーン音声を混ぜてる点

    ❏ なので、1ステップ進めると、少しクリーンになる、というイメージ クリーン音声に係数を掛けて、 noisy な信号に足す 🤔 いや、だからクリーン音声を知りたいんだけど...
  22. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  23. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN SNR = 5dB 推定ホワイト ノイズ 音声 ホワイト ノイズ +
  24. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...
  25. Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"

    NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...
  26. Proprietary + Confidential もっと知りたい方へ ❏ 日本語で、わかりやすいページ ❏ What are Diffusion

    Models? の和訳 :https://zenn.dev/nakky/articles/09fb1804001ff8 ❏ Yohei Kikuta さんの論文読みメモ :https://github.com/yoheikikuta/paper-reading/issues/62 ❏ 英語で、わかりやすいページ ❏ Diffusion Models as a kind of VAE:https://angusturner.github.io/generative_models/2021/06/29/diffus ion-probabilistic-models-I ❏ An introduction to Diffusion Probabilistic Models:https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models
  27. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  28. Proprietary + Confidential 拡散確率モデルと信号対雑音比 ❏ 拡散ステップは何をしているのか? ❏ Signal-to-Noise Ratio (SNR)

    を調整していると解釈できる※注 [7] [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. + ※注 [7] での SNR の定義。音声と雑音のパワーが一緒だったら、信号処理で使われる SNR と意味の対応が
  29. Proprietary + Confidential PriorGrad [8] ❏ Segmental SNR を調整するようにすれば良い [8]

    ❏ 条件付けの log-mel spectrogram から雑音パワーを決める [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. ※ PriorGrad は Microsoft Research Asia の研究です!
  30. Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 対角共分散行列を持つ正規分布を利用することに相当 ❏ 共分散要素が信号のパワーを表すことを利用 ❏ ロス計算以外は、元のアルゴリズムをそのまま使える(証明は[8]参照)

    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [5] PriorGrad [8] 雑音の事前分布(Prior)を、 条件付けログメルスペクトログラムに適応( Adapt)する
  31. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる [8] S. Lee+, "PriorGrad:

    Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音の振幅 ホワイトノイズ PriorGrad のノイズ + DNN 推定ノイズ 振幅を戻したノイズ 平均二乗誤差
  32. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] [2]

    J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視
  33. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏

    ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視
  34. Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏

    ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視 無視した方がうまくいくので無視 [2] 係数 β t は無視 [2] WaveGrad は単位行列なので逆行列が不要 [5] PriorGrad は振幅で除算することに相当 [8]
  35. Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう

    ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御
  36. Proprietary + Confidential SpecGrad [9] [8] S. Lee+, "PriorGrad: Improving

    Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. ❏ 雑音のスペクトル包絡も制御したらいいのでは? 時間 メルスケール周波数 条件付け 対数メルスペクトログラム PriorGrad [8] の雑音の スペクトログラム SpecGrad [9] の雑音の スペクトログラム 時間 周波数 時間 周波数
  37. Proprietary + Confidential SpecGrad [9] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 [9] Y. Koizumi+,

    "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  38. Proprietary + Confidential SpecGradのロス計算 ❏ 時間周波数領域で、推定ノイズに逆フィルタをかける [8] S. Lee+, "PriorGrad:

    Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音のスペクトル包絡 制御フィルタ ホワイトノイズ SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT
  39. Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [5] N. Chen+, “WaveGrad:

    Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 時間 周波数 振幅 時間 周波数 振幅 時間 周波数 振幅
  40. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ また、乱数生成は、以下の式となる

    ❏ また、ロス計算は、以下の式となる [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  41. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  42. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  43. Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな

    だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  44. Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列 

    で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT
  45. Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列 

    で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT
  46. Proprietary + Confidential 評価実験:実験設定 ❏ データセット ❏ 学習データ:男性10名、女性11名、英語、184時間、24kHzサンプリング ❏ テストデータ:学習データから

    holdout した1,000サンプル ❏ パラメータ設定 ❏ ネットワーク構造:WaveGrad [5] と同じ、パラメータ数 13.8M ❏ 学習法:Adam optimizer、学習率 1e-4、1M step、バッチサイズ 512 ❏ 周波数分析:50ms ハン窓、12.5 msシフト、2,048点FFT、128次元メルフィルタ バンク(20Hz〜12kHz) ❏ 比較手法 ❏ WaveGrad [5] および PriorGrad [8] と比較 [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
  47. Proprietary + Confidential 評価実験:評価尺度 ❏ 音声の自然性を Mean-Opinion-Score (MOS) で絶対評価 ❏

    0.5 ポイント刻みで、1(Bad)〜5(Excellent) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)と、WaveGrad のスケ ジュールで50回(WG-50)の2パターンで評価 ❏ 定量評価として、WARP-Q [11] も利用 ❏ 音声の自然性を A/Bテストで相対評価 ❏ 1 ポイント刻みで、−3(Bが良い)〜3(Aが良い) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)で評価 ❏ 評価者 ❏ クラウドソーシングを利用した試験 ❏ 静かな部屋でヘッドホンで受聴、一人当たり最大6回まで評価 [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021
  48. Proprietary + Confidential 音質評価:A/Bテスト ❏ SpecGrad > WaveGrad > PriorGrad

    という結果だった ❏ WaveGrad は、高域が生成されないためと考えられる [12] ❏ PriorGrad は、高域が生成されるものの、高域の位相歪みが観測された ❏ PriorGrad の論文 [8]は、メルフィルタバンクの最大周波数を 7.6 kHz で設計し ており、今回の実験とのパラメータの不一致が原因と考えられる [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021
  49. Proprietary + Confidential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/ Text: I

    can't speak for Scooby, but have you looked in the Mystery Machine? [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 6 iter. 50 iter.
  50. Proprietary + Confidential 音声強調にも利用可能 ❏ Parametric resynthesis [13] の波形生成にも利用可能 ❏

    雑音を含んだメルスペクトログラムを、別のネットワークを利用して、クリーンな メルスペクトログラムに変換 ❏ 雑音/残響除去されたメルスペクトログラムから波形生成 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 音声波形 SpecGrad 別のネット ワーク 雑音/残響付き 対数メルスペクトログラム 強調された 対数メルスペクトログラム
  51. Proprietary + Confidential 評価実験:音声強調 ❏ 実験設定 ❏ DF-Conformer [14] を

    front-end に利用 ❏ 事前学習した DF-Conformer と接続し、500k step fine-tuning ❏ データセット ❏ 前述の音声データに、鏡像法で残響を付与&TAU Urban AudioVisual Scenes 2021 dataset [15] を雑音として付与 ❏ 評価尺度 ❏ 明瞭度:ESTOI [16] ❏ 音質:WARP-Q [11] [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.
  52. Proprietary + Confidential 評価実験:音声強調 ❏ SpecGrad > WaveGrad > PriorGrad

    という結果だった ❏ アルゴリズムの特性上、ノイズ生成や誤差計算がメルスペクトログラムの推定 精度に影響されるが、誤差を含んだメルスペクトログラムを利用してもなお、従 来法より高精度に波形生成可能であることがわかった
  53. Proprietary + Confidential まとめ ❏ 拡散確率モデルは面白い! ❏ 魅力的なアプリケーションが沢山ある ❏ アルゴリズム自体はそこまで複雑じゃない

    ❏ アルゴリズムが分かると、論文の数式を追うのもそこまで苦ではない ❏ 拡散確率モデルを利用した波形生成 ❏ 雑音の事前分布を、条件付けメルスペクトログラムから適応する手法を紹介 ❏ 他にも手法を改善するアプローチは沢山 ❏ 興味のある方は⏬
  54. Proprietary + Confidential 参考文献 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning

    using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [3] A. Nichol+, "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models," arXiv:2112.10741, 2021. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.