拡散確率モデルと音声波形生成

拡散確率モデルと音声波形生成小泉悠馬琉球大招待講演, 2022/07/06

Proprietary + Conﬁdential 自己紹介 ❏ 氏名：小泉悠馬 ❏ 経歴 ❏
2020〜現在：Google Research, Research Scientist ❏ 2014〜2020：NTT メディアインテリジェンス研究所, 研究員 ❏ 2017：博士（工学）, 電気通信大学, 羽田陽一研究室 ❏ 2014：修士（理学）, 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声＆音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

Proprietary + Conﬁdential Google Speech Group in Tokyo Michiel Bacchiani
Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi

Proprietary + Conﬁdential Acknowledgments Michiel Bacchiani Heiga Zen Nanxin Chen
矢田部浩平准教授（農工大）

Proprietary + Conﬁdential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう
❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Proprietary + Conﬁdential 拡散確率モデル [1, 2] ❏ Denoising Diffusion Probabilistic
Models (DDPM) ❏ ノイズをだんだん除去して、出力を得るモデル ❏ 音や画像の生成に使えそう！ [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 最初はホワイトノイズちょっとずつ雑音を除去していき最後は綺麗な画像になる [2] の図２

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や
DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. Imagen で生成された画像 imagen.research.google/

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や
DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [4] の図２ prior と decoder を拡散確率モデルで設計

Proprietary + Conﬁdential ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave
[6] が ICLR 2021 で提案された拡散確率モデルとアプリケーション [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. メルスケールの対数振幅スペクトログラム波形拡散確率モデル今日はいい天気です encoder

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と
DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [4] の図２

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と
DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.

Proprietary + Conﬁdential 拡散確率モデルって面白そう 🤔 😋 🥴 高精細な画像や音を生成できるなんて魅力的だな [2] の図も簡単そうだし、パッとやってなんかできるんじゃ！
よ〜し、サクッと論文 [2] 読んでみるか [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Proprietary + Conﬁdential Oh… [2] J. Ho+, "Denoising Diffusion Probabilistic
Models," NeurIPS 2020.

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 ❏ （私の経験上）世の中の素晴らしい研究に簡単なものなんてない😟 ❏ ある程度は数式と向き合わないと、新しい研究をしたり、キャッチアップはできない...😇 ❏
でも世の中に存在する資料は、頭のいい人が、頭のいい人向けに、誤解の起きないように、丁寧に説明したものばかり...🤯

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読める 🤯 😍

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読めるアルゴリズムのお気持ちがわ
かる主要な数式がなんとなく理解できる 😍 😄 🤨 😎

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読めるアルゴリズムのお気持ちがわ
かる主要な数式がなんとなく理解できる 😍 😄 🤨 😎 今日のトーク

Proprietary + Conﬁdential 今日の説明手順 ❏ ボトムアップに拡散確率モデルを説明してみます ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明します ❏
拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文を読んでみてください。 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Proprietary + Conﬁdential 難しそうな疑似コード [2] J. Ho+, "Denoising Diffusion Probabilistic
Models," NeurIPS 2020. まずはこちらから

Proprietary + Conﬁdential 推論手順のお気持ち ❏ “ホワイトノイズ絶対除去するマン”がいたらいいな... ホワイトノイズ絶対除去するマン音声音声
ホワイトノイズ SNR = 10dB

Proprietary + Conﬁdential 推論手順のお気持ち ❏ 完璧は無理だから“ホワイトノイズ大体除去するマン”としようホワイトノイズ大体除去するマン音声音声
歪みホワイトノイズ SNR = 10dB

Proprietary + Conﬁdential 推論手順のお気持ち ❏ ホワイトノイズを入れると、“歪みだらけの音声っぽい波形” を無理やり取り出してくれるだろうホワイトノイズ大体除去するマン
音声歪みホワイトノイズ SNR = -20dB

Proprietary + Conﬁdential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しようホワイトノイズ大体除去するマン音声歪み
音声歪み

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう
ホワイトノイズ大体除去するマン音声歪み

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう
ホワイトノイズ大体除去するマン音声歪み音声歪み SNR = 0dB

Proprietary + Conﬁdential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しようホワイトノイズ大体除去するマン音声歪み
音声歪み

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう
ホワイトノイズ大体除去するマン音声歪み

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう
ホワイトノイズ大体除去するマン音声歪み音声歪み SNR = 10dB

Proprietary + Conﬁdential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しようホワイトノイズ大体除去するマン音声音声
歪み歪み

Proprietary + Conﬁdential 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう音声歪み
ホワイトノイズホワイトノイズ大体除去するマン

Proprietary + Conﬁdential 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ これを何回も繰り返せば、音声が生成できるだろう音声歪み
ホワイトノイズ音声 SNR = 20dB ホワイトノイズ大体除去するマン

Proprietary + Conﬁdential なんだか可愛く見えてきたでしょう？ [2] J. Ho+, "Denoising Diffusion Probabilistic

Models," NeurIPS 2020. 初期値はホワイトノイズとする決め打ちした回数だけ更新するホワイトノイズを生成する DNNで音声を推定し（＝ノイズを消し）、それに上で生成したホワイトノイズを足す最後はホワイトノイズを足さずに音声を出力する

Models," NeurIPS 2020. 初期値はホワイトノイズとする決め打ちした回数だけ更新するホワイトノイズを生成する DNNで音声を推定し（＝ノイズを消し）、それに上で生成したホワイトノイズを足す最後はホワイトノイズを足さずに音声を出力する次はこっち

Proprietary + Conﬁdential 学習手順のお気持ち ❏ “ホワイトノイズ大体除去するDNN”を学習しようホワイトノイズ大体除去するDNN

Proprietary + Conﬁdential 学習手順のお気持ち ❏ 音声とホワイトノイズを用意しようホワイトノイズ大体除去するDNN 音声ホワイト
ノイズ

Proprietary + Conﬁdential 学習手順のお気持ち ❏ それを適当な SNR で mix しよう
ホワイトノイズ大体除去するDNN 音声ホワイトノイズ SNR = 5dB +

Proprietary + Conﬁdential 学習手順のお気持ち ❏ それをDNNに入力し、元のノイズを推定しよう ※引き算すれば、音声を推定しているのと同じことホワイトノイズ大体除去するDNN ホワイト
ノイズ SNR = 5dB 推定ホワイトノイズ音声

Proprietary + Conﬁdential 学習手順のお気持ち ❏ 推定誤差が小さくなるように、DNNを更新しようホワイトノイズ大体除去するDNN ホワイトノイズ
誤差計算推定ホワイトノイズ

Models," NeurIPS 2020. ランダムに音声を選ぶランダムにSNRを決めるホワイトノイズを生成するそのSNRで混ぜた信号から元のノイズを推定し、推定誤差を小さくするように DNNを更新する初期値はホワイトノイズとする決め打ちした回数だけ更新するホワイトノイズを生成する DNNで音声を推定し（＝ノイズを消し）、それに上で生成したホワイトノイズを足す最後はホワイトノイズを足さずに音声を出力する

Proprietary + Conﬁdential 何故このアルゴリズムになるの🤔？ [2] J. Ho+, "Denoising Diffusion Probabilistic

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しいこれが欲しい

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 🤔 ???
これが欲しい

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデルこれは？

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル最初はホワイトノイズ

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデルこの子が推定できればいい

Proprietary + Conﬁdential Reverseプロセスを知りたい！ ❏ 雑音から音声に戻すプロセス(※)を reverseプロセスと呼ぶ ❏ でも、どうやって雑音になったか分からないと、戻しようがない... Reverseプロセス
※ 正しくは、結合分布を reverse process と呼ぶ

Proprietary + Conﬁdential ※ 正しくは、結合分布を diffusion process と呼ぶ Diffusionプロセス
❏ 信号を拡散（diffusion）させて雑音に変換するプロセス ❏ どうやって ”拡散” させよう？ Reverseプロセス Diffusionプロセス

Proprietary + Conﬁdential Diffusionプロセスで大事な数式まとめ (i) １ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる ❏ 少し式がややこしいので、ここだけ分かればいい２点を先に出します

Proprietary + Conﬁdential Diffusionプロセスの１ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

係数が０以上１未満なら音声は小さくなる

音声が小さくなった分、ホワイトノイズを足す

こんな正規分布からのサンプリングに相当

つまり、拡散の１ステップはこれ

Proprietary + Conﬁdential Diffusionプロセスを続けていくと？ ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると Note

Proprietary + Conﬁdential Diffusionプロセスを続けていくと？ ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏
正規分布の再生性より Note

Proprietary + Conﬁdential Diffusionプロセスを続けていくと？ ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏
正規分布の再生性より ❏ 一般形に書き換えて Note よって、なら、十分大きいステップでは標準正規分布になる

Proprietary + Conﬁdential Diffusionプロセスで大事な数式まとめ (i) １ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる

Proprietary + Conﬁdential [6] Z. Kong+, “DiffWave: A Versatile Diffusion
Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの１ステップ ❏ これに対応する reverse プロセスの１ステップはどんなだろう？ ❏ 以下の正規分布からのサンプリングになる（導出は [5] 参照）

Proprietary + Conﬁdential Reverseプロセスの１ステップ ❏ 平均値の意味するところ ❏ ややこしい係数は計算機に任せればいいので現段階では無視でいい ❏ 大切なのは、tステップ目の信号に、クリーン音声を混ぜてる点
❏ なので、１ステップ進めると、少しクリーンになる、というイメージクリーン音声に係数を掛けて、 noisy な信号に足す 🤔 いや、だからクリーン音声を知りたいんだけど...

Proprietary + Conﬁdential Reverseプロセスの１ステップ ❏ Diffusionプロセスに便利な式があった

Proprietary + Conﬁdential Reverseプロセスの１ステップ ❏ Diffusionプロセスに便利な式があった ❏ 代入すると... 分からない変数が、x t
に含まれている雑音だけになった！

Proprietary + Conﬁdential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"
NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN SNR = 5dB 推定ホワイトノイズ音声ホワイトノイズ +

Proprietary + Conﬁdential [2] J. Ho+, "Denoising Diffusion Probabilistic Models,"
NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイトノイズ音声 + ホワイトノイズ誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪？」な簡略化をしてこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...

Proprietary + Conﬁdential DNNの使い方 ❏ DNNを雑音の推定に使う DNN SNR = 5dB
😃ここに使う💡

Proprietary + Conﬁdential もっと知りたい方へ ❏ 日本語で、わかりやすいページ ❏ What are Diffusion
Models? の和訳：https://zenn.dev/nakky/articles/09fb1804001ff8 ❏ Yohei Kikuta さんの論文読みメモ：https://github.com/yoheikikuta/paper-reading/issues/62 ❏ 英語で、わかりやすいページ ❏ Diffusion Models as a kind of VAE：https://angusturner.github.io/generative_models/2021/06/29/diffus ion-probabilistic-models-I ❏ An introduction to Diffusion Probabilistic Models：https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models

Proprietary + Conﬁdential 拡散確率モデルと信号対雑音比 ❏ 拡散ステップは何をしているのか？ ❏ Signal-to-Noise Ratio (SNR)
を調整していると解釈できる※注 [7] [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. + ※注 [7] での SNR の定義。音声と雑音のパワーが一緒だったら、信号処理で使われる SNR と意味の対応が

Proprietary + Conﬁdential 拡散確率モデルと信号対雑音比 ❏ 音声が小さい区間は、ノイズも小さくて良いのでは？この区間は既に波形が見えないこの区間はまだ波形がよく見える

Proprietary + Conﬁdential PriorGrad [8] ❏ Segmental SNR を調整するようにすれば良い [8]
❏ 条件付けの log-mel spectrogram から雑音パワーを決める [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. ※ PriorGrad は Microsoft Research Asia の研究です！

Proprietary + Conﬁdential PriorGradの雑音生成 ❏ 時間領域で、ホワイトノイズに振幅係数をかける条件付け対数メルスペクトログラム雑音の振幅フレーム毎に
パワー計算ホワイトノイズ PriorGrad のノイズ tf.random.normal() +

Proprietary + Conﬁdential え、そんなことして大丈夫なの？ ❏ 対角共分散行列を持つ正規分布を利用することに相当 ❏ 共分散要素が信号のパワーを表すことを利用 ❏ ロス計算以外は、元のアルゴリズムをそのまま使える（証明は[8]参照）
[5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [5] PriorGrad [8] 雑音の事前分布（Prior）を、条件付けログメルスペクトログラムに適応（ Adapt）する

Proprietary + Conﬁdential ロスはどうなるの？ ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる [8] S. Lee+, "PriorGrad:
Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音の振幅ホワイトノイズ PriorGrad のノイズ + DNN 推定ノイズ振幅を戻したノイズ平均二乗誤差

Proprietary + Conﬁdential ロスはどうなるの？ ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] [2]
J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視最後はノイズを足さないので無視

Proprietary + Conﬁdential ロスはどうなるの？ ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏
ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視最後はノイズを足さないので無視

Proprietary + Conﬁdential ロスはどうなるの？ ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏
ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視最後はノイズを足さないので無視無視した方がうまくいくので無視 [2] 係数 β t は無視 [2] WaveGrad は単位行列なので逆行列が不要 [5] PriorGrad は振幅で除算することに相当 [8]

Proprietary + Conﬁdential SpecGrad [9] [8] S. Lee+, "PriorGrad: Improving
Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. ❏ 雑音のスペクトル包絡も制御したらいいのでは？時間メルスケール周波数条件付け対数メルスペクトログラム PriorGrad [8] の雑音のスペクトログラム SpecGrad [9] の雑音のスペクトログラム時間周波数時間周波数

Proprietary + Conﬁdential SpecGrad [9] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 [9] Y. Koizumi+,
"SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Proprietary + Conﬁdential SpecGradの雑音生成 ❏ 時間周波数領域で、ホワイトノイズにフィルタをかける条件付け対数メルスペクトログラム雑音のスペクトル包絡制御フィルタ
ケプストラム＆最小位相ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Proprietary + Conﬁdential SpecGradのロス計算 ❏ 時間周波数領域で、推定ノイズに逆フィルタをかける [8] S. Lee+, "PriorGrad:
Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音のスペクトル包絡制御フィルタホワイトノイズ SpecGrad のノイズ + DNN 推定ノイズスペクトル包絡を戻したノイズ平均二乗誤差 iSTFT iSTFT iSTFT STFT

Proprietary + Conﬁdential え、そんなことして大丈夫なの？ ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [5] N. Chen+, “WaveGrad:
Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 時間周波数振幅時間周波数振幅時間周波数振幅

Proprietary + Conﬁdential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ また、乱数生成は、以下の式となる
❏ また、ロス計算は、以下の式となる [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Proprietary + Conﬁdential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな
だと嬉しいだろう？ ❏ 変分下界を下げるために、音声の共分散行列と近いにしたい ❏ 乱数生成に出てくると、ロスの計算に出てくる逆行列の計算が効率的にできる形がいい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Proprietary + Conﬁdential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな
だと嬉しいだろう？ ❏ 変分下界を下げるために、音声の共分散行列と近いにしたい ❏ 乱数生成に出てくると、ロスの計算に出てくる逆行列の計算が効率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Proprietary + Conﬁdential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列　
で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. 条件付け対数メルスペクトログラム雑音のスペクトル包絡制御フィルタケプストラム＆最小位相ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Proprietary + Conﬁdential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列　
で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. SpecGrad のノイズ + DNN 推定ノイズスペクトル包絡を戻したノイズ平均二乗誤差 iSTFT iSTFT iSTFT STFT

Proprietary + Conﬁdential 評価実験：実験設定 ❏ データセット ❏ 学習データ：男性10名、女性11名、英語、184時間、24kHzサンプリング ❏ テストデータ：学習データから
holdout した1,000サンプル ❏ パラメータ設定 ❏ ネットワーク構造：WaveGrad [5] と同じ、パラメータ数 13.8M ❏ 学習法：Adam optimizer、学習率 1e-4、1M step、バッチサイズ 512 ❏ 周波数分析：50ms ハン窓、12.5 msシフト、2,048点FFT、128次元メルフィルタバンク（20Hz〜12kHz） ❏ 比較手法 ❏ WaveGrad [5] および PriorGrad [8] と比較 [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Proprietary + Conﬁdential 評価実験：評価尺度 ❏ 音声の自然性を Mean-Opinion-Score (MOS) で絶対評価 ❏
0.5 ポイント刻みで、１（Bad）〜５（Excellent） ❏ 更新回数は、PriorGrad のスケジュールで6回（PG-6）と、WaveGrad のスケジュールで50回（WG-50）の２パターンで評価 ❏ 定量評価として、WARP-Q [11] も利用 ❏ 音声の自然性を A/Bテストで相対評価 ❏ 1 ポイント刻みで、−３（Bが良い）〜３（Aが良い） ❏ 更新回数は、PriorGrad のスケジュールで6回（PG-6）で評価 ❏ 評価者 ❏ クラウドソーシングを利用した試験 ❏ 静かな部屋でヘッドホンで受聴、一人当たり最大６回まで評価 [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021

Proprietary + Conﬁdential 音質評価：MOS試験 ❏ SpecGrad が、両方のスケジュールで最もMOSが高い ❏ WARP-Q score
も、両方のスケジュールで提案法が最も高い

Proprietary + Conﬁdential 音質評価：A/Bテスト ❏ SpecGrad > WaveGrad > PriorGrad
という結果だった ❏ WaveGrad は、高域が生成されないためと考えられる [12] ❏ PriorGrad は、高域が生成されるものの、高域の位相歪みが観測された ❏ PriorGrad の論文 [8]は、メルフィルタバンクの最大周波数を 7.6 kHz で設計しており、今回の実験とのパラメータの不一致が原因と考えられる [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021

Proprietary + Conﬁdential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて：https://wavegrad.github.io/specgrad/ Text: I
can't speak for Scooby, but have you looked in the Mystery Machine? [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 6 iter. 50 iter.

Proprietary + Conﬁdential 音声強調にも利用可能 ❏ Parametric resynthesis [13] の波形生成にも利用可能 ❏
雑音を含んだメルスペクトログラムを、別のネットワークを利用して、クリーンなメルスペクトログラムに変換 ❏ 雑音/残響除去されたメルスペクトログラムから波形生成 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 音声波形 SpecGrad 別のネットワーク雑音/残響付き対数メルスペクトログラム強調された対数メルスペクトログラム

Proprietary + Conﬁdential 評価実験：音声強調 ❏ 実験設定 ❏ DF-Conformer [14] を
front-end に利用 ❏ 事前学習した DF-Conformer と接続し、500k step fine-tuning ❏ データセット ❏ 前述の音声データに、鏡像法で残響を付与＆TAU Urban AudioVisual Scenes 2021 dataset [15] を雑音として付与 ❏ 評価尺度 ❏ 明瞭度：ESTOI [16] ❏ 音質：WARP-Q [11] [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.

Proprietary + Conﬁdential 評価実験：音声強調 ❏ SpecGrad > WaveGrad > PriorGrad
という結果だった ❏ アルゴリズムの特性上、ノイズ生成や誤差計算がメルスペクトログラムの推定精度に影響されるが、誤差を含んだメルスペクトログラムを利用してもなお、従来法より高精度に波形生成可能であることがわかった

Proprietary + Conﬁdential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて：https://wavegrad.github.io/specgrad/ クリーン音声雑音＆残響入り音声
強調音声 Text: The new entity set about warping reality all over Scotland.

Proprietary + Conﬁdential まとめ ❏ 拡散確率モデルは面白い！ ❏ 魅力的なアプリケーションが沢山ある ❏ アルゴリズム自体はそこまで複雑じゃない
❏ アルゴリズムが分かると、論文の数式を追うのもそこまで苦ではない ❏ 拡散確率モデルを利用した波形生成 ❏ 雑音の事前分布を、条件付けメルスペクトログラムから適応する手法を紹介 ❏ 他にも手法を改善するアプローチは沢山 ❏ 興味のある方は⏬

Proprietary + Conﬁdential 参考文献 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning
using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [3] A. Nichol+, "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models," arXiv:2112.10741, 2021. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.

拡散確率モデルと音声波形生成

拡散確率モデルと音声波形生成

More Decks by Yuma Koizumi

Other Decks in Technology

Featured

Transcript