Slide 1

Slide 1 text

拡散確率モデルと音声波形生成 小泉 悠馬 琉球大招待講演, 2022/07/06

Slide 2

Slide 2 text

Proprietary + Confidential 自己紹介 ❏ 氏名:小泉 悠馬 ❏ 経歴 ❏ 2020〜現在:Google Research, Research Scientist ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員 ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室 ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声&音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

Slide 3

Slide 3 text

Proprietary + Confidential Google Speech Group in Tokyo Michiel Bacchiani Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi

Slide 4

Slide 4 text

Proprietary + Confidential Acknowledgments Michiel Bacchiani Heiga Zen Nanxin Chen 矢田部 浩平准教授 (農工大)

Slide 5

Slide 5 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 6

Slide 6 text

Proprietary + Confidential 拡散確率モデル [1, 2] ❏ Denoising Diffusion Probabilistic Models (DDPM) ❏ ノイズをだんだん除去して、出力を得るモデル ❏ 音や画像の生成に使えそう! [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 最初は ホワイトノイズ ちょっとずつ雑音を除 去していき 最後は綺麗な画像になる [2] の図2

Slide 7

Slide 7 text

Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. Imagen で生成された画像 imagen.research.google/

Slide 8

Slide 8 text

Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [4] の図2 prior と decoder を拡散確 率モデルで設計

Slide 9

Slide 9 text

Proprietary + Confidential ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された 拡散確率モデルとアプリケーション [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. メルスケールの対数振幅スペクトログラム 波形 拡散確率 モデル 今日はいい 天気です encoder

Slide 10

Slide 10 text

Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [4] の図2

Slide 11

Slide 11 text

Proprietary + Confidential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.

Slide 12

Slide 12 text

Proprietary + Confidential 拡散確率モデルって面白そう 🤔 😋 🥴 高精細な画像や音を生成できるなんて魅力的だな [2] の図も簡単そうだし、パッとやってなんかできるんじゃ! よ〜し、サクッと論文 [2] 読んでみるか [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 13

Slide 13 text

Proprietary + Confidential Oh… [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 14

Slide 14 text

Proprietary + Confidential 新しい手法を勉強するのはいつも大変 ❏ (私の経験上)世の中の素晴らしい研究に簡単なものなんてない😟 ❏ ある程度は数式と向き合わないと、新しい研究をしたり、キャッチアップは できない...😇 ❏ でも世の中に存在する資料は、頭のいい人が、頭のいい人向けに、誤解 の起きないように、丁寧に説明したものばかり...🤯

Slide 15

Slide 15 text

Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める 🤯 😍

Slide 16

Slide 16 text

Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める アルゴリズムの お気持ちがわ かる 主要な数式が なんとなく 理解できる 😍 😄 🤨 😎

Slide 17

Slide 17 text

Proprietary + Confidential 新しい手法を勉強するのはいつも大変 SNS等で 興味を持つ 論文が 読める アルゴリズムの お気持ちがわ かる 主要な数式が なんとなく 理解できる 😍 😄 🤨 😎 今日のトーク

Slide 18

Slide 18 text

Proprietary + Confidential 今日の説明手順 ❏ ボトムアップに拡散確率モデルを説明してみます ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明しま す ❏ 拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文 を読んでみてください。 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 19

Slide 19 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 20

Slide 20 text

Proprietary + Confidential 難しそうな疑似コード [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. まずはこちらから

Slide 21

Slide 21 text

Proprietary + Confidential 推論手順のお気持ち ❏ “ホワイトノイズ絶対除去するマン”がいたらいいな... ホワイトノイズ 絶対除去するマン 音声 音声 ホワイト ノイズ SNR = 10dB

Slide 22

Slide 22 text

Proprietary + Confidential 推論手順のお気持ち ❏ 完璧は無理だから“ホワイトノイズ大体除去するマン”としよう ホワイトノイズ 大体除去するマン 音声 音声 歪み ホワイト ノイズ SNR = 10dB

Slide 23

Slide 23 text

Proprietary + Confidential 推論手順のお気持ち ❏ ホワイトノイズを入れると、“歪みだらけの音声っぽい波形” を無理やり取り 出してくれるだろう ホワイトノイズ 大体除去するマン 音声 歪み ホワイト ノイズ SNR = -20dB

Slide 24

Slide 24 text

Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み

Slide 25

Slide 25 text

Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう ホワイトノイズ 大体除去するマン 音声 歪み

Slide 26

Slide 26 text

Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み SNR = 0dB

Slide 27

Slide 27 text

Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み

Slide 28

Slide 28 text

Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう ホワイトノイズ 大体除去するマン 音声 歪み

Slide 29

Slide 29 text

Proprietary + Confidential ホワイト ノイズ 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう ホワイトノイズ 大体除去するマン 音声 歪み 音声 歪み SNR = 10dB

Slide 30

Slide 30 text

Proprietary + Confidential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しよう ホワイトノイズ 大体除去するマン 音声 音声 歪み 歪み

Slide 31

Slide 31 text

Proprietary + Confidential 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう 音声 歪み ホワイト ノイズ ホワイトノイズ 大体除去するマン

Slide 32

Slide 32 text

Proprietary + Confidential 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ これを何回も繰り返せば、音声が生成できるだろう 音声 歪み ホワイト ノイズ 音声 SNR = 20dB ホワイトノイズ 大体除去するマン

Slide 33

Slide 33 text

Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 34

Slide 34 text

Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する

Slide 35

Slide 35 text

Proprietary + Confidential なんだか可愛く見えてきたでしょう? [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する 次はこっち

Slide 36

Slide 36 text

Proprietary + Confidential 学習手順のお気持ち ❏ “ホワイトノイズ大体除去するDNN”を学習しよう ホワイトノイズ 大体除去するDNN

Slide 37

Slide 37 text

Proprietary + Confidential 学習手順のお気持ち ❏ 音声とホワイトノイズを用意しよう ホワイトノイズ 大体除去するDNN 音声 ホワイト ノイズ

Slide 38

Slide 38 text

Proprietary + Confidential 学習手順のお気持ち ❏ それを適当な SNR で mix しよう ホワイトノイズ 大体除去するDNN 音声 ホワイト ノイズ SNR = 5dB +

Slide 39

Slide 39 text

Proprietary + Confidential 学習手順のお気持ち ❏ それをDNNに入力し、元のノイズを推定しよう ※引き算すれば、音声を推定しているのと同じこと ホワイトノイズ 大体除去するDNN ホワイト ノイズ SNR = 5dB 推定ホワイト ノイズ 音声

Slide 40

Slide 40 text

Proprietary + Confidential 学習手順のお気持ち ❏ 推定誤差が小さくなるように、DNNを更新しよう ホワイトノイズ 大体除去するDNN ホワイト ノイズ 誤差計算 推定ホワイト ノイズ

Slide 41

Slide 41 text

Proprietary + Confidential なんだか可愛く見えてきたでしょう? [3] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. ランダムに音声を選ぶ ランダムにSNRを決める ホワイトノイズを生成する そのSNRで混ぜた信号から元のノイズを推定し、 推定誤差を小さくするように DNNを更新する 初期値はホワイトノイズとする 決め打ちした回数だけ更新する ホワイトノイズを生成する DNNで音声を推定し(=ノイズを消し) 、 それに上で生成した ホワイトノイズを足す 最後はホワイトノイズを足さずに音声を出力する

Slide 42

Slide 42 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 43

Slide 43 text

Proprietary + Confidential 何故このアルゴリズムになるの🤔? [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 44

Slide 44 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい これが欲しい

Slide 45

Slide 45 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 🤔 ??? これが欲しい

Slide 46

Slide 46 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Slide 47

Slide 47 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル これは?

Slide 48

Slide 48 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Slide 49

Slide 49 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Slide 50

Slide 50 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Slide 51

Slide 51 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル

Slide 52

Slide 52 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 最初はホワイトノイズ

Slide 53

Slide 53 text

Proprietary + Confidential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル(確率密度関数)が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル この子が推定できればいい

Slide 54

Slide 54 text

Proprietary + Confidential Reverseプロセスを知りたい! ❏ 雑音から音声に戻すプロセス(※)を reverseプロセスと呼ぶ ❏ でも、どうやって雑音になったか分からないと、戻しようがない... Reverseプロセス ※ 正しくは、結合分布 を reverse process と呼ぶ

Slide 55

Slide 55 text

Proprietary + Confidential ※ 正しくは、結合分布 を diffusion process と呼ぶ Diffusionプロセス ❏ 信号を拡散(diffusion)させて雑音に変換するプロセス ❏ どうやって ”拡散” させよう? Reverseプロセス Diffusionプロセス

Slide 56

Slide 56 text

Proprietary + Confidential Diffusionプロセスで大事な数式まとめ (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる ❏ 少し式がややこしいので、ここだけ分かればいい2点を先に出します

Slide 57

Slide 57 text

Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

Slide 58

Slide 58 text

Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい 係数が0以上1未満なら音声は小さくなる

Slide 59

Slide 59 text

Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい 音声が小さくなった分、ホワイトノイズを足す

Slide 60

Slide 60 text

Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい こんな正規分布からのサンプリングに相当

Slide 61

Slide 61 text

Proprietary + Confidential Diffusionプロセスの1ステップ ❏ 拡散し続けて、最後に標準正規分布になればいい ❏ 実際、どうとでも定義できるが... ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい つまり、拡散の1ステップはこれ

Slide 62

Slide 62 text

Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると Note

Slide 63

Slide 63 text

Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏ 正規分布の再生性より Note

Slide 64

Slide 64 text

Proprietary + Confidential Diffusionプロセスを続けていくと? ❏ ノイズスケジュールを適切に選べば標準正規分布になる ❏ t=2 のケースを考えると ❏ 正規分布の再生性より ❏ 一般形に書き換えて Note よって、 なら、十分大きいステップでは標準正 規分布になる

Slide 65

Slide 65 text

Proprietary + Confidential Diffusionプロセスで大事な数式まとめ (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる (ii) tステップ目の信号は、クリーンな音声からサンプリングできる

Slide 66

Slide 66 text

Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)

Slide 67

Slide 67 text

Proprietary + Confidential [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. Reverseプロセスの1ステップ ❏ これに対応する reverse プロセスの1ステップはどんなだろう? ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)

Slide 68

Slide 68 text

Proprietary + Confidential Reverseプロセスの1ステップ ❏ 平均値の意味するところ ❏ ややこしい係数は計算機に任せればいいので現段階では無視でいい ❏ 大切なのは、tステップ目の信号に、クリーン音声を混ぜてる点 ❏ なので、1ステップ進めると、少しクリーンになる、というイメージ クリーン音声に係数を掛けて、 noisy な信号に足す 🤔 いや、だからクリーン音声を知りたいんだけど...

Slide 69

Slide 69 text

Proprietary + Confidential Reverseプロセスの1ステップ ❏ Diffusionプロセスに便利な式があった

Slide 70

Slide 70 text

Proprietary + Confidential Reverseプロセスの1ステップ ❏ Diffusionプロセスに便利な式があった ❏ 代入すると... 分からない変数が、x t に含まれている雑音だけになった!

Slide 71

Slide 71 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 72

Slide 72 text

Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN SNR = 5dB 推定ホワイト ノイズ 音声 ホワイト ノイズ +

Slide 73

Slide 73 text

Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...

Slide 74

Slide 74 text

Proprietary + Confidential [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. DNNの学習の仕方 ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい DNN 推定ホワイト ノイズ 音声 + ホワイト ノイズ 誤差計算 [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...

Slide 75

Slide 75 text

Proprietary + Confidential DNNの使い方 ❏ DNNを雑音の推定に使う DNN SNR = 5dB 😃ここに使う💡

Slide 76

Slide 76 text

Proprietary + Confidential もっと知りたい方へ ❏ 日本語で、わかりやすいページ ❏ What are Diffusion Models? の和訳 :https://zenn.dev/nakky/articles/09fb1804001ff8 ❏ Yohei Kikuta さんの論文読みメモ :https://github.com/yoheikikuta/paper-reading/issues/62 ❏ 英語で、わかりやすいページ ❏ Diffusion Models as a kind of VAE:https://angusturner.github.io/generative_models/2021/06/29/diffus ion-probabilistic-models-I ❏ An introduction to Diffusion Probabilistic Models:https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models

Slide 77

Slide 77 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 78

Slide 78 text

Proprietary + Confidential 拡散確率モデルと信号対雑音比 ❏ 拡散ステップは何をしているのか? ❏ Signal-to-Noise Ratio (SNR) を調整していると解釈できる※注 [7] [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. + ※注 [7] での SNR の定義。音声と雑音のパワーが一緒だったら、信号処理で使われる SNR と意味の対応が

Slide 79

Slide 79 text

Proprietary + Confidential 拡散確率モデルと信号対雑音比 ❏ 音声が小さい区間は、ノイズも小さくて良いのでは? この区間は既に波形が見えない この区間はまだ波形がよく見える

Slide 80

Slide 80 text

Proprietary + Confidential PriorGrad [8] ❏ Segmental SNR を調整するようにすれば良い [8] ❏ 条件付けの log-mel spectrogram から雑音パワーを決める [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. ※ PriorGrad は Microsoft Research Asia の研究です!

Slide 81

Slide 81 text

Proprietary + Confidential PriorGradの雑音生成 ❏ 時間領域で、ホワイトノイズに振幅係数をかける 条件付け 対数メルスペクトログラム 雑音の振幅 フレーム毎に パワー計算 ホワイトノイズ PriorGrad のノイズ tf.random.normal() +

Slide 82

Slide 82 text

Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 対角共分散行列を持つ正規分布を利用することに相当 ❏ 共分散要素が信号のパワーを表すことを利用 ❏ ロス計算以外は、元のアルゴリズムをそのまま使える(証明は[8]参照) [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [5] PriorGrad [8] 雑音の事前分布(Prior)を、 条件付けログメルスペクトログラムに適応( Adapt)する

Slide 83

Slide 83 text

Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音の振幅 ホワイトノイズ PriorGrad のノイズ + DNN 推定ノイズ 振幅を戻したノイズ 平均二乗誤差

Slide 84

Slide 84 text

Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視

Slide 85

Slide 85 text

Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏ ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視

Slide 86

Slide 86 text

Proprietary + Confidential ロスはどうなるの? ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる ❏ 実は、元のロスは変分下界だった [2] ❏ ガウス分布のKL情報量は [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視 無視した方がうまくいくので無視 [2] 係数 β t は無視 [2] WaveGrad は単位行列なので逆行列が不要 [5] PriorGrad は振幅で除算することに相当 [8]

Slide 87

Slide 87 text

Proprietary + Confidential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 88

Slide 88 text

Proprietary + Confidential SpecGrad [9] [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. ❏ 雑音のスペクトル包絡も制御したらいいのでは? 時間 メルスケール周波数 条件付け 対数メルスペクトログラム PriorGrad [8] の雑音の スペクトログラム SpecGrad [9] の雑音の スペクトログラム 時間 周波数 時間 周波数

Slide 89

Slide 89 text

Proprietary + Confidential SpecGrad [9] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 90

Slide 90 text

Proprietary + Confidential SpecGradの雑音生成 ❏ 時間周波数領域で、ホワイトノイズにフィルタをかける 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Slide 91

Slide 91 text

Proprietary + Confidential SpecGradのロス計算 ❏ 時間周波数領域で、推定ノイズに逆フィルタをかける [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. 雑音のスペクトル包絡 制御フィルタ ホワイトノイズ SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT

Slide 92

Slide 92 text

Proprietary + Confidential え、そんなことして大丈夫なの? ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 時間 周波数 振幅 時間 周波数 振幅 時間 周波数 振幅

Slide 93

Slide 93 text

Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ また、乱数生成は、以下の式となる ❏ また、ロス計算は、以下の式となる [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 94

Slide 94 text

Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 95

Slide 95 text

Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 96

Slide 96 text

Proprietary + Confidential 雑音生成とロス計算 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 鍵となる計算式 ❏ どんな だと嬉しいだろう? ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効 率的にできる形がいい ❏ 時間周波数領域でのフィルタリング行列とする [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 97

Slide 97 text

Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列  で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Slide 98

Slide 98 text

Proprietary + Confidential の図解 ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積 ❏ STFTを大きな行列  で書く意味は、[10] などを読むとわかりやすい [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. SpecGrad のノイズ + DNN 推定ノイズ スペクトル包絡を 戻したノイズ 平均二乗誤差 iSTFT iSTFT iSTFT STFT

Slide 99

Slide 99 text

Proprietary + Confidential 評価実験:実験設定 ❏ データセット ❏ 学習データ:男性10名、女性11名、英語、184時間、24kHzサンプリング ❏ テストデータ:学習データから holdout した1,000サンプル ❏ パラメータ設定 ❏ ネットワーク構造:WaveGrad [5] と同じ、パラメータ数 13.8M ❏ 学習法:Adam optimizer、学習率 1e-4、1M step、バッチサイズ 512 ❏ 周波数分析:50ms ハン窓、12.5 msシフト、2,048点FFT、128次元メルフィルタ バンク(20Hz〜12kHz) ❏ 比較手法 ❏ WaveGrad [5] および PriorGrad [8] と比較 [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

Slide 100

Slide 100 text

Proprietary + Confidential 評価実験:評価尺度 ❏ 音声の自然性を Mean-Opinion-Score (MOS) で絶対評価 ❏ 0.5 ポイント刻みで、1(Bad)〜5(Excellent) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)と、WaveGrad のスケ ジュールで50回(WG-50)の2パターンで評価 ❏ 定量評価として、WARP-Q [11] も利用 ❏ 音声の自然性を A/Bテストで相対評価 ❏ 1 ポイント刻みで、−3(Bが良い)〜3(Aが良い) ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)で評価 ❏ 評価者 ❏ クラウドソーシングを利用した試験 ❏ 静かな部屋でヘッドホンで受聴、一人当たり最大6回まで評価 [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021

Slide 101

Slide 101 text

Proprietary + Confidential 音質評価:MOS試験 ❏ SpecGrad が、両方のスケジュールで最もMOSが高い ❏ WARP-Q score も、両方のスケジュールで提案法が最も高い

Slide 102

Slide 102 text

Proprietary + Confidential 音質評価:A/Bテスト ❏ SpecGrad > WaveGrad > PriorGrad という結果だった ❏ WaveGrad は、高域が生成されないためと考えられる [12] ❏ PriorGrad は、高域が生成されるものの、高域の位相歪みが観測された ❏ PriorGrad の論文 [8]は、メルフィルタバンクの最大周波数を 7.6 kHz で設計し ており、今回の実験とのパラメータの不一致が原因と考えられる [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021

Slide 103

Slide 103 text

Proprietary + Confidential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/ Text: I can't speak for Scooby, but have you looked in the Mystery Machine? [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. WaveGrad [5] PriorGrad [8] SpecGrad [9] 6 iter. 50 iter.

Slide 104

Slide 104 text

Proprietary + Confidential 音声強調にも利用可能 ❏ Parametric resynthesis [13] の波形生成にも利用可能 ❏ 雑音を含んだメルスペクトログラムを、別のネットワークを利用して、クリーンな メルスペクトログラムに変換 ❏ 雑音/残響除去されたメルスペクトログラムから波形生成 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 音声波形 SpecGrad 別のネット ワーク 雑音/残響付き 対数メルスペクトログラム 強調された 対数メルスペクトログラム

Slide 105

Slide 105 text

Proprietary + Confidential 評価実験:音声強調 ❏ 実験設定 ❏ DF-Conformer [14] を front-end に利用 ❏ 事前学習した DF-Conformer と接続し、500k step fine-tuning ❏ データセット ❏ 前述の音声データに、鏡像法で残響を付与&TAU Urban AudioVisual Scenes 2021 dataset [15] を雑音として付与 ❏ 評価尺度 ❏ 明瞭度:ESTOI [16] ❏ 音質:WARP-Q [11] [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.

Slide 106

Slide 106 text

Proprietary + Confidential 評価実験:音声強調 ❏ SpecGrad > WaveGrad > PriorGrad という結果だった ❏ アルゴリズムの特性上、ノイズ生成や誤差計算がメルスペクトログラムの推定 精度に影響されるが、誤差を含んだメルスペクトログラムを利用してもなお、従 来法より高精度に波形生成可能であることがわかった

Slide 107

Slide 107 text

Proprietary + Confidential demo ❏ ヘッドホンで聴かないと差がわからないかも... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/ クリーン音声 雑音&残響入り音声 強調音声 Text: The new entity set about warping reality all over Scotland.

Slide 108

Slide 108 text

Proprietary + Confidential まとめ ❏ 拡散確率モデルは面白い! ❏ 魅力的なアプリケーションが沢山ある ❏ アルゴリズム自体はそこまで複雑じゃない ❏ アルゴリズムが分かると、論文の数式を追うのもそこまで苦ではない ❏ 拡散確率モデルを利用した波形生成 ❏ 雑音の事前分布を、条件付けメルスペクトログラムから適応する手法を紹介 ❏ 他にも手法を改善するアプローチは沢山 ❏ 興味のある方は⏬

Slide 109

Slide 109 text

Proprietary + Confidential 参考文献 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. [3] A. Nichol+, "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models," arXiv:2112.10741, 2021. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021. [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022. [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019. [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021 [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019 [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement," WASPAA, 2021 [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021 [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.