拡散確率モデルと音声波形生成

Slide 1

Slide 1 text

拡散確率モデルと音声波形生成小泉悠馬琉球大招待講演, 2022/07/06

Slide 2

Slide 2 text

Proprietary + Conﬁdential 自己紹介 ❏ 氏名：小泉悠馬 ❏ 経歴 ❏ 2020〜現在：Google Research, Research Scientist ❏ 2014〜2020：NTT メディアインテリジェンス研究所, 研究員 ❏ 2017：博士（工学）, 電気通信大学, 羽田陽一研究室 ❏ 2014：修士（理学）, 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声＆音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

Slide 3

Slide 3 text

Proprietary + Conﬁdential Google Speech Group in Tokyo Michiel Bacchiani Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi

Slide 4

Slide 4 text

Proprietary + Conﬁdential Acknowledgments Michiel Bacchiani Heiga Zen Nanxin Chen 矢田部浩平准教授（農工大）

Slide 5

Slide 5 text

Proprietary + Conﬁdential もくじ ❏ 拡散確率モデルを使った音声波形生成 ❏ 拡散確率モデルと魅力的なアプリケーション ❏ 拡散確率モデルをお気持ちから理解しよう ❏ 拡散確率モデルの数学をちょっと理解しよう ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう ❏ 手前味噌な研究紹介 ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御 ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

Slide 6

Slide 6 text

Proprietary + Conﬁdential 拡散確率モデル [1, 2] ❏ Denoising Diffusion Probabilistic Models (DDPM) ❏ ノイズをだんだん除去して、出力を得るモデル ❏ 音や画像の生成に使えそう！ [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 最初はホワイトノイズちょっとずつ雑音を除去していき最後は綺麗な画像になる [2] の図２

Slide 7

Slide 7 text

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. Imagen で生成された画像 imagen.research.google/

Slide 8

Slide 8 text

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ 文章からの画像生成 ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022. [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022. [4] の図２ prior と decoder を拡散確率モデルで設計

Slide 9

Slide 9 text

Proprietary + Conﬁdential ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された拡散確率モデルとアプリケーション [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. メルスケールの対数振幅スペクトログラム波形拡散確率モデル今日はいい天気です encoder

Slide 10

Slide 10 text

Proprietary + Conﬁdential 拡散確率モデルとアプリケーション ❏ スペクトログラムからの音声波形生成 ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021. [4] の図２

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Proprietary + Conﬁdential 拡散確率モデルって面白そう 🤔 😋 🥴 高精細な画像や音を生成できるなんて魅力的だな [2] の図も簡単そうだし、パッとやってなんかできるんじゃ！よ〜し、サクッと論文 [2] 読んでみるか [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 13

Slide 13 text

Proprietary + Conﬁdential Oh… [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 14

Slide 14 text

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 ❏ （私の経験上）世の中の素晴らしい研究に簡単なものなんてない😟 ❏ ある程度は数式と向き合わないと、新しい研究をしたり、キャッチアップはできない...😇 ❏ でも世の中に存在する資料は、頭のいい人が、頭のいい人向けに、誤解の起きないように、丁寧に説明したものばかり...🤯

Slide 15

Slide 15 text

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読める 🤯 😍

Slide 16

Slide 16 text

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読めるアルゴリズムのお気持ちがわかる主要な数式がなんとなく理解できる 😍 😄 🤨 😎

Slide 17

Slide 17 text

Proprietary + Conﬁdential 新しい手法を勉強するのはいつも大変 SNS等で興味を持つ論文が読めるアルゴリズムのお気持ちがわかる主要な数式がなんとなく理解できる 😍 😄 🤨 😎 今日のトーク

Slide 18

Slide 18 text

Proprietary + Conﬁdential 今日の説明手順 ❏ ボトムアップに拡散確率モデルを説明してみます ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明します ❏ 拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文を読んでみてください。 [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015. [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Proprietary + Conﬁdential 難しそうな疑似コード [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. まずはこちらから

Slide 21

Slide 21 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ “ホワイトノイズ絶対除去するマン”がいたらいいな... ホワイトノイズ絶対除去するマン音声音声ホワイトノイズ SNR = 10dB

Slide 22

Slide 22 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ 完璧は無理だから“ホワイトノイズ大体除去するマン”としようホワイトノイズ大体除去するマン音声音声歪みホワイトノイズ SNR = 10dB

Slide 23

Slide 23 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ ホワイトノイズを入れると、“歪みだらけの音声っぽい波形” を無理やり取り出してくれるだろうホワイトノイズ大体除去するマン音声歪みホワイトノイズ SNR = -20dB

Slide 24

Slide 24 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しようホワイトノイズ大体除去するマン音声歪み音声歪み

Slide 25

Slide 25 text

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろうホワイトノイズ大体除去するマン音声歪み

Slide 26

Slide 26 text

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろうホワイトノイズ大体除去するマン音声歪み音声歪み SNR = 0dB

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Proprietary + Conﬁdential ホワイトノイズ推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろうホワイトノイズ大体除去するマン音声歪み音声歪み SNR = 10dB

Slide 30

Slide 30 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ それの音量をちょっと大きくして、音声として再利用しようホワイトノイズ大体除去するマン音声音声歪み歪み

Slide 31

Slide 31 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ さらにホワイトノイズも足そう ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう音声歪みホワイトノイズホワイトノイズ大体除去するマン

Slide 32

Slide 32 text

Proprietary + Conﬁdential 推論手順のお気持ち ❏ もう一度、ホワイトノイズを除去しよう ❏ これを何回も繰り返せば、音声が生成できるだろう音声歪みホワイトノイズ音声 SNR = 20dB ホワイトノイズ大体除去するマン

Slide 33

Slide 33 text

Proprietary + Conﬁdential なんだか可愛く見えてきたでしょう？ [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 34

Slide 34 text

Proprietary + Conﬁdential なんだか可愛く見えてきたでしょう？ [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. 初期値はホワイトノイズとする決め打ちした回数だけ更新するホワイトノイズを生成する DNNで音声を推定し（＝ノイズを消し）、それに上で生成したホワイトノイズを足す最後はホワイトノイズを足さずに音声を出力する

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Proprietary + Conﬁdential 学習手順のお気持ち ❏ “ホワイトノイズ大体除去するDNN”を学習しようホワイトノイズ大体除去するDNN

Slide 37

Slide 37 text

Proprietary + Conﬁdential 学習手順のお気持ち ❏ 音声とホワイトノイズを用意しようホワイトノイズ大体除去するDNN 音声ホワイトノイズ

Slide 38

Slide 38 text

Proprietary + Conﬁdential 学習手順のお気持ち ❏ それを適当な SNR で mix しようホワイトノイズ大体除去するDNN 音声ホワイトノイズ SNR = 5dB +

Slide 39

Slide 39 text

Proprietary + Conﬁdential 学習手順のお気持ち ❏ それをDNNに入力し、元のノイズを推定しよう ※引き算すれば、音声を推定しているのと同じことホワイトノイズ大体除去するDNN ホワイトノイズ SNR = 5dB 推定ホワイトノイズ音声

Slide 40

Slide 40 text

Proprietary + Conﬁdential 学習手順のお気持ち ❏ 推定誤差が小さくなるように、DNNを更新しようホワイトノイズ大体除去するDNN ホワイトノイズ誤差計算推定ホワイトノイズ

Slide 41

Slide 41 text

Proprietary + Conﬁdential なんだか可愛く見えてきたでしょう？ [3] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020. ランダムに音声を選ぶランダムにSNRを決めるホワイトノイズを生成するそのSNRで混ぜた信号から元のノイズを推定し、推定誤差を小さくするように DNNを更新する初期値はホワイトノイズとする決め打ちした回数だけ更新するホワイトノイズを生成する DNNで音声を推定し（＝ノイズを消し）、それに上で生成したホワイトノイズを足す最後はホワイトノイズを足さずに音声を出力する

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Proprietary + Conﬁdential 何故このアルゴリズムになるの🤔？ [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

Slide 44

Slide 44 text

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しいこれが欲しい

Slide 45

Slide 45 text

Proprietary + Conﬁdential 拡散確率モデルにおける生成過程 ❏ 音声の生成モデル（確率密度関数）が欲しい ❏ DDPMはマルコフ連鎖に基づく生成モデル 🤔 ??? これが欲しい