Slide 1

Slide 1 text

音をつくるための拡散確率モデル 小泉 悠馬 IBISML研究会 招待講演 2nd March, 2023

Slide 2

Slide 2 text

音をつくるための拡散確率モデル 小泉 悠馬 IBISML研究会 招待講演 2nd March, 2023

Slide 3

Slide 3 text

Proprietary + Confidential 自己紹介 ❏ 氏名:小泉 悠馬 ❏ 経歴 ❏ 2020〜現在:Google Research, Senior Research Scientist ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員 ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室 ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声&音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

Slide 4

Slide 4 text

Proprietary + Confidential Google Speech Group in Tokyo Michiel Bacchiani Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi Keisuke Kinoshita Hynek Hermansky

Slide 5

Slide 5 text

Proprietary + Confidential Acknowledgments Heiga Zen Nobuyuki Morioka 矢田部 浩平准教授 (農工大) Yifan Ding

Slide 6

Slide 6 text

Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか

Slide 7

Slide 7 text

Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか

Slide 8

Slide 8 text

Proprietary + Confidential 音と機械学習 ❏ 音を認識する ❏ 音を出力する System Output Input System

Slide 9

Slide 9 text

Proprietary + Confidential 音と機械学習 ❏ 音を認識する ❏ 音を出力する System Output Input System 今日の話題はこちら

Slide 10

Slide 10 text

Proprietary + Confidential 音をつくるタスク(声を作る) ❏ テキスト音声合成(TTS: Text-to-Speech) System 今日は IBISML で招待講演 をしています。 Text

Slide 11

Slide 11 text

Proprietary + Confidential 音をつくるタスク(声を変える) ❏ 声質変換(VC: Voice Conversion) ❏ 音声翻訳(S2ST: Speech-to-Speech Translation) System System Translatotron 2: High-quality direct speech-to-speech translation with voice preservation: https://google-research.github.io/lingvo-lab/translatotron2/

Slide 12

Slide 12 text

Proprietary + Confidential 音をつくるタスク(品質を変える) ❏ 音声強調(Speech Enhancement/Separation) ❏ 音声復元(Speech Restoration) System System Sample from LibriTTS test-other

Slide 13

Slide 13 text

Proprietary + Confidential 音をつくるタスク(声以外の音を創る) AudioGen: Textually Guided Audio Generation: https://felixkreuk.github.io/text2audio_arxiv_samples/ MusicLM: Generating Music From Text: https://google-research.github.io/seanet/musiclm/examples/ Noise2Music: Text-conditioned Music Generation with Diffusion Models: https://google-research.github.io/noise2music/ Whistling with wind blowing Text System Sample from AudioGen demo page ❏ 環境音生成 ❏ 音楽生成 System Music Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive. Text Sample from MusicLM demo page

Slide 14

Slide 14 text

Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか

Slide 15

Slide 15 text

Proprietary + Confidential 音をつくる代表的なフレームワーク ❏ 特徴量生成/変換と波形生成の二段階処理 Input 波形生成 音パラメータ生成 (音響モデル) 何故🤔?

Slide 16

Slide 16 text

Proprietary + Confidential 音声の生成過程 ❏ 発話中の口の中や声帯の動きの MRI 動画 Video from the website of span “the rtMRI gallery”: https://sail.usc.edu/span/ 声帯や舌などで 音を作り 口の開き方で音 色を変える 何を発話する かを決め 波形生成 音パラメータ生成 波形生成は、物理的な現象を信号処理で再現 する問題に落とし込めるので、分離した方が都 合が良かった

Slide 17

Slide 17 text

Proprietary + Confidential おそらく最初の波形生成デモ ❏ VODER: 1939年のNY万博: https://youtu.be/0rAyrmm7vv0

Slide 18

Slide 18 text

Proprietary + Confidential 深層学習に至るまでのたくさんの研究は時間の関係で省略します... ごめんなさい... *この分野では数多くの日本人研究者が貢献されてきました。ご興味があれば、上のワードなどでググっていただくと、沢山の情報が出てきます。 *以降、音生成系の論文を読まれるときは、この大枠の構造を頭に入れておくと「あ、この部分の研究なのね」となり、読むのが楽になると思います。 Input 波形生成 (vocoder) 音パラメータ生成 (音響モデル) 時は流れ... ソースフィルタモデル、 Vocoder、メルケプスト ラム、STRAIGHT、WORLD etc… 素片接続、統計的パラメトリック音声合成、 HMM音声合成 etc... 信号処理的な発展 統計処理的な発展 ❏ 歴史的に、これら二つのモジュールを発展&統合させることで精度が改善してきた ❏ 各モジュールを発展させるために DNNが導入されたきた

Slide 19

Slide 19 text

Proprietary + Confidential DNN音響モデル [Zen+, 2013] ❏ Vocoder(波形生成信号処理)のパラメータ推定にDNNを利用 Text 波形生成 (vocoder) 音パラメータ生成 DNN (音響モデル) H. Zen+, “Statistical parametric speech synthesis using deep neural networks,” ICASSP 2013 ❏ NNベースの音響モデル自体は存在した [Karaali+, 1996] が、 DNNの流行とともに再度現れ火付け役になった ❏ 以降、モデル構造やコスト関数の研究が盛んに ❏ 音素から音響特徴を予測する軽量 LSTM [Zen+, 2016] ❏ GANベースの音響モデル [Saito+, 2017] テキスト 解析 論文の Fig. 1

Slide 20

Slide 20 text

Proprietary + Confidential WaveNet [Oord+, 2016] ❏ 波形生成を自己回帰型の CNN で実行する 波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) ❏ 波形生成がDNNに取って代わられるきっかけとなった ❏ Vocoder パラメータなどからの波形予測へ発展 [Tamamori+, 2017] ❏ Vocoder を DNN で実装するので、Neural Vocoder と呼ばれることが多い ❏ 学習と生成に時間がかかる問題への研究が盛んに ❏ WaveRNN: RNNでも良い? [Kalchbrenner+, 2018] ❏ Parallel WaveNet: 自己回帰型でなくてもできる? [Oord+, 2018] ❏ GAN の方が精度よく合成できる?(非常に多数の論文&現在の主流) Text テキスト 解析

Slide 21

Slide 21 text

Proprietary + Confidential Tacotron2 [Shen+, 2018] ❏ テキスト解析を介さず、all neural network での学習が可能に Text 波形生成 DNN (neural vocoder) メルスペクトログラム生 成 DNN (音響モデル) ❏ ドメイン特化した前処理がほとんど不要になる ❏ 波形を生成するタスクに汎用的に利用できる枠組みとして発展する ❏ e.g. 音声強調: Parametric resynthesis [Maiti+, 2019] J. Shen+, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018 時間 メルスケール周波数

Slide 22

Slide 22 text

Proprietary + Confidential 例:音声強調 [Maiti+, 2019] 波形生成 DNN (neural vocoder) メルスペクトログラムク リーニング DNN 時間 メルスケール周波数 時間 メルスケール周波数 雑音混じりの音声の メルスペクトログラム 雑音のない音声の メルスペクトログラム S. Maiti and M. I. Mandel, “Parametric resynthesis with neural vocoders,” WASPAA, 2019

Slide 23

Slide 23 text

Proprietary + Confidential 例:音声翻訳 [Jia+, 2019/2022]など... 波形生成 DNN (neural vocoder) メルスペクトログラム変 換 DNN 時間 メルスケール周波数 時間 メルスケール周波数 スペイン語の メルスペクトログラム 英語の メルスペクトログラム Y. Jia, “Direct speech-to-speech translation with a sequence-to-sequence model,” Interspeech, 2019 Y. Jia, “Translatotron 2: High-quality direct speech-to-speech translation with voice preservation,” ICML, 2022

Slide 24

Slide 24 text

Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展

Slide 25

Slide 25 text

Proprietary + Confidential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...) ❏ 話すこと ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか

Slide 26

Slide 26 text

Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展

Slide 27

Slide 27 text

Proprietary + Confidential 拡散確率モデルと波形生成 ❏ 詳しい解説は以下をご参照ください

Slide 28

Slide 28 text

Proprietary + Confidential Neural vocoder ❏ 本発表での定義:メルスペクトログラムを対応する波形に変換するDNN メルスケールの対数振幅スペクトログラム 波形 DNN 条件付け変数 どうやって 拡散モデルで実装する?

Slide 29

Slide 29 text

Proprietary + Confidential WaveGrad [Chen+, 2021] ❏ 拡散モデルを利用した最初の neural vocoder DNNの出力 =波形 出力波形を 短時間フーリエ変換し て解析したもの GIFアニメと音は WaveGrad の demo page より: https://wavegrad.github.io/

Slide 30

Slide 30 text

Proprietary + Confidential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム 音声推定DNN 白色雑音の 付与 繰り返し 初期雑音 出力音声

Slide 31

Slide 31 text

Proprietary + Confidential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム 音声推定DNN 白色雑音の 付与 繰り返し 初期雑音 出力音声 1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*] [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022

Slide 32

Slide 32 text

Proprietary + Confidential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム 音声推定DNN 白色雑音の 付与 繰り返し 初期雑音 出力音声 1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*] [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022 3. 雑音の種類の研究

Slide 33

Slide 33 text

Proprietary + Confidential SpecGrad [Koizumi+, 2022] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.

Slide 34

Slide 34 text

Proprietary + Confidential それはどういうことですか? ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [†] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [*] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [†] PriorGrad [*] SpecGrad 時間 周波数 振幅 時間 周波数 振幅 時間 周波数 振幅

Slide 35

Slide 35 text

Proprietary + Confidential 実装方法 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ 乱数生成とロス計算は、以下の式となる ❏ 時間周波数領域でのフィルタリング行列として を実装

Slide 36

Slide 36 text

Proprietary + Confidential の図解 ❏ STFT、iSTFT、及び要素積で実装可能 条件付け 対数メルスペクトログラム 雑音のスペクトル包絡 制御フィルタ ケプストラム &最小位相 ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Slide 37

Slide 37 text

Proprietary + Confidential Demo Text: I can't speak for Scooby, but have you looked in the Mystery Machine? どちらが合成音声でしょう?

Slide 38

Slide 38 text

Proprietary + Confidential Demo Text: I can't speak for Scooby, but have you looked in the Mystery Machine? 元音声 合成音声 ❏ ヘッドホンをしないと差がわからないかもしれません... ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/

Slide 39

Slide 39 text

Proprietary + Confidential Demo: Parametric resynthesis 雑音入り音声 出力音声 ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/

Slide 40

Slide 40 text

Proprietary + Confidential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場 自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場 拡散モデルベースの非自己回帰型モデルの登場 非自己回帰型モデルの発展 黒魔術の発展 DNN音響モデル の登場 Tacotron の登場 音声合成以外の分野への普及 拡散モデルベースの手法の登場 モデル構造/学習方法の発展

Slide 41

Slide 41 text

Proprietary + Confidential 音響モデル ❏ 本発表での定義:入力変数(テキストなど)をそれに対応するメルスペクトログラ ムに変換するDNN メルスケールの対数振幅スペクトログラム DNN 条件付け変数 どうやって 拡散モデルで実装する? テキスト Hello, world!

Slide 42

Slide 42 text

Proprietary + Confidential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の 付与 繰り返し 初期雑音 出力 2次元の白色雑音から 2次元の画像 =ログメルスペクトログラムを生 成

Slide 43

Slide 43 text

Proprietary + Confidential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の 付与 繰り返し 初期雑音 出力 2次元の白色雑音から 2次元の画像 =ログメルスペクトログラムを生 成 雑音の種類の研究として Grad-TTS [Popov+, 2021] を紹介

Slide 44

Slide 44 text

Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 またもや最初が 白色雑音じゃない Grad-TTS論文の Fig. 1

Slide 45

Slide 45 text

Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 Grad-TTS論文の Fig. 2 従来の音響モデルのように スペクトルを予測し それを平均に持つ正規分布 からノイズ生成する

Slide 46

Slide 46 text

Proprietary + Confidential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 音声およびGIF アニメは Grad-TTS demo page から: https://grad-tts.github.io/ DNNの出力 =スペクトル 出力を Neural vocoder で波 形に変換したもの ノイズ分布の平均 ノイズ分布からの乱数 = iter. 0 Iter. 30 Iter. 50

Slide 47

Slide 47 text

Proprietary + Confidential おわりに

Slide 48

Slide 48 text

Proprietary + Confidential 今後は音も拡散モデルが主流になるの? ❏ 拡散モデルと自己教師あり学習が覇権争い中... 正直、わかりません... ❏ Neural vocoder に関しては、繰り返しの denoising 処理が効いているのであり、 diffusion は必須ではなさそう ❏ WaveFit: DDIMのように雑音を足さない+GAN loss の方が良い [Koizumi+, 2022] ❏ 音響モデルは、ログメルスペクトログラム + 拡散モデルより、 自己教師あり学習で得られたトークンを言語モデルで特徴変換も精度が高い ❏ c.f. AudioLM [Borsos+, 2022] & VALL-E [Wang+, 2023] ❏ でも、End-to-End でスコアベースの拡散モデルを学習することで、従来の二段階処理 よりも良い結果が出始めている ❏ UNIVERSE: 雑音を含むスペクトルを条件付けで直接クリーン音声を予測 [Serrà+, 2022]

Slide 49

Slide 49 text

Proprietary + Confidential まとめ ❏ 拡散モデルは、音をつくるタスクに利用されはじめている ❏ 音響モデルと Neural vocoder それぞれで研究が進んでいる ❏ 拡散モデルで、end-to-end に波形を生成する方法も出てきた ❏ 一方、自己教師あり学習+言語モデルで音をつくる研究も盛んで、今後、 拡散モデルが音の生成の主流になるかは定かでない... ❏ なんにせよ、理論的バックグラウンドがしっかりしている、かつ高品質な音 が生成できるので、研究の余地はたくさんある分野です Join us!!