音をつくるための拡散モデル

by Yuma Koizumi

Slide 1

Slide 1 text

音をつくるための拡散確率モデル小泉悠馬 IBISML研究会招待講演 2nd March, 2023

Slide 2

Slide 2 text

音をつくるための拡散確率モデル小泉悠馬 IBISML研究会招待講演 2nd March, 2023

Slide 3

Slide 3 text

Proprietary + Conﬁdential 自己紹介 ❏ 氏名：小泉悠馬 ❏ 経歴 ❏ 2020〜現在：Google Research, Senior Research Scientist ❏ 2014〜2020：NTT メディアインテリジェンス研究所, 研究員 ❏ 2017：博士（工学）, 電気通信大学, 羽田陽一研究室 ❏ 2014：修士（理学）, 法政大学, 伊藤克亘研究室 ❏ 研究分野 ❏ 深層学習を使った音声＆音響処理全般 ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

Slide 4

Slide 4 text

Proprietary + Conﬁdential Google Speech Group in Tokyo Michiel Bacchiani Richard Sproat Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi Keisuke Kinoshita Hynek Hermansky

Slide 5

Slide 5 text

Proprietary + Conﬁdential Acknowledgments Heiga Zen Nobuyuki Morioka 矢田部浩平准教授（農工大） Yifan Ding

Slide 6

Slide 6 text

Proprietary + Conﬁdential 今日のトーク ❏ 話さないこと ❏ 拡散モデルの理論的な中身（皆様の方が遥かにプロでしょう...） ❏ 話すこと ❏ 音をつくるタスクにはどんなものがあるか ❏ その中で DNN はどのように使われているか ❏ 拡散モデルはどのように使われているか

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Proprietary + Conﬁdential 音と機械学習 ❏ 音を認識する ❏ 音を出力する System Output Input System

Slide 9

Slide 9 text

Proprietary + Conﬁdential 音と機械学習 ❏ 音を認識する ❏ 音を出力する System Output Input System 今日の話題はこちら

Slide 10

Slide 10 text

Proprietary + Conﬁdential 音をつくるタスク（声を作る） ❏ テキスト音声合成（TTS: Text-to-Speech） System 今日は IBISML で招待講演をしています。 Text

Slide 11

Slide 11 text

Proprietary + Conﬁdential 音をつくるタスク（声を変える） ❏ 声質変換（VC: Voice Conversion） ❏ 音声翻訳（S2ST: Speech-to-Speech Translation） System System Translatotron 2: High-quality direct speech-to-speech translation with voice preservation: https://google-research.github.io/lingvo-lab/translatotron2/

Slide 12

Slide 12 text

Proprietary + Conﬁdential 音をつくるタスク（品質を変える） ❏ 音声強調（Speech Enhancement/Separation） ❏ 音声復元（Speech Restoration） System System Sample from LibriTTS test-other

Slide 13

Slide 13 text

Proprietary + Conﬁdential 音をつくるタスク（声以外の音を創る） AudioGen: Textually Guided Audio Generation: https://felixkreuk.github.io/text2audio_arxiv_samples/ MusicLM: Generating Music From Text: https://google-research.github.io/seanet/musiclm/examples/ Noise2Music: Text-conditioned Music Generation with Diffusion Models: https://google-research.github.io/noise2music/ Whistling with wind blowing Text System Sample from AudioGen demo page ❏ 環境音生成 ❏ 音楽生成 System Music Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive. Text Sample from MusicLM demo page

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Proprietary + Conﬁdential 音をつくる代表的なフレームワーク ❏ 特徴量生成/変換と波形生成の二段階処理 Input 波形生成音パラメータ生成 (音響モデル) 何故🤔？

Slide 16

Slide 16 text

Proprietary + Conﬁdential 音声の生成過程 ❏ 発話中の口の中や声帯の動きの MRI 動画 Video from the website of span “the rtMRI gallery”: https://sail.usc.edu/span/ 声帯や舌などで音を作り口の開き方で音色を変える何を発話するかを決め波形生成音パラメータ生成波形生成は、物理的な現象を信号処理で再現する問題に落とし込めるので、分離した方が都合が良かった

Slide 17

Slide 17 text

Proprietary + Conﬁdential おそらく最初の波形生成デモ ❏ VODER: 1939年のNY万博: https://youtu.be/0rAyrmm7vv0

Slide 18

Slide 18 text

Proprietary + Conﬁdential 深層学習に至るまでのたくさんの研究は時間の関係で省略します... ごめんなさい... ＊この分野では数多くの日本人研究者が貢献されてきました。ご興味があれば、上のワードなどでググっていただくと、沢山の情報が出てきます。＊以降、音生成系の論文を読まれるときは、この大枠の構造を頭に入れておくと「あ、この部分の研究なのね」となり、読むのが楽になると思います。 Input 波形生成 (vocoder) 音パラメータ生成 (音響モデル) 時は流れ... ソースフィルタモデル、 Vocoder、メルケプストラム、STRAIGHT、WORLD etc… 素片接続、統計的パラメトリック音声合成、 HMM音声合成 etc... 信号処理的な発展統計処理的な発展 ❏ 歴史的に、これら二つのモジュールを発展＆統合させることで精度が改善してきた ❏ 各モジュールを発展させるために DNNが導入されたきた

Slide 19

Slide 19 text

Proprietary + Conﬁdential DNN音響モデル [Zen+, 2013] ❏ Vocoder（波形生成信号処理）のパラメータ推定にDNNを利用 Text 波形生成 (vocoder) 音パラメータ生成 DNN (音響モデル) H. Zen+, “Statistical parametric speech synthesis using deep neural networks,” ICASSP 2013 ❏ NNベースの音響モデル自体は存在した [Karaali+, 1996] が、 DNNの流行とともに再度現れ火付け役になった ❏ 以降、モデル構造やコスト関数の研究が盛んに ❏ 音素から音響特徴を予測する軽量 LSTM [Zen+, 2016] ❏ GANベースの音響モデル [Saito+, 2017] テキスト解析論文の Fig. 1

Slide 20

Slide 20 text

Proprietary + Conﬁdential WaveNet [Oord+, 2016] ❏ 波形生成を自己回帰型の CNN で実行する波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) ❏ 波形生成がDNNに取って代わられるきっかけとなった ❏ Vocoder パラメータなどからの波形予測へ発展 [Tamamori+, 2017] ❏ Vocoder を DNN で実装するので、Neural Vocoder と呼ばれることが多い ❏ 学習と生成に時間がかかる問題への研究が盛んに ❏ WaveRNN: RNNでも良い？ [Kalchbrenner+, 2018] ❏ Parallel WaveNet: 自己回帰型でなくてもできる？ [Oord+, 2018] ❏ GAN の方が精度よく合成できる？（非常に多数の論文＆現在の主流） Text テキスト解析

Slide 21

Slide 21 text

Proprietary + Conﬁdential Tacotron2 [Shen+, 2018] ❏ テキスト解析を介さず、all neural network での学習が可能に Text 波形生成 DNN (neural vocoder) メルスペクトログラム生成 DNN (音響モデル) ❏ ドメイン特化した前処理がほとんど不要になる ❏ 波形を生成するタスクに汎用的に利用できる枠組みとして発展する ❏ e.g. 音声強調: Parametric resynthesis [Maiti+, 2019] J. Shen+, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018 時間メルスケール周波数

Slide 22

Slide 22 text

Proprietary + Conﬁdential 例：音声強調 [Maiti+, 2019] 波形生成 DNN (neural vocoder) メルスペクトログラムクリーニング DNN 時間メルスケール周波数時間メルスケール周波数雑音混じりの音声のメルスペクトログラム雑音のない音声のメルスペクトログラム S. Maiti and M. I. Mandel, “Parametric resynthesis with neural vocoders,” WASPAA, 2019

Slide 23

Slide 23 text

Proprietary + Conﬁdential 例：音声翻訳 [Jia+, 2019/2022]など... 波形生成 DNN (neural vocoder) メルスペクトログラム変換 DNN 時間メルスケール周波数時間メルスケール周波数スペイン語のメルスペクトログラム英語のメルスペクトログラム Y. Jia, “Direct speech-to-speech translation with a sequence-to-sequence model,” Interspeech, 2019 Y. Jia, “Translatotron 2: High-quality direct speech-to-speech translation with voice preservation,” ICML, 2022

Slide 24

Slide 24 text

Proprietary + Conﬁdential 拡散モデルを利用した音生成へ Input 波形生成 DNN (neural vocoder) 音パラメータ生成 DNN (音響モデル) WaveNet の登場 Parallel WaveNet の登場自己回帰型モデルの発展 GANベースの非自己回帰型モデルの登場拡散モデルベースの非自己回帰型モデルの登場非自己回帰型モデルの発展黒魔術の発展 DNN音響モデルの登場 Tacotron の登場音声合成以外の分野への普及拡散モデルベースの手法の登場モデル構造/学習方法の発展

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Proprietary + Conﬁdential 拡散確率モデルと波形生成 ❏ 詳しい解説は以下をご参照ください

Slide 28

Slide 28 text

Proprietary + Conﬁdential Neural vocoder ❏ 本発表での定義：メルスペクトログラムを対応する波形に変換するDNN メルスケールの対数振幅スペクトログラム波形 DNN 条件付け変数どうやって拡散モデルで実装する？

Slide 29

Slide 29 text

Proprietary + Conﬁdential WaveGrad [Chen+, 2021] ❏ 拡散モデルを利用した最初の neural vocoder DNNの出力＝波形出力波形を短時間フーリエ変換して解析したもの GIFアニメと音は WaveGrad の demo page より: https://wavegrad.github.io/

Slide 30

Slide 30 text

Proprietary + Conﬁdential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム音声推定DNN 白色雑音の付与繰り返し初期雑音出力音声

Slide 31

Slide 31 text

Proprietary + Conﬁdential DDPMベースの Neural Vocoder の発展 ❏ 簡略化した推論アルゴリズム音声推定DNN 白色雑音の付与繰り返し初期雑音出力音声 1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*] [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021 [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Proprietary + Conﬁdential SpecGrad [Koizumi+, 2022] ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御 N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.

Slide 34

Slide 34 text

Proprietary + Conﬁdential それはどういうことですか？ ❏ 任意の共分散行列を持つ正規分布を利用することに相当 [†] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021. [*] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022. WaveGrad [†] PriorGrad [*] SpecGrad 時間周波数振幅時間周波数振幅時間周波数振幅

Slide 35

Slide 35 text

Proprietary + Conﬁdential 実装方法 ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング ❏ 共分散行列は半正定値行列なので以下の分解が可能 ❏ 乱数生成とロス計算は、以下の式となる ❏ 時間周波数領域でのフィルタリング行列としてを実装

Slide 36

Slide 36 text

Proprietary + Conﬁdential の図解 ❏ STFT、iSTFT、及び要素積で実装可能条件付け対数メルスペクトログラム雑音のスペクトル包絡制御フィルタケプストラム＆最小位相ホワイトノイズ SpecGrad のノイズ + STFT iSTFT

Slide 37

Slide 37 text

Proprietary + Conﬁdential Demo Text: I can't speak for Scooby, but have you looked in the Mystery Machine? どちらが合成音声でしょう？

Slide 38

Slide 38 text

Proprietary + Conﬁdential Demo Text: I can't speak for Scooby, but have you looked in the Mystery Machine? 元音声合成音声 ❏ ヘッドホンをしないと差がわからないかもしれません... ❏ 他のサンプルはデモサイトにて：https://wavegrad.github.io/specgrad/

Slide 39

Slide 39 text

Proprietary + Conﬁdential Demo: Parametric resynthesis 雑音入り音声出力音声 ❏ 他のサンプルはデモサイトにて：https://wavegrad.github.io/specgrad/

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Proprietary + Conﬁdential 音響モデル ❏ 本発表での定義：入力変数（テキストなど）をそれに対応するメルスペクトログラムに変換するDNN メルスケールの対数振幅スペクトログラム DNN 条件付け変数どうやって拡散モデルで実装する？テキスト Hello, world!

Slide 42

Slide 42 text

Proprietary + Conﬁdential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の付与繰り返し初期雑音出力２次元の白色雑音から２次元の画像＝ログメルスペクトログラムを生成

Slide 43

Slide 43 text

Proprietary + Conﬁdential 考え方は画像生成と同じ ❏ 簡略化した推論アルゴリズム DNN 白色雑音の付与繰り返し初期雑音出力２次元の白色雑音から２次元の画像＝ログメルスペクトログラムを生成雑音の種類の研究として Grad-TTS [Popov+, 2021] を紹介

Slide 44

Slide 44 text

Proprietary + Conﬁdential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 またもや最初が白色雑音じゃない Grad-TTS論文の Fig. 1

Slide 45

Slide 45 text

Proprietary + Conﬁdential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用 V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021 Grad-TTS論文の Fig. 2 従来の音響モデルのようにスペクトルを予測しそれを平均に持つ正規分布からノイズ生成する

Slide 46

Slide 46 text

Proprietary + Conﬁdential GradTTS [Popov+, 2021] ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用音声およびGIF アニメは Grad-TTS demo page から: https://grad-tts.github.io/ DNNの出力＝スペクトル出力を Neural vocoder で波形に変換したものノイズ分布の平均ノイズ分布からの乱数 = iter. 0 Iter. 30 Iter. 50

Slide 47

Slide 47 text

Proprietary + Conﬁdential おわりに

Slide 48

Slide 48 text

Proprietary + Conﬁdential 今後は音も拡散モデルが主流になるの？ ❏ 拡散モデルと自己教師あり学習が覇権争い中... 正直、わかりません... ❏ Neural vocoder に関しては、繰り返しの denoising 処理が効いているのであり、 diffusion は必須ではなさそう ❏ WaveFit: DDIMのように雑音を足さない＋GAN loss の方が良い [Koizumi+, 2022] ❏ 音響モデルは、ログメルスペクトログラム + 拡散モデルより、自己教師あり学習で得られたトークンを言語モデルで特徴変換も精度が高い ❏ c.f. AudioLM [Borsos+, 2022] & VALL-E [Wang+, 2023] ❏ でも、End-to-End でスコアベースの拡散モデルを学習することで、従来の二段階処理よりも良い結果が出始めている ❏ UNIVERSE: 雑音を含むスペクトルを条件付けで直接クリーン音声を予測 [Serrà+, 2022]

Slide 49

Slide 49 text

Proprietary + Conﬁdential まとめ ❏ 拡散モデルは、音をつくるタスクに利用されはじめている ❏ 音響モデルと Neural vocoder それぞれで研究が進んでいる ❏ 拡散モデルで、end-to-end に波形を生成する方法も出てきた ❏ 一方、自己教師あり学習＋言語モデルで音をつくる研究も盛んで、今後、拡散モデルが音の生成の主流になるかは定かでない... ❏ なんにせよ、理論的バックグラウンドがしっかりしている、かつ高品質な音が生成できるので、研究の余地はたくさんある分野です Join us!!