Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音をつくるための拡散モデル

Yuma Koizumi
March 02, 2023

 音をつくるための拡散モデル

第49回IBISML研究会 招待講演資料
音声/動画ファイルは、export の際に表示されなくなっています。ご了承ください。

Yuma Koizumi

March 02, 2023
Tweet

More Decks by Yuma Koizumi

Other Decks in Research

Transcript

  1. 音をつくるための拡散確率モデル
    小泉 悠馬
    IBISML研究会 招待講演
    2nd March, 2023

    View Slide

  2. 音をつくるための拡散確率モデル
    小泉 悠馬
    IBISML研究会 招待講演
    2nd March, 2023

    View Slide

  3. Proprietary + Confidential
    自己紹介
    ❏ 氏名:小泉 悠馬
    ❏ 経歴
    ❏ 2020〜現在:Google Research, Senior Research Scientist
    ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員
    ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室
    ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室
    ❏ 研究分野
    ❏ 深層学習を使った音声&音響処理全般
    ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

    View Slide

  4. Proprietary + Confidential
    Google Speech Group in Tokyo
    Michiel Bacchiani Richard Sproat
    Llion Jones Yotaro Kubo Shigeki Karita Yuma Koizumi
    Keisuke Kinoshita
    Hynek Hermansky

    View Slide

  5. Proprietary + Confidential
    Acknowledgments
    Heiga Zen Nobuyuki Morioka 矢田部 浩平准教授
    (農工大)
    Yifan Ding

    View Slide

  6. Proprietary + Confidential
    今日のトーク
    ❏ 話さないこと
    ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...)
    ❏ 話すこと
    ❏ 音をつくるタスクにはどんなものがあるか
    ❏ その中で DNN はどのように使われているか
    ❏ 拡散モデルはどのように使われているか

    View Slide

  7. Proprietary + Confidential
    今日のトーク
    ❏ 話さないこと
    ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...)
    ❏ 話すこと
    ❏ 音をつくるタスクにはどんなものがあるか
    ❏ その中で DNN はどのように使われているか
    ❏ 拡散モデルはどのように使われているか

    View Slide

  8. Proprietary + Confidential
    音と機械学習
    ❏ 音を認識する
    ❏ 音を出力する
    System
    Output
    Input
    System

    View Slide

  9. Proprietary + Confidential
    音と機械学習
    ❏ 音を認識する
    ❏ 音を出力する
    System
    Output
    Input
    System
    今日の話題はこちら

    View Slide

  10. Proprietary + Confidential
    音をつくるタスク(声を作る)
    ❏ テキスト音声合成(TTS: Text-to-Speech)
    System
    今日は IBISML で招待講演
    をしています。
    Text

    View Slide

  11. Proprietary + Confidential
    音をつくるタスク(声を変える)
    ❏ 声質変換(VC: Voice Conversion)
    ❏ 音声翻訳(S2ST: Speech-to-Speech Translation)
    System
    System
    Translatotron 2: High-quality direct speech-to-speech translation with voice preservation: https://google-research.github.io/lingvo-lab/translatotron2/

    View Slide

  12. Proprietary + Confidential
    音をつくるタスク(品質を変える)
    ❏ 音声強調(Speech Enhancement/Separation)
    ❏ 音声復元(Speech Restoration)
    System
    System
    Sample from
    LibriTTS test-other

    View Slide

  13. Proprietary + Confidential
    音をつくるタスク(声以外の音を創る)
    AudioGen: Textually Guided Audio Generation: https://felixkreuk.github.io/text2audio_arxiv_samples/
    MusicLM: Generating Music From Text: https://google-research.github.io/seanet/musiclm/examples/
    Noise2Music: Text-conditioned Music Generation with Diffusion Models: https://google-research.github.io/noise2music/
    Whistling with wind blowing
    Text
    System
    Sample from AudioGen
    demo page
    ❏ 環境音生成
    ❏ 音楽生成
    System
    Music
    Slow tempo, bass-and-drums-led reggae song.
    Sustained electric guitar. High-pitched bongos
    with ringing tones. Vocals are relaxed with a
    laid-back feel, very expressive.
    Text
    Sample from MusicLM
    demo page

    View Slide

  14. Proprietary + Confidential
    今日のトーク
    ❏ 話さないこと
    ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...)
    ❏ 話すこと
    ❏ 音をつくるタスクにはどんなものがあるか
    ❏ その中で DNN はどのように使われているか
    ❏ 拡散モデルはどのように使われているか

    View Slide

  15. Proprietary + Confidential
    音をつくる代表的なフレームワーク
    ❏ 特徴量生成/変換と波形生成の二段階処理
    Input 波形生成
    音パラメータ生成
    (音響モデル)
    何故🤔?

    View Slide

  16. Proprietary + Confidential
    音声の生成過程
    ❏ 発話中の口の中や声帯の動きの MRI 動画
    Video from the website of span “the rtMRI gallery”: https://sail.usc.edu/span/
    声帯や舌などで
    音を作り
    口の開き方で音
    色を変える
    何を発話する
    かを決め
    波形生成
    音パラメータ生成
    波形生成は、物理的な現象を信号処理で再現
    する問題に落とし込めるので、分離した方が都
    合が良かった

    View Slide

  17. Proprietary + Confidential
    おそらく最初の波形生成デモ
    ❏ VODER: 1939年のNY万博: https://youtu.be/0rAyrmm7vv0

    View Slide

  18. Proprietary + Confidential
    深層学習に至るまでのたくさんの研究は時間の関係で省略します...
    ごめんなさい...
    *この分野では数多くの日本人研究者が貢献されてきました。ご興味があれば、上のワードなどでググっていただくと、沢山の情報が出てきます。
    *以降、音生成系の論文を読まれるときは、この大枠の構造を頭に入れておくと「あ、この部分の研究なのね」となり、読むのが楽になると思います。
    Input
    波形生成
    (vocoder)
    音パラメータ生成
    (音響モデル)
    時は流れ...
    ソースフィルタモデル、
    Vocoder、メルケプスト
    ラム、STRAIGHT、WORLD etc…
    素片接続、統計的パラメトリック音声合成、
    HMM音声合成 etc...
    信号処理的な発展
    統計処理的な発展
    ❏ 歴史的に、これら二つのモジュールを発展&統合させることで精度が改善してきた
    ❏ 各モジュールを発展させるために
    DNNが導入されたきた

    View Slide

  19. Proprietary + Confidential
    DNN音響モデル [Zen+, 2013]
    ❏ Vocoder(波形生成信号処理)のパラメータ推定にDNNを利用
    Text
    波形生成
    (vocoder)
    音パラメータ生成
    DNN
    (音響モデル)
    H. Zen+, “Statistical parametric speech synthesis using deep neural networks,” ICASSP 2013
    ❏ NNベースの音響モデル自体は存在した [Karaali+, 1996] が、
    DNNの流行とともに再度現れ火付け役になった
    ❏ 以降、モデル構造やコスト関数の研究が盛んに
    ❏ 音素から音響特徴を予測する軽量 LSTM [Zen+, 2016]
    ❏ GANベースの音響モデル [Saito+, 2017]
    テキスト
    解析
    論文の Fig. 1

    View Slide

  20. Proprietary + Confidential
    WaveNet [Oord+, 2016]
    ❏ 波形生成を自己回帰型の CNN で実行する
    波形生成 DNN
    (neural vocoder)
    音パラメータ生成
    DNN
    (音響モデル)
    ❏ 波形生成がDNNに取って代わられるきっかけとなった
    ❏ Vocoder パラメータなどからの波形予測へ発展 [Tamamori+, 2017]
    ❏ Vocoder を DNN で実装するので、Neural Vocoder と呼ばれることが多い
    ❏ 学習と生成に時間がかかる問題への研究が盛んに
    ❏ WaveRNN: RNNでも良い? [Kalchbrenner+, 2018]
    ❏ Parallel WaveNet: 自己回帰型でなくてもできる? [Oord+, 2018]
    ❏ GAN の方が精度よく合成できる?(非常に多数の論文&現在の主流)
    Text
    テキスト
    解析

    View Slide

  21. Proprietary + Confidential
    Tacotron2 [Shen+, 2018]
    ❏ テキスト解析を介さず、all neural network での学習が可能に
    Text
    波形生成 DNN
    (neural vocoder)
    メルスペクトログラム生
    成 DNN
    (音響モデル)
    ❏ ドメイン特化した前処理がほとんど不要になる
    ❏ 波形を生成するタスクに汎用的に利用できる枠組みとして発展する
    ❏ e.g. 音声強調: Parametric resynthesis [Maiti+, 2019]
    J. Shen+, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018
    時間
    メルスケール周波数

    View Slide

  22. Proprietary + Confidential
    例:音声強調 [Maiti+, 2019]
    波形生成 DNN
    (neural vocoder)
    メルスペクトログラムク
    リーニング DNN
    時間
    メルスケール周波数
    時間
    メルスケール周波数
    雑音混じりの音声の
    メルスペクトログラム 雑音のない音声の
    メルスペクトログラム
    S. Maiti and M. I. Mandel, “Parametric resynthesis with neural vocoders,” WASPAA, 2019

    View Slide

  23. Proprietary + Confidential
    例:音声翻訳 [Jia+, 2019/2022]など...
    波形生成 DNN
    (neural vocoder)
    メルスペクトログラム変
    換 DNN
    時間
    メルスケール周波数
    時間
    メルスケール周波数
    スペイン語の
    メルスペクトログラム 英語の
    メルスペクトログラム
    Y. Jia, “Direct speech-to-speech translation with a sequence-to-sequence model,” Interspeech, 2019
    Y. Jia, “Translatotron 2: High-quality direct speech-to-speech translation with voice preservation,” ICML, 2022

    View Slide

  24. Proprietary + Confidential
    拡散モデルを利用した音生成へ
    Input
    波形生成 DNN
    (neural vocoder)
    音パラメータ生成
    DNN
    (音響モデル)
    WaveNet の登場
    Parallel WaveNet の登場
    自己回帰型モデルの発展
    GANベースの非自己回帰型モデルの登場
    拡散モデルベースの非自己回帰型モデルの登場
    非自己回帰型モデルの発展
    黒魔術の発展
    DNN音響モデル の登場
    Tacotron の登場
    音声合成以外の分野への普及
    拡散モデルベースの手法の登場
    モデル構造/学習方法の発展

    View Slide

  25. Proprietary + Confidential
    今日のトーク
    ❏ 話さないこと
    ❏ 拡散モデルの理論的な中身(皆様の方が遥かにプロでしょう...)
    ❏ 話すこと
    ❏ 音をつくるタスクにはどんなものがあるか
    ❏ その中で DNN はどのように使われているか
    ❏ 拡散モデルはどのように使われているか

    View Slide

  26. Proprietary + Confidential
    拡散モデルを利用した音生成へ
    Input
    波形生成 DNN
    (neural vocoder)
    音パラメータ生成
    DNN
    (音響モデル)
    WaveNet の登場
    Parallel WaveNet の登場
    自己回帰型モデルの発展
    GANベースの非自己回帰型モデルの登場
    拡散モデルベースの非自己回帰型モデルの登場
    非自己回帰型モデルの発展
    黒魔術の発展
    DNN音響モデル の登場
    Tacotron の登場
    音声合成以外の分野への普及
    拡散モデルベースの手法の登場
    モデル構造/学習方法の発展

    View Slide

  27. Proprietary + Confidential
    拡散確率モデルと波形生成
    ❏ 詳しい解説は以下をご参照ください

    View Slide

  28. Proprietary + Confidential
    Neural vocoder
    ❏ 本発表での定義:メルスペクトログラムを対応する波形に変換するDNN
    メルスケールの対数振幅スペクトログラム 波形
    DNN
    条件付け変数 どうやって
    拡散モデルで実装する?

    View Slide

  29. Proprietary + Confidential
    WaveGrad [Chen+, 2021]
    ❏ 拡散モデルを利用した最初の neural vocoder
    DNNの出力
    =波形
    出力波形を
    短時間フーリエ変換し
    て解析したもの
    GIFアニメと音は WaveGrad の demo page より: https://wavegrad.github.io/

    View Slide

  30. Proprietary + Confidential
    DDPMベースの Neural Vocoder の発展
    ❏ 簡略化した推論アルゴリズム
    音声推定DNN
    白色雑音の
    付与
    繰り返し
    初期雑音 出力音声

    View Slide

  31. Proprietary + Confidential
    DDPMベースの Neural Vocoder の発展
    ❏ 簡略化した推論アルゴリズム
    音声推定DNN
    白色雑音の
    付与
    繰り返し
    初期雑音 出力音声
    1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*]
    [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021
    [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022

    View Slide

  32. Proprietary + Confidential
    DDPMベースの Neural Vocoder の発展
    ❏ 簡略化した推論アルゴリズム
    音声推定DNN
    白色雑音の
    付与
    繰り返し
    初期雑音 出力音声
    1. ネットワーク構造の研究 [†] 2. 雑音付与量の研究 [*]
    [†] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021
    [*] M. W. Y. Lam+, “BDDM: Bilateraldenoising Diffusion Models for Fast and High-Quality Speech Synthesis,” ICLR, 2022
    3. 雑音の種類の研究

    View Slide

  33. Proprietary + Confidential
    SpecGrad [Koizumi+, 2022]
    ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御
    N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.

    View Slide

  34. Proprietary + Confidential
    それはどういうことですか?
    ❏ 任意の共分散行列を持つ正規分布を利用することに相当
    [†] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [*] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    WaveGrad [†] PriorGrad [*] SpecGrad
    時間
    周波数 振幅
    時間
    周波数 振幅
    時間
    周波数 振幅

    View Slide

  35. Proprietary + Confidential
    実装方法
    ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング
    ❏ 共分散行列は半正定値行列なので以下の分解が可能
    ❏ 乱数生成とロス計算は、以下の式となる
    ❏ 時間周波数領域でのフィルタリング行列として を実装

    View Slide

  36. Proprietary + Confidential
    の図解
    ❏ STFT、iSTFT、及び要素積で実装可能
    条件付け
    対数メルスペクトログラム
    雑音のスペクトル包絡
    制御フィルタ
    ケプストラム
    &最小位相
    ホワイトノイズ
    SpecGrad のノイズ
    +
    STFT
    iSTFT

    View Slide

  37. Proprietary + Confidential
    Demo
    Text: I can't speak for Scooby, but have you looked in the Mystery Machine?
    どちらが合成音声でしょう?

    View Slide

  38. Proprietary + Confidential
    Demo
    Text: I can't speak for Scooby, but have you looked in the Mystery Machine?
    元音声 合成音声
    ❏ ヘッドホンをしないと差がわからないかもしれません...
    ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/

    View Slide

  39. Proprietary + Confidential
    Demo: Parametric resynthesis
    雑音入り音声 出力音声
    ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/

    View Slide

  40. Proprietary + Confidential
    拡散モデルを利用した音生成へ
    Input
    波形生成 DNN
    (neural vocoder)
    音パラメータ生成
    DNN
    (音響モデル)
    WaveNet の登場
    Parallel WaveNet の登場
    自己回帰型モデルの発展
    GANベースの非自己回帰型モデルの登場
    拡散モデルベースの非自己回帰型モデルの登場
    非自己回帰型モデルの発展
    黒魔術の発展
    DNN音響モデル の登場
    Tacotron の登場
    音声合成以外の分野への普及
    拡散モデルベースの手法の登場
    モデル構造/学習方法の発展

    View Slide

  41. Proprietary + Confidential
    音響モデル
    ❏ 本発表での定義:入力変数(テキストなど)をそれに対応するメルスペクトログラ
    ムに変換するDNN
    メルスケールの対数振幅スペクトログラム
    DNN
    条件付け変数 どうやって
    拡散モデルで実装する?
    テキスト
    Hello, world!

    View Slide

  42. Proprietary + Confidential
    考え方は画像生成と同じ
    ❏ 簡略化した推論アルゴリズム
    DNN
    白色雑音の
    付与
    繰り返し
    初期雑音 出力
    2次元の白色雑音から
    2次元の画像
    =ログメルスペクトログラムを生

    View Slide

  43. Proprietary + Confidential
    考え方は画像生成と同じ
    ❏ 簡略化した推論アルゴリズム
    DNN
    白色雑音の
    付与
    繰り返し
    初期雑音 出力
    2次元の白色雑音から
    2次元の画像
    =ログメルスペクトログラムを生

    雑音の種類の研究として
    Grad-TTS [Popov+, 2021] を紹介

    View Slide

  44. Proprietary + Confidential
    GradTTS [Popov+, 2021]
    ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用
    V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021
    またもや最初が
    白色雑音じゃない
    Grad-TTS論文の Fig. 1

    View Slide

  45. Proprietary + Confidential
    GradTTS [Popov+, 2021]
    ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用
    V. Popov+, "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech," ICML 2021
    Grad-TTS論文の Fig. 2
    従来の音響モデルのように
    スペクトルを予測し
    それを平均に持つ正規分布
    からノイズ生成する

    View Slide

  46. Proprietary + Confidential
    GradTTS [Popov+, 2021]
    ❏ 拡散モデルを、ログメルスペクトログラムの精細化に利用
    音声およびGIF アニメは Grad-TTS demo page から: https://grad-tts.github.io/
    DNNの出力
    =スペクトル
    出力を
    Neural vocoder で波
    形に変換したもの
    ノイズ分布の平均
    ノイズ分布からの乱数
    = iter. 0
    Iter. 30
    Iter. 50

    View Slide

  47. Proprietary + Confidential
    おわりに

    View Slide

  48. Proprietary + Confidential
    今後は音も拡散モデルが主流になるの?
    ❏ 拡散モデルと自己教師あり学習が覇権争い中... 正直、わかりません...
    ❏ Neural vocoder に関しては、繰り返しの denoising 処理が効いているのであり、
    diffusion は必須ではなさそう
    ❏ WaveFit: DDIMのように雑音を足さない+GAN loss の方が良い [Koizumi+, 2022]
    ❏ 音響モデルは、ログメルスペクトログラム + 拡散モデルより、
    自己教師あり学習で得られたトークンを言語モデルで特徴変換も精度が高い
    ❏ c.f. AudioLM [Borsos+, 2022] & VALL-E [Wang+, 2023]
    ❏ でも、End-to-End でスコアベースの拡散モデルを学習することで、従来の二段階処理
    よりも良い結果が出始めている
    ❏ UNIVERSE: 雑音を含むスペクトルを条件付けで直接クリーン音声を予測
    [Serrà+, 2022]

    View Slide

  49. Proprietary + Confidential
    まとめ
    ❏ 拡散モデルは、音をつくるタスクに利用されはじめている
    ❏ 音響モデルと Neural vocoder それぞれで研究が進んでいる
    ❏ 拡散モデルで、end-to-end に波形を生成する方法も出てきた
    ❏ 一方、自己教師あり学習+言語モデルで音をつくる研究も盛んで、今後、
    拡散モデルが音の生成の主流になるかは定かでない...
    ❏ なんにせよ、理論的バックグラウンドがしっかりしている、かつ高品質な音
    が生成できるので、研究の余地はたくさんある分野です
    Join us!!

    View Slide