Upgrade to Pro — share decks privately, control downloads, hide ads and more …

拡散確率モデルと音声波形生成

 拡散確率モデルと音声波形生成

琉球大学での招待講演(2022/07/06)のスライドです。
URL: https://www.ieice.org/kyushu/2022koen_1/

Yuma Koizumi

July 06, 2022
Tweet

More Decks by Yuma Koizumi

Other Decks in Technology

Transcript

  1. 拡散確率モデルと音声波形生成
    小泉 悠馬
    琉球大招待講演, 2022/07/06

    View full-size slide

  2. Proprietary + Confidential
    自己紹介
    ❏ 氏名:小泉 悠馬
    ❏ 経歴
    ❏ 2020〜現在:Google Research, Research Scientist
    ❏ 2014〜2020:NTT メディアインテリジェンス研究所, 研究員
    ❏ 2017:博士(工学), 電気通信大学, 羽田陽一研究室
    ❏ 2014:修士(理学), 法政大学, 伊藤克亘研究室
    ❏ 研究分野
    ❏ 深層学習を使った音声&音響処理全般
    ❏ 音声強調、音声合成、音声認識、環境音認識、異常音検知 etc..

    View full-size slide

  3. Proprietary + Confidential
    Google Speech Group in Tokyo
    Michiel Bacchiani Richard Sproat Llion Jones
    Yotaro Kubo Shigeki Karita Yuma Koizumi

    View full-size slide

  4. Proprietary + Confidential
    Acknowledgments
    Michiel Bacchiani Heiga Zen Nanxin Chen 矢田部 浩平准教授
    (農工大)

    View full-size slide

  5. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  6. Proprietary + Confidential
    拡散確率モデル [1, 2]
    ❏ Denoising Diffusion Probabilistic Models (DDPM)
    ❏ ノイズをだんだん除去して、出力を得るモデル
    ❏ 音や画像の生成に使えそう!
    [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015.
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    最初は
    ホワイトノイズ
    ちょっとずつ雑音を除
    去していき
    最後は綺麗な画像になる
    [2] の図2

    View full-size slide

  7. Proprietary + Confidential
    拡散確率モデルとアプリケーション
    ❏ 文章からの画像生成
    ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ
    [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022.
    [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022.
    Imagen で生成された画像
    imagen.research.google/

    View full-size slide

  8. Proprietary + Confidential
    拡散確率モデルとアプリケーション
    ❏ 文章からの画像生成
    ❏ Imagen [3] や DALL·E 2 [4] など、最近、最もホットな分野の一つ
    [3] C. Saharia+, "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding," arXiv:2205.11487, 2022.
    [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022.
    [4] の図2
    prior と decoder を拡散確
    率モデルで設計

    View full-size slide

  9. Proprietary + Confidential
    ❏ スペクトログラムからの音声波形生成
    ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された
    拡散確率モデルとアプリケーション
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
    メルスケールの対数振幅スペクトログラム 波形
    拡散確率
    モデル
    今日はいい
    天気です
    encoder

    View full-size slide

  10. Proprietary + Confidential
    拡散確率モデルとアプリケーション
    ❏ スペクトログラムからの音声波形生成
    ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
    [4] の図2

    View full-size slide

  11. Proprietary + Confidential
    拡散確率モデルとアプリケーション
    ❏ スペクトログラムからの音声波形生成
    ❏ WaveGrad [5] と DiffWave [6] が ICLR 2021 で提案された
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.

    View full-size slide

  12. Proprietary + Confidential
    拡散確率モデルって面白そう
    🤔
    😋
    🥴
    高精細な画像や音を生成できるなんて魅力的だな
    [2] の図も簡単そうだし、パッとやってなんかできるんじゃ!
    よ〜し、サクッと論文 [2] 読んでみるか
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

    View full-size slide

  13. Proprietary + Confidential
    Oh…

    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

    View full-size slide

  14. Proprietary + Confidential
    新しい手法を勉強するのはいつも大変
    ❏ (私の経験上)世の中の素晴らしい研究に簡単なものなんてない😟
    ❏ ある程度は数式と向き合わないと、新しい研究をしたり、キャッチアップは
    できない...😇
    ❏ でも世の中に存在する資料は、頭のいい人が、頭のいい人向けに、誤解
    の起きないように、丁寧に説明したものばかり...🤯

    View full-size slide

  15. Proprietary + Confidential
    新しい手法を勉強するのはいつも大変
    SNS等で
    興味を持つ
    論文が
    読める
    🤯
    😍

    View full-size slide

  16. Proprietary + Confidential
    新しい手法を勉強するのはいつも大変
    SNS等で
    興味を持つ
    論文が
    読める
    アルゴリズムの
    お気持ちがわ
    かる
    主要な数式が
    なんとなく
    理解できる
    😍
    😄
    🤨
    😎

    View full-size slide

  17. Proprietary + Confidential
    新しい手法を勉強するのはいつも大変
    SNS等で
    興味を持つ
    論文が
    読める
    アルゴリズムの
    お気持ちがわ
    かる
    主要な数式が
    なんとなく
    理解できる
    😍
    😄
    🤨
    😎
    今日のトーク

    View full-size slide

  18. Proprietary + Confidential
    今日の説明手順
    ❏ ボトムアップに拡散確率モデルを説明してみます
    ❏ 推論と学習の「お気持ち」を図で説明し、その後、数式との対応を説明しま

    ❏ 拡散確率モデルをきちんと理解したい方は、[1][2] あたりから、色々論文
    を読んでみてください。
    [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015.
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

    View full-size slide

  19. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  20. Proprietary + Confidential
    難しそうな疑似コード
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    まずはこちらから

    View full-size slide

  21. Proprietary + Confidential
    推論手順のお気持ち
    ❏ “ホワイトノイズ絶対除去するマン”がいたらいいな...
    ホワイトノイズ
    絶対除去するマン
    音声
    音声
    ホワイト
    ノイズ
    SNR = 10dB

    View full-size slide

  22. Proprietary + Confidential
    推論手順のお気持ち
    ❏ 完璧は無理だから“ホワイトノイズ大体除去するマン”としよう
    ホワイトノイズ
    大体除去するマン
    音声
    音声
    歪み
    ホワイト
    ノイズ
    SNR = 10dB

    View full-size slide

  23. Proprietary + Confidential
    推論手順のお気持ち
    ❏ ホワイトノイズを入れると、“歪みだらけの音声っぽい波形” を無理やり取り
    出してくれるだろう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み
    ホワイト
    ノイズ
    SNR = -20dB

    View full-size slide

  24. Proprietary + Confidential
    推論手順のお気持ち
    ❏ それの音量をちょっと大きくして、音声として再利用しよう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み
    音声
    歪み

    View full-size slide

  25. Proprietary + Confidential
    ホワイト
    ノイズ
    推論手順のお気持ち
    ❏ さらにホワイトノイズも足そう
    ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み

    View full-size slide

  26. Proprietary + Confidential
    ホワイト
    ノイズ
    推論手順のお気持ち
    ❏ もう一度、ホワイトノイズを除去しよう
    ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み
    音声
    歪み
    SNR = 0dB

    View full-size slide

  27. Proprietary + Confidential
    推論手順のお気持ち
    ❏ それの音量をちょっと大きくして、音声として再利用しよう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み
    音声
    歪み

    View full-size slide

  28. Proprietary + Confidential
    ホワイト
    ノイズ
    推論手順のお気持ち
    ❏ さらにホワイトノイズも足そう
    ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み

    View full-size slide

  29. Proprietary + Confidential
    ホワイト
    ノイズ
    推論手順のお気持ち
    ❏ もう一度、ホワイトノイズを除去しよう
    ❏ 歪みも、ホワイトノイズと一緒に少し消えるだろう
    ホワイトノイズ
    大体除去するマン
    音声
    歪み
    音声
    歪み
    SNR = 10dB

    View full-size slide

  30. Proprietary + Confidential
    推論手順のお気持ち
    ❏ それの音量をちょっと大きくして、音声として再利用しよう
    ホワイトノイズ
    大体除去するマン
    音声
    音声 歪み
    歪み

    View full-size slide

  31. Proprietary + Confidential
    推論手順のお気持ち
    ❏ さらにホワイトノイズも足そう
    ❏ そうしたら、歪みはホワイトノイズに埋もれてしまうだろう
    音声
    歪み
    ホワイト
    ノイズ
    ホワイトノイズ
    大体除去するマン

    View full-size slide

  32. Proprietary + Confidential
    推論手順のお気持ち
    ❏ もう一度、ホワイトノイズを除去しよう
    ❏ これを何回も繰り返せば、音声が生成できるだろう
    音声
    歪み
    ホワイト
    ノイズ
    音声
    SNR = 20dB
    ホワイトノイズ
    大体除去するマン

    View full-size slide

  33. Proprietary + Confidential
    なんだか可愛く見えてきたでしょう?
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

    View full-size slide

  34. Proprietary + Confidential
    なんだか可愛く見えてきたでしょう?
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    初期値はホワイトノイズとする
    決め打ちした回数だけ更新する
    ホワイトノイズを生成する
    DNNで音声を推定し(=ノイズを消し) 、
    それに上で生成した ホワイトノイズを足す
    最後はホワイトノイズを足さずに音声を出力する

    View full-size slide

  35. Proprietary + Confidential
    なんだか可愛く見えてきたでしょう?
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    初期値はホワイトノイズとする
    決め打ちした回数だけ更新する
    ホワイトノイズを生成する
    DNNで音声を推定し(=ノイズを消し) 、
    それに上で生成した ホワイトノイズを足す
    最後はホワイトノイズを足さずに音声を出力する
    次はこっち

    View full-size slide

  36. Proprietary + Confidential
    学習手順のお気持ち
    ❏ “ホワイトノイズ大体除去するDNN”を学習しよう
    ホワイトノイズ
    大体除去するDNN

    View full-size slide

  37. Proprietary + Confidential
    学習手順のお気持ち
    ❏ 音声とホワイトノイズを用意しよう
    ホワイトノイズ
    大体除去するDNN
    音声
    ホワイト
    ノイズ

    View full-size slide

  38. Proprietary + Confidential
    学習手順のお気持ち
    ❏ それを適当な SNR で mix しよう
    ホワイトノイズ
    大体除去するDNN
    音声
    ホワイト
    ノイズ
    SNR = 5dB
    +

    View full-size slide

  39. Proprietary + Confidential
    学習手順のお気持ち
    ❏ それをDNNに入力し、元のノイズを推定しよう
    ※引き算すれば、音声を推定しているのと同じこと
    ホワイトノイズ
    大体除去するDNN
    ホワイト
    ノイズ
    SNR = 5dB
    推定ホワイト
    ノイズ
    音声

    View full-size slide

  40. Proprietary + Confidential
    学習手順のお気持ち
    ❏ 推定誤差が小さくなるように、DNNを更新しよう
    ホワイトノイズ
    大体除去するDNN
    ホワイト
    ノイズ
    誤差計算
    推定ホワイト
    ノイズ

    View full-size slide

  41. Proprietary + Confidential
    なんだか可愛く見えてきたでしょう?
    [3] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    ランダムに音声を選ぶ
    ランダムにSNRを決める
    ホワイトノイズを生成する
    そのSNRで混ぜた信号から元のノイズを推定し、
    推定誤差を小さくするように DNNを更新する
    初期値はホワイトノイズとする
    決め打ちした回数だけ更新する
    ホワイトノイズを生成する
    DNNで音声を推定し(=ノイズを消し) 、
    それに上で生成した ホワイトノイズを足す
    最後はホワイトノイズを足さずに音声を出力する

    View full-size slide

  42. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  43. Proprietary + Confidential
    何故このアルゴリズムになるの🤔?
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.

    View full-size slide

  44. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    これが欲しい

    View full-size slide

  45. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル
    🤔 ???
    これが欲しい

    View full-size slide

  46. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル

    View full-size slide

  47. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル
    これは?

    View full-size slide

  48. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル

    View full-size slide

  49. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル

    View full-size slide

  50. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル

    View full-size slide

  51. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル

    View full-size slide

  52. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル
    最初はホワイトノイズ

    View full-size slide

  53. Proprietary + Confidential
    拡散確率モデルにおける生成過程
    ❏ 音声の生成モデル(確率密度関数)が欲しい
    ❏ DDPMはマルコフ連鎖に基づく生成モデル
    この子が推定できればいい

    View full-size slide

  54. Proprietary + Confidential
    Reverseプロセスを知りたい!
    ❏ 雑音から音声に戻すプロセス(※)を reverseプロセスと呼ぶ
    ❏ でも、どうやって雑音になったか分からないと、戻しようがない...
    Reverseプロセス
    ※ 正しくは、結合分布 を reverse process と呼ぶ

    View full-size slide

  55. Proprietary + Confidential
    ※ 正しくは、結合分布 を diffusion process と呼ぶ
    Diffusionプロセス
    ❏ 信号を拡散(diffusion)させて雑音に変換するプロセス
    ❏ どうやって ”拡散” させよう?
    Reverseプロセス
    Diffusionプロセス

    View full-size slide

  56. Proprietary + Confidential
    Diffusionプロセスで大事な数式まとめ
    (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる
    (ii) tステップ目の信号は、クリーンな音声からサンプリングできる
    ❏ 少し式がややこしいので、ここだけ分かればいい2点を先に出します

    View full-size slide

  57. Proprietary + Confidential
    Diffusionプロセスの1ステップ
    ❏ 拡散し続けて、最後に標準正規分布になればいい
    ❏ 実際、どうとでも定義できるが...
    ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい

    View full-size slide

  58. Proprietary + Confidential
    Diffusionプロセスの1ステップ
    ❏ 拡散し続けて、最後に標準正規分布になればいい
    ❏ 実際、どうとでも定義できるが...
    ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい
    係数が0以上1未満なら音声は小さくなる

    View full-size slide

  59. Proprietary + Confidential
    Diffusionプロセスの1ステップ
    ❏ 拡散し続けて、最後に標準正規分布になればいい
    ❏ 実際、どうとでも定義できるが...
    ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい
    音声が小さくなった分、ホワイトノイズを足す

    View full-size slide

  60. Proprietary + Confidential
    Diffusionプロセスの1ステップ
    ❏ 拡散し続けて、最後に標準正規分布になればいい
    ❏ 実際、どうとでも定義できるが...
    ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい
    こんな正規分布からのサンプリングに相当

    View full-size slide

  61. Proprietary + Confidential
    Diffusionプロセスの1ステップ
    ❏ 拡散し続けて、最後に標準正規分布になればいい
    ❏ 実際、どうとでも定義できるが...
    ❏ 直感的には、音声が少し小さくなって、雑音が少し大きくなればいい
    つまり、拡散の1ステップはこれ

    View full-size slide

  62. Proprietary + Confidential
    Diffusionプロセスを続けていくと?
    ❏ ノイズスケジュールを適切に選べば標準正規分布になる
    ❏ t=2 のケースを考えると
    Note

    View full-size slide

  63. Proprietary + Confidential
    Diffusionプロセスを続けていくと?
    ❏ ノイズスケジュールを適切に選べば標準正規分布になる
    ❏ t=2 のケースを考えると
    ❏ 正規分布の再生性より
    Note

    View full-size slide

  64. Proprietary + Confidential
    Diffusionプロセスを続けていくと?
    ❏ ノイズスケジュールを適切に選べば標準正規分布になる
    ❏ t=2 のケースを考えると
    ❏ 正規分布の再生性より
    ❏ 一般形に書き換えて
    Note
    よって、 なら、十分大きいステップでは標準正
    規分布になる

    View full-size slide

  65. Proprietary + Confidential
    Diffusionプロセスで大事な数式まとめ
    (i) 1ステップ進むと、音声が少し小さくなって、雑音が少し大きくなる
    (ii) tステップ目の信号は、クリーンな音声からサンプリングできる

    View full-size slide

  66. Proprietary + Confidential
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
    Reverseプロセスの1ステップ
    ❏ これに対応する reverse プロセスの1ステップはどんなだろう?
    ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)

    View full-size slide

  67. Proprietary + Confidential
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
    Reverseプロセスの1ステップ
    ❏ これに対応する reverse プロセスの1ステップはどんなだろう?
    ❏ 以下の正規分布からのサンプリングになる(導出は [5] 参照)

    View full-size slide

  68. Proprietary + Confidential
    Reverseプロセスの1ステップ
    ❏ 平均値の意味するところ
    ❏ ややこしい係数は計算機に任せればいいので現段階では無視でいい
    ❏ 大切なのは、tステップ目の信号に、クリーン音声を混ぜてる点
    ❏ なので、1ステップ進めると、少しクリーンになる、というイメージ
    クリーン音声に係数を掛けて、 noisy な信号に足す
    🤔 いや、だからクリーン音声を知りたいんだけど...

    View full-size slide

  69. Proprietary + Confidential
    Reverseプロセスの1ステップ
    ❏ Diffusionプロセスに便利な式があった

    View full-size slide

  70. Proprietary + Confidential
    Reverseプロセスの1ステップ
    ❏ Diffusionプロセスに便利な式があった
    ❏ 代入すると...
    分からない変数が、x
    t
    に含まれている雑音だけになった!

    View full-size slide

  71. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  72. Proprietary + Confidential
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    DNNの学習の仕方
    ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい
    DNN
    SNR = 5dB
    推定ホワイト
    ノイズ
    音声
    ホワイト
    ノイズ
    +

    View full-size slide

  73. Proprietary + Confidential
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    DNNの学習の仕方
    ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい
    DNN
    推定ホワイト
    ノイズ
    音声
    +
    ホワイト
    ノイズ
    誤差計算
    [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし
    てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...

    View full-size slide

  74. Proprietary + Confidential
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    DNNの学習の仕方
    ❏ とても雑に言えば、tステップ目の信号を作って雑音を推定すればいい
    DNN
    推定ホワイト
    ノイズ
    音声
    +
    ホワイト
    ノイズ
    誤差計算
    [2] では変分下界から綿密な議論をしていますが、最後の最後に「今までの数式との戦いは何 🤪?」な簡略化をし
    てこうなるので、とりあえずは平均二乗誤差最小化で理解しておけば良いと思います ...

    View full-size slide

  75. Proprietary + Confidential
    DNNの使い方
    ❏ DNNを雑音の推定に使う
    DNN
    SNR = 5dB
    😃ここに使う💡

    View full-size slide

  76. Proprietary + Confidential
    もっと知りたい方へ
    ❏ 日本語で、わかりやすいページ
    ❏ What are Diffusion Models? の和訳
    :https://zenn.dev/nakky/articles/09fb1804001ff8
    ❏ Yohei Kikuta さんの論文読みメモ
    :https://github.com/yoheikikuta/paper-reading/issues/62
    ❏ 英語で、わかりやすいページ
    ❏ Diffusion Models as a kind of
    VAE:https://angusturner.github.io/generative_models/2021/06/29/diffus
    ion-probabilistic-models-I
    ❏ An introduction to Diffusion Probabilistic
    Models:https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models

    View full-size slide

  77. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  78. Proprietary + Confidential
    拡散確率モデルと信号対雑音比
    ❏ 拡散ステップは何をしているのか?
    ❏ Signal-to-Noise Ratio (SNR) を調整していると解釈できる※注 [7]
    [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021.
    +
    ※注 [7] での SNR の定義。音声と雑音のパワーが一緒だったら、信号処理で使われる SNR と意味の対応が

    View full-size slide

  79. Proprietary + Confidential
    拡散確率モデルと信号対雑音比
    ❏ 音声が小さい区間は、ノイズも小さくて良いのでは?
    この区間は既に波形が見えない
    この区間はまだ波形がよく見える

    View full-size slide

  80. Proprietary + Confidential
    PriorGrad [8]
    ❏ Segmental SNR を調整するようにすれば良い [8]
    ❏ 条件付けの log-mel spectrogram から雑音パワーを決める
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    ※ PriorGrad は Microsoft Research Asia の研究です!

    View full-size slide

  81. Proprietary + Confidential
    PriorGradの雑音生成
    ❏ 時間領域で、ホワイトノイズに振幅係数をかける
    条件付け
    対数メルスペクトログラム 雑音の振幅
    フレーム毎に
    パワー計算
    ホワイトノイズ
    PriorGrad のノイズ
    tf.random.normal()
    +

    View full-size slide

  82. Proprietary + Confidential
    え、そんなことして大丈夫なの?
    ❏ 対角共分散行列を持つ正規分布を利用することに相当
    ❏ 共分散要素が信号のパワーを表すことを利用
    ❏ ロス計算以外は、元のアルゴリズムをそのまま使える(証明は[8]参照)
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    WaveGrad [5] PriorGrad [8]
    雑音の事前分布(Prior)を、
    条件付けログメルスペクトログラムに適応(
    Adapt)する

    View full-size slide

  83. Proprietary + Confidential
    ロスはどうなるの?
    ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    雑音の振幅
    ホワイトノイズ
    PriorGrad のノイズ
    +
    DNN 推定ノイズ 振幅を戻したノイズ
    平均二乗誤差

    View full-size slide

  84. Proprietary + Confidential
    ロスはどうなるの?
    ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる
    ❏ 実は、元のロスは変分下界だった [2]
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視

    View full-size slide

  85. Proprietary + Confidential
    ロスはどうなるの?
    ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる
    ❏ 実は、元のロスは変分下界だった [2]
    ❏ ガウス分布のKL情報量は
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視

    View full-size slide

  86. Proprietary + Confidential
    ロスはどうなるの?
    ❏ 正規分布のKL情報量からきているので、マハラノビス距離になる
    ❏ 実は、元のロスは変分下界だった [2]
    ❏ ガウス分布のKL情報量は
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    事前分布に学習可能なパラメータはないので無視 最後はノイズを足さないので無視
    無視した方がうまくいくので無視 [2]
    係数 β
    t
    は無視 [2]
    WaveGrad は単位行列なので逆行列が不要 [5]
    PriorGrad は振幅で除算することに相当 [8]

    View full-size slide

  87. Proprietary + Confidential
    もくじ
    ❏ 拡散確率モデルを使った音声波形生成
    ❏ 拡散確率モデルと魅力的なアプリケーション
    ❏ 拡散確率モデルをお気持ちから理解しよう
    ❏ 拡散確率モデルの数学をちょっと理解しよう
    ❏ 「お気持ちアルゴリズム解説」と数式を対応付よう
    ❏ 手前味噌な研究紹介
    ❏ PriorGrad: 雑音のパワーをログメルスペクトログラムから制御
    ❏ SpecGrad: 雑音のスペクトル包絡をログメルスペクトログラムから制御

    View full-size slide

  88. Proprietary + Confidential
    SpecGrad [9]
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    ❏ 雑音のスペクトル包絡も制御したらいいのでは?
    時間
    メルスケール周波数
    条件付け
    対数メルスペクトログラム
    PriorGrad [8] の雑音の
    スペクトログラム
    SpecGrad [9] の雑音の
    スペクトログラム
    時間
    周波数
    時間
    周波数

    View full-size slide

  89. Proprietary + Confidential
    SpecGrad [9]
    ❏ 雑音のスペクトル包絡をログメルスペクトログラムから制御
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  90. Proprietary + Confidential
    SpecGradの雑音生成
    ❏ 時間周波数領域で、ホワイトノイズにフィルタをかける
    条件付け
    対数メルスペクトログラム
    雑音のスペクトル包絡
    制御フィルタ
    ケプストラム
    &最小位相
    ホワイトノイズ
    SpecGrad のノイズ
    +
    STFT
    iSTFT

    View full-size slide

  91. Proprietary + Confidential
    SpecGradのロス計算
    ❏ 時間周波数領域で、推定ノイズに逆フィルタをかける
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    雑音のスペクトル包絡
    制御フィルタ
    ホワイトノイズ
    SpecGrad
    のノイズ
    +
    DNN 推定ノイズ
    スペクトル包絡を
    戻したノイズ
    平均二乗誤差
    iSTFT
    iSTFT
    iSTFT
    STFT

    View full-size slide

  92. Proprietary + Confidential
    え、そんなことして大丈夫なの?
    ❏ 任意の共分散行列を持つ正規分布を利用することに相当
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    WaveGrad [5] PriorGrad [8] SpecGrad [9]
    時間
    周波数 振幅
    時間
    周波数 振幅
    時間
    周波数 振幅

    View full-size slide

  93. Proprietary + Confidential
    雑音生成とロス計算
    ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング
    ❏ 共分散行列は半正定値行列なので以下の分解が可能
    ❏ また、乱数生成は、以下の式となる
    ❏ また、ロス計算は、以下の式となる
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  94. Proprietary + Confidential
    雑音生成とロス計算
    ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング
    ❏ 鍵となる計算式
    ❏ どんな だと嬉しいだろう?
    ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい
    ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効
    率的にできる形がいい
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  95. Proprietary + Confidential
    雑音生成とロス計算
    ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング
    ❏ 鍵となる計算式
    ❏ どんな だと嬉しいだろう?
    ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい
    ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効
    率的にできる形がいい
    ❏ 時間周波数領域でのフィルタリング行列とする
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  96. Proprietary + Confidential
    雑音生成とロス計算
    ❏ ホワイトノイズへのフィルタリングと推定雑音への逆フィルタリング
    ❏ 鍵となる計算式
    ❏ どんな だと嬉しいだろう?
    ❏ 変分下界を下げるために、音声の共分散行列と近い にしたい
    ❏ 乱数生成に出てくる と、ロスの計算に出てくる逆行列 の計算が効
    率的にできる形がいい
    ❏ 時間周波数領域でのフィルタリング行列とする
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  97. Proprietary + Confidential
    の図解
    ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積
    ❏ STFTを大きな行列  で書く意味は、[10] などを読むとわかりやすい
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019.
    条件付け
    対数メルスペクトログラム
    雑音のスペクトル包絡
    制御フィルタ
    ケプストラム
    &最小位相
    ホワイトノイズ
    SpecGrad のノイズ
    +
    STFT
    iSTFT

    View full-size slide

  98. Proprietary + Confidential
    の図解
    ❏ 書き方がややこしいが、実装上は、STFT, iSTFT, 及び要素積
    ❏ STFTを大きな行列  で書く意味は、[10] などを読むとわかりやすい
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019.
    SpecGrad
    のノイズ
    +
    DNN 推定ノイズ
    スペクトル包絡を
    戻したノイズ
    平均二乗誤差
    iSTFT
    iSTFT
    iSTFT
    STFT

    View full-size slide

  99. Proprietary + Confidential
    評価実験:実験設定
    ❏ データセット
    ❏ 学習データ:男性10名、女性11名、英語、184時間、24kHzサンプリング
    ❏ テストデータ:学習データから holdout した1,000サンプル
    ❏ パラメータ設定
    ❏ ネットワーク構造:WaveGrad [5] と同じ、パラメータ数 13.8M
    ❏ 学習法:Adam optimizer、学習率 1e-4、1M step、バッチサイズ 512
    ❏ 周波数分析:50ms ハン窓、12.5 msシフト、2,048点FFT、128次元メルフィルタ
    バンク(20Hz〜12kHz)
    ❏ 比較手法
    ❏ WaveGrad [5] および PriorGrad [8] と比較
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.

    View full-size slide

  100. Proprietary + Confidential
    評価実験:評価尺度
    ❏ 音声の自然性を Mean-Opinion-Score (MOS) で絶対評価
    ❏ 0.5 ポイント刻みで、1(Bad)〜5(Excellent)
    ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)と、WaveGrad のスケ
    ジュールで50回(WG-50)の2パターンで評価
    ❏ 定量評価として、WARP-Q [11] も利用
    ❏ 音声の自然性を A/Bテストで相対評価
    ❏ 1 ポイント刻みで、−3(Bが良い)〜3(Aが良い)
    ❏ 更新回数は、PriorGrad のスケジュールで6回(PG-6)で評価
    ❏ 評価者
    ❏ クラウドソーシングを利用した試験
    ❏ 静かな部屋でヘッドホンで受聴、一人当たり最大6回まで評価
    [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021

    View full-size slide

  101. Proprietary + Confidential
    音質評価:MOS試験
    ❏ SpecGrad が、両方のスケジュールで最もMOSが高い
    ❏ WARP-Q score も、両方のスケジュールで提案法が最も高い

    View full-size slide

  102. Proprietary + Confidential
    音質評価:A/Bテスト
    ❏ SpecGrad > WaveGrad > PriorGrad という結果だった
    ❏ WaveGrad は、高域が生成されないためと考えられる [12]
    ❏ PriorGrad は、高域が生成されるものの、高域の位相歪みが観測された
    ❏ PriorGrad の論文 [8]は、メルフィルタバンクの最大周波数を 7.6 kHz で設計し
    ており、今回の実験とのパラメータの不一致が原因と考えられる
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021

    View full-size slide

  103. Proprietary + Confidential
    demo
    ❏ ヘッドホンで聴かないと差がわからないかも...
    ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/
    Text: I can't speak for Scooby, but have you looked in the Mystery Machine?
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    WaveGrad [5] PriorGrad [8] SpecGrad [9]
    6 iter.
    50 iter.

    View full-size slide

  104. Proprietary + Confidential
    音声強調にも利用可能
    ❏ Parametric resynthesis [13] の波形生成にも利用可能
    ❏ 雑音を含んだメルスペクトログラムを、別のネットワークを利用して、クリーンな
    メルスペクトログラムに変換
    ❏ 雑音/残響除去されたメルスペクトログラムから波形生成
    [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019
    音声波形
    SpecGrad
    別のネット
    ワーク
    雑音/残響付き
    対数メルスペクトログラム
    強調された
    対数メルスペクトログラム

    View full-size slide

  105. Proprietary + Confidential
    評価実験:音声強調
    ❏ 実験設定
    ❏ DF-Conformer [14] を front-end に利用
    ❏ 事前学習した DF-Conformer と接続し、500k step fine-tuning
    ❏ データセット
    ❏ 前述の音声データに、鏡像法で残響を付与&TAU Urban AudioVisual
    Scenes 2021 dataset [15] を雑音として付与
    ❏ 評価尺度
    ❏ 明瞭度:ESTOI [16]
    ❏ 音質:WARP-Q [11]
    [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021
    [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for Speech Enhancement,"
    WASPAA, 2021
    [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021
    [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.

    View full-size slide

  106. Proprietary + Confidential
    評価実験:音声強調
    ❏ SpecGrad > WaveGrad > PriorGrad という結果だった
    ❏ アルゴリズムの特性上、ノイズ生成や誤差計算がメルスペクトログラムの推定
    精度に影響されるが、誤差を含んだメルスペクトログラムを利用してもなお、従
    来法より高精度に波形生成可能であることがわかった

    View full-size slide

  107. Proprietary + Confidential
    demo
    ❏ ヘッドホンで聴かないと差がわからないかも...
    ❏ 他のサンプルはデモサイトにて:https://wavegrad.github.io/specgrad/
    クリーン音声 雑音&残響入り音声 強調音声
    Text: The new entity set about warping reality all over Scotland.

    View full-size slide

  108. Proprietary + Confidential
    まとめ
    ❏ 拡散確率モデルは面白い!
    ❏ 魅力的なアプリケーションが沢山ある
    ❏ アルゴリズム自体はそこまで複雑じゃない
    ❏ アルゴリズムが分かると、論文の数式を追うのもそこまで苦ではない
    ❏ 拡散確率モデルを利用した波形生成
    ❏ 雑音の事前分布を、条件付けメルスペクトログラムから適応する手法を紹介
    ❏ 他にも手法を改善するアプローチは沢山
    ❏ 興味のある方は⏬

    View full-size slide

  109. Proprietary + Confidential
    参考文献
    [1] J. Sohl-Dickstein+, "Deep Unsupervised Learning using Nonequilibrium Thermodynamics," ICML 2015.
    [2] J. Ho+, "Denoising Diffusion Probabilistic Models," NeurIPS 2020.
    [3] A. Nichol+, "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models," arXiv:2112.10741, 2021.
    [4] A. Ramesh+, "Hierarchical Text-Conditional Image Generation with CLIP Latents," https://cdn.openai.com/papers/dall-e-2.pdf, 2022.
    [5] N. Chen+, “WaveGrad: Estimating Gradients for Waveform Generation,” ICLR, 2021.
    [6] Z. Kong+, “DiffWave: A Versatile Diffusion Model for Audio Synthesis,” ICLR, 2021.
    [7] D. P. Kingma+, "Variational Diffusion Models," NeurIPS, 2021.
    [8] S. Lee+, "PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior," ICLR, 2022.
    [9] Y. Koizumi+, "SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping," Interspeech, 2022.
    [10] T. Kusano+, "Designing Nearly Tight Window for Improving Time-Frequency Masking," ICA, 2019.
    [11] W. A. Jassim+, "WARP-Q: Quality Prediction for Generative Neural Speech Codecs," ICASSP, 2021
    [12] T. Okamoto+, "Noise Level Limited Sub-Modeling for Diffusion Probabilistic Vocoders," ICASSP, 2021
    [13] S. Maiti+, "Parametric Resynthesis with Neural Vocoders," WASPAA, 2019
    [14] Y. Koizumi+, "DF-Conformer: Integrated Architecture of Conv-TasNet and Conformer using Linear Complexity Self-Attention for
    Speech Enhancement," WASPAA, 2021
    [15] S. Wang+, "A Curated Dataset of Urban Scenes for Audio-Visual Scene Analysis," ICASSP, 2021
    [16] J. Jensen+, "An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE TASLP, 2016.

    View full-size slide