波形のモデルリング
7
• 音声信号の特徴を捉えるための課題
– 長期に渡る依存関係
– 隣接したサンプル間の強い相関
"WaveNet: A generative model for raw audio," URL: https://deepmind.com/blog/article/wavenet-generative-
model-raw-audio
スペクトログラムのモデリング
26
• 時間周波数領域でのモデリング課題
– 微細な構造のモデリング
– 位相(or複素数)の取り扱い
“The Phase Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i
“MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
Slide 27
Slide 27 text
スペクトログラムのモデリング
27
• 時間周波数領域でのモデリング課題
– 微細な構造のモデリング
– 位相(or複素数)の取り扱い
“The Phase Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i
“MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
Slide 28
Slide 28 text
Low/multi-resolution GAN
28
• Vocoder-free text-to-speech synthesis incorporating
generative adversarial networks using low-/multi-
frequency STFT amplitude spectra (CSL2019)
– 複数解像度での生成スペクトログラムの評価
• MSE + Low-res. GAN loss (+ Ori.-res. GAN loss)
Φは周波数方向の
ダウンサンプリング
Slide 29
Slide 29 text
MelNet (1/2)
29
• MelNet: A Generative Model for Audio in
the Frequency Domain (arXiv2019)
– より高精度なスペクトログラムのモデリング
• 従来より冗長な時間周波数解像度
• スムージングを避けたい ⇒ 自己回帰モデルを適用
• 局所・大域的構造 ⇒ Coarse-to-fine (多段の生成)
4つのRNNでコンテキストをエンコード
複素スペクトログラムの生成モデル
32
• A Deep Generative Model of Speech
Complex Spectrograms (ICASSP2019)
– 振幅と位相の生成モデルをVAEで表現
• 共通の潜在変数利用+振幅を位相の条件付けに利用
• 対数振幅:ガウス分布,位相:von Mises 分布