Slide 8
Slide 8 text
何が起きているの?
•2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)
•2016 年に WaveNet が登場、声道の数理モデルが要らず表現力が飛躍的に向上
•2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される
Shen, Jonathan, et al. "Natural tts synthesis by conditioning
wavenet on mel spectrogram predictions." ICASSP 2018.
Oord, Aaron van den, et al. "Wavenet: A generative model for
raw audio." arXiv preprint arXiv:1609.03499 (2016).