Slide 23
Slide 23 text
Proprietary + Confidential
例:音声翻訳 [Jia+, 2019/2022]など...
波形生成 DNN
(neural vocoder)
メルスペクトログラム変
換 DNN
時間
メルスケール周波数
時間
メルスケール周波数
スペイン語の
メルスペクトログラム 英語の
メルスペクトログラム
Y. Jia, “Direct speech-to-speech translation with a sequence-to-sequence model,” Interspeech, 2019
Y. Jia, “Translatotron 2: High-quality direct speech-to-speech translation with voice preservation,” ICML, 2022