[DL輪読会] Efficient Neural Audio Synthesis

[DL輪読会] Efficient Neural Audio Synthesis

WaveNetはSoTAな音声合成手法。
しかし、自己回帰生成モデルなので、生成が遅い。1秒の音声を生成するために24000回のサンプリングが必要。
提案手法”WaveRNN”。ネットワークを大幅に小さくした。
計算時間を短くする手法や、並列して生成可能な手法も提案。
モバイルCPUでもリアルタイムで音声合成可能にした。

830aad2f9b1bff6485ccde5accb63bd8?s=128

Dwango Media Village

June 01, 2018
Tweet