WaveNetはSoTAな音声合成手法。 しかし、自己回帰生成モデルなので、生成が遅い。1秒の音声を生成するために24000回のサンプリングが必要。 提案手法”WaveRNN”。ネットワークを大幅に小さくした。 計算時間を短くする手法や、並列して生成可能な手法も提案。 モバイルCPUでもリアルタイムで音声合成可能にした。