[DL輪読会] Efficient Neural Audio Synthesis

[DL輪読会] Efficient Neural Audio Synthesis

WaveNetはSoTAな音声合成手法。
しかし、自己回帰生成モデルなので、生成が遅い。1秒の音声を生成するために24000回のサンプリングが必要。
提案手法”WaveRNN”。ネットワークを大幅に小さくした。
計算時間を短くする手法や、並列して生成可能な手法も提案。
モバイルCPUでもリアルタイムで音声合成可能にした。

830aad2f9b1bff6485ccde5accb63bd8?s=128

Dwango Media Village

June 01, 2018
Tweet

Transcript

  1. 2.

    Efficient Neural Audio Synthesis   一言で言うと   WaveNetを改修して、リアルタイムで波形生成可能なWaveRNNを提案   著者   Nal Kalchbrenner (DeepMind)

    · Erich Elsen (Google) · Karen Simonyan (DeepMind) ·   Seb Noury (DeepMind) · Norman Casagrande (DeepMind) · Edward Lockhart (DeepMind) ·   Florian Stimberg () · Aäron van den Oord (Google Deepmind) ·   Sander Dieleman (DeepMind) · koray kavukcuoglu (DeepMind)   ICML 2018   選択理由   最近リアルタイム声質変換をやっているので、どんな論文か気になった   URL: https://arxiv.org/pdf/1802.08435.pdf   IUUQTBSYJWPSHQEGQEG
  2. 16.

    実験条件   TTS(Text To Speech)タスク   24kHz、16bitサンプル   学習データは44時間の読み上げ音声   入力は ”conventional linguistic features”

    とピッチ   平均オピニオン評点(MOS)やABテストで主観評価   NLLで定性評価   Subscale WaveRNNには、10層のDilated CNNを用いる