Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[DL輪読会] Efficient Neural Audio Synthesis

[DL輪読会] Efficient Neural Audio Synthesis

WaveNetはSoTAな音声合成手法。
しかし、自己回帰生成モデルなので、生成が遅い。1秒の音声を生成するために24000回のサンプリングが必要。
提案手法”WaveRNN”。ネットワークを大幅に小さくした。
計算時間を短くする手法や、並列して生成可能な手法も提案。
モバイルCPUでもリアルタイムで音声合成可能にした。

Avatar for Dwango Media Village

Dwango Media Village

June 01, 2018
Tweet

More Decks by Dwango Media Village

Other Decks in Research

Transcript

  1. Efficient Neural Audio Synthesis   一言で言うと   WaveNetを改修して、リアルタイムで波形生成可能なWaveRNNを提案   著者   Nal Kalchbrenner (DeepMind)

    · Erich Elsen (Google) · Karen Simonyan (DeepMind) ·   Seb Noury (DeepMind) · Norman Casagrande (DeepMind) · Edward Lockhart (DeepMind) ·   Florian Stimberg () · Aäron van den Oord (Google Deepmind) ·   Sander Dieleman (DeepMind) · koray kavukcuoglu (DeepMind)   ICML 2018   選択理由   最近リアルタイム声質変換をやっているので、どんな論文か気になった   URL: https://arxiv.org/pdf/1802.08435.pdf   IUUQTBSYJWPSHQEGQEG
  2. 実験条件   TTS(Text To Speech)タスク   24kHz、16bitサンプル   学習データは44時間の読み上げ音声   入力は ”conventional linguistic features”

    とピッチ   平均オピニオン評点(MOS)やABテストで主観評価   NLLで定性評価   Subscale WaveRNNには、10層のDilated CNNを用いる