Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声合成の精度比較.pdf

Keio Computer Society
November 10, 2021
130

 音声合成の精度比較.pdf

WaveNetと論文(http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/pdf/2020/0104_1-2-3.pdf
)を浅くまとめたものです。

Keio Computer Society

November 10, 2021
Tweet

Transcript

  1. WaveNetとは • 音声認識・合成技術の代表的なアルゴリズム • 音声認識・合成のニューラルボコーダ(音声波形直接生成モデル)の先駆となった • Google傘下のDeepMindが開発 • 2016年にリリース •

    サンプリングレート数が高く(≒音質がよい) 、音声合成や音声認識で幅広く使われる ようになった • PixelCNN3をベースとした音声波形を生成するためのDNNのひとつ(後述) • 波形接続TTSではなくパラメトリックTTSモデルを利用 (後述)
  2. WaveNetとは 費用 音声生成速度 音質 流暢さ 波形接続TTS 高い 遅い 良い ない

    パラメトリックTTS 安い 早い 悪い ない? 波形接続TTSとパラメトリックTTSの違い Wavenet導入前まで
  3. WaveNetとは 費用 処理速度 音質 流暢さ 波形接続TTS 高い 遅い 良い ない

    パラメトリックTTS 安い 早い 良い ある 波形接続TTSとパラメトリックTTSの違い Wavenet導入後
  4. ニューラルボコーダ WaveNet :自己回帰機構を用いて波形を直接推定 するニューラル生成モデル。生成速 度が遅い、高品質な音声。8bit 信号を生成。 LPCNet :再帰的ニューラルネットワークを用いた WaveRNNベースのニューラルボ コーダ。

    8bit 信号を生成。従来はサンプリング周波数 16 kHz の音声 を合成可能な ニューラルボコーダ。 Parallel WaveGAN :Parallel WaveNet を Generator とするGANベースのニュー ラル ボコーダ。 Generator である WaveNet が全てのサ ンプルを同時に生成。
  5. ニューラルボコーダ モデル ベース 出力信号 特徴 WaveNet 自己回帰機構 - 8bit 信号

    ・高音質 ・生成速度が遅い LPCNet 再帰的ニューラル ネットワーク WaveRNN 8bit 信号 ・生成速度は遅い が、手法次第でリ アルタイム生成が 可能 Parallel WaveGAN Parallel WaveNet GAN 16bit信号 ・生成速度が速い ・リアルタイム生 成が可能
  6. 論文_実験内容 • 実験内容:サンプリング周波数 24 kHz の音声を用いて分析合成・比較 • データ:日本人女性話者による 7697 文

    (約 10 時間) の音声を使用 そのうち、学習セットは以下。 LPCNet,Parallel WaveGAN :9,5,3,1,1/2, 1/4,1/8 時間の 7 種類, WaveNet : 9 時間と 1/8 時 間の 2 種類を学習セットに使って評価
  7. 論文_実験結果② • 生成した音質について 学習データ量を変化させる LPCNet Parallel WaveGAN 飛び地:WaveNet 0 0.5

    1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 7 8 9 10 学習セットの時間 音 質 ( で か い ほ ど 良 い )