Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WaveNetを用いた声質変換の実装

 WaveNetを用いた声質変換の実装

CNN音声合成器WaveNetを用いて声質変換(ボイチェン)を実装する試み。
筑波大学 情報特別演習 最終発表会

Sota Ichikawa

January 16, 2020
Tweet

More Decks by Sota Ichikawa

Other Decks in Programming

Transcript

  1. 声質変換の流れ Aさんの声 基本周波数 スペクトル 包絡 非周期性 特性 変換後の 声 パラメータ

    操作 音響特徴量 抽出 合成 黄色枠のブロックを何で実装するか 9
  2. 手段1 統計的処理 (夏休みまで) 基本周波数 スペクトル 包絡 非周期性 特性 変換後の 声 パラメータ 操作

    (GMM) 音響特徴量 抽出 (World) 合成 (World) 混合正規分布モデル(GMM)を用いてパラメータ操作を表現する 10 Aさんの声
  3. 手段2-1 ニューラルネットワーク 基本周波数 スペクトル 包絡 非周期性 特性 変換後の 声 パラメータ 操作

    (ニューラル ネット) 音響特徴量 抽出 (World) 合成 (World) パラメータ操作をニューラルネットに行ってもらう 11 Aさんの声
  4. 手段2-2 ニューラルネットワーク 基本周波数 スペクトル 包絡 非周期性 特性 変換後の 声 パラメータ 操作

    (ニューラル ネット) 音響特徴量 抽出 (World) 合成 (World) パラメータ操作から声の合成まで全てニューラルネットに行ってもらう パラメータ 操作 + 合成 (ニューラルネット) 12 Aさんの声
  5. ニューラルネットワークの選択 WaveNet  Google Assistantなどで使用されている音声合成器   畳み込み・残差モデリング 合成された声 WaveNet 入力 (文字など)

    声B WaveNet 入力 (声A) 13 [WaveNet: A Generative Model for Raw Audio] (https://deepmind.com/blog/wavenet-generative-model-raw-audio/)