WaveNetを用いた声質変換の実装

WaveNetを用いた声質変換の実装 2020/1/16 筑波大学情報特別演習最終発表会情報科学類２年市川創大 1

話すこと 2 1. 人の声がでるしくみ 2. 声質変換の概要 3. 声質変換の実装

人の声が出るしくみ 1 3

人間の声が出るプロセス 1. 空気が声帯を通り音が鳴る 2. 音が声道を通って出てくる声帯が発生させたただの音が声道を通ると人間の話し声になるただのブザー音声帯声道
あ 4

ただの音が人の話し声になる 1. 音が声道を通ると共鳴する（その人らしさが出る） 2. 口の形で共鳴の仕方が変わる（発話内容が決定する）ただのブザー音声帯声道あ 5

声はいくつかのパラメータに分解できる・基本周波数 Fundamental frequency (f0) 　声の高さ・声道のスペクトル包絡　声道の音響特性（発話内容やその人らしさ）を表す・非周期性　有声音・無声音（声帯がふるえているかどうか）を表す
声質変換（ボイチェン）はこれらのパラメータを変化させることで実現できる 6

声質変換の概要 2 7

声質変換とは Aさんの声をBさんの声に変換する技術 Aさんの声 Bさんの声変換 8

声質変換の流れ Aさんの声基本周波数スペクトル包絡非周期性特性変換後の声パラメータ
操作音響特徴量抽出合成黄色枠のブロックを何で実装するか 9

手段１　統計的処理　（夏休みまで）基本周波数スペクトル包絡非周期性特性変換後の声パラメータ操作
（GMM）音響特徴量抽出（World）合成（World）混合正規分布モデル(GMM)を用いてパラメータ操作を表現する 10 Aさんの声

手段2-1　ニューラルネットワーク基本周波数スペクトル包絡非周期性特性変換後の声パラメータ操作
（ニューラルネット）音響特徴量抽出（World）合成（World）パラメータ操作をニューラルネットに行ってもらう 11 Aさんの声

手段2-2　ニューラルネットワーク基本周波数スペクトル包絡非周期性特性変換後の声パラメータ操作
（ニューラルネット）音響特徴量抽出（World）合成（World）パラメータ操作から声の合成まで全てニューラルネットに行ってもらうパラメータ操作 + 合成（ニューラルネット） 12 Aさんの声

ニューラルネットワークの選択 WaveNet　 Google Assistantなどで使用されている音声合成器　畳み込み・残差モデリング合成された声 WaveNet 入力 (文字など)
声B WaveNet 入力 (声A) 13 [WaveNet: A Generative Model for Raw Audio] (https://deepmind.com/blog/wavenet-generative-model-raw-audio/)

声質変換の実装 3 14

環境言語：Python 3.6 特徴量抽出：world, sptk, librosa DTW実装：dtw 学習フレームワーク：Chainer 15

データセットの準備 JVS (Japanese versatile speech) corpus 違う人が同じ内容を話しているものを使うあいう
えあいうえ A B DTW(動的時間伸縮法)でタイミングを合わせる 16

学習プロセス入力をAの音響特徴量、出力をBの音声として学習 μ-lawで圧縮した Bの音声 (8bit256段階) Aの音声の音響特徴量 WaveNet 256種類の分類問題 t
17 5～10秒の音声ファイル100個から無作為に0.3秒の音声500個を抽出した

結果学習が進むにつれて発話内容が不明瞭になってしまった mini batch size：2 ResNetの数：4 ResNet内のレイヤー数：10 出力チャンネル数：256 最適化手法：MomentumSGD
18 教師音声生成音声

考察音響特徴量の補完に問題がある WaveNetはサンプル単位で入出力を行う 1サンプルに対して1特徴量にする必要がある別の種類の特徴量を全て同じ方法で補完している f0 mcep ap
抽出補完 1フレーム=10ms f0 mcep ap 19

今後の展望・複数特徴量の補完を一括で行わず、それぞれ最適な補完を行う・特徴量に変換せずAの音声からBの音声にダイレクトに変換する・高速化されたFast WaveNetを実装する 20

ご清聴ありがとうございました 21

WaveNetを用いた声質変換の実装

WaveNetを用いた声質変換の実装

Sota Ichikawa

More Decks by Sota Ichikawa

Other Decks in Programming

Featured

Transcript