ICASSP2020読み会発表資料 F0 Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder
F0-consistent many-to-many non-parallel voiceconversion via conditional autoencoderAuthor: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysorepresenter: @peisukeICASSP2020⾳響⾳声読み会
View Slide
⾃⼰紹介名前:藤本 敬介所属:ABEJA研究:コンピュータビジョン、ロボット活動:Twitter @peisukeGithub https://github.com/peisukeQiita https://qiita.com/peisukeSlideShare https://www.slideshare.net/FujimotoKeisuke
概要• タイトル• F0-consistent many-to-many non-parallel voice conversion via conditionalautoencoder• どんな論⽂?• Auto Encoderによってメルスペクトログラムを他⼈のものに変換• その際にF0(ピッチ)が反転してしまう場合があった問題を解決• ⼯夫点は?• 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件として与えた
全体の構成• AutoVC (ICML2019)に対してF0を条件に追加Output変換後のメルスペクトログラム(WaveNetボコーダで⾳声に変換)Inputソース⾳声のメルスペクトログラムソース話者・ターゲット話者の⾳声特徴ソース⾳声の正規化したlog F0 ← New!!
AutoVCとは• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現1. エンコード・デコード時に話者を変えずに復元した場合( !, )の復元ロス2. 上記処理の中間復元結果 $の復元ロス3. 復元したメルスペクトログラムを再エンコードした特徴の⼀致度合い
AutoVCの構成• 全体のネットワーク構成
AutoVCの構成• ⼊⼒はメルスペクトログラムソース⾳声のメルスペクトログラムターゲット⾳声のメルスペクトログラム
AutoVCの構成• 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)話者の特徴抽出(事前に学習しておく)話者の特徴抽出(事前に学習しておく)
AutoVCの構成• ソース発話内容と話者特徴をエンコード発話内容のエンコード
AutoVCの構成• ダウンサンプルする事で特徴の次元数を落とすダウンサンプル&アップサンプル
AutoVCの構成• ターゲットの話者特徴を加えてデコードするターゲット特徴をConcatしてデコード
AutoVCの学習・変換• 学習時はソース話者のみ出現• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元• 話者の変換を明⽰的には学習しない• 推論時に、ターゲット話者の特徴を利⽤
F0による条件付け• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込みに含まれる韻律の情報が⽭盾する結果、F0が反転すると予想• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコード時にターゲット話者の特徴と⼀緒に埋め込む• 256段階のone-hot+無⾳1次元分の257次元!"#$ =%#& − 4pはフレーム毎のlog-F0u, σはpの平均・標準偏差
実験• 実験内容• F0の情報が適切に復元されるかを、定性的・定量的に調査• 実験条件• VCTKコーパスで学習/テストを⾏う• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験• 90%のデータを学習、10%をテストに利⽤
定量的評価• F0の分布に関する評価• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査• AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近くなっている• 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
定量的評価• 変換前後でF0が⼀貫性を持つかを調査• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
ボトルネックのテストおよびF0の制御• 実験1:エンコーダのF0リーク検証• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デコーダのみ学習• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない事でランダムなF0が復元されていることが確認できる• 実験2:F0の制御の検証• デコーダに与えるF0をフラットにして実験• 復元される⾳声のF0もフラットにできる
定性的評価• Amazon Mechanical TurkでMOS評価を⾏った• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得られた• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
まとめ• AutoEncoderベースでのmany-to-many⾳声変換• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題があった• F0の情報をデコーダに⼊れる事で上記問題を解決• 実験により、定量的・定性的に上記効果を検証