Upgrade to Pro — share decks privately, control downloads, hide ads and more …

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

peisuke
June 19, 2020

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

ICASSP2020読み会発表資料
F0 Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

peisuke

June 19, 2020
Tweet

More Decks by peisuke

Other Decks in Technology

Transcript

  1. F0-consistent many-to-many non-parallel voice
    conversion via conditional autoencoder
    Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
    presenter: @peisuke
    ICASSP2020⾳響⾳声読み会

    View Slide

  2. ⾃⼰紹介
    名前:藤本 敬介
    所属:ABEJA
    研究:コンピュータビジョン、ロボット
    活動:
    Twitter @peisuke
    Github https://github.com/peisuke
    Qiita https://qiita.com/peisuke
    SlideShare https://www.slideshare.net/FujimotoKeisuke

    View Slide

  3. 概要
    • タイトル
    • F0-consistent many-to-many non-parallel voice conversion via conditional
    autoencoder
    • どんな論⽂?
    • Auto Encoderによってメルスペクトログラムを他⼈のものに変換
    • その際にF0(ピッチ)が反転してしまう場合があった問題を解決
    • ⼯夫点は?
    • 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件
    として与えた

    View Slide

  4. 全体の構成
    • AutoVC (ICML2019)に対してF0を条件に追加
    Output
    変換後のメルスペクトログラム
    (WaveNetボコーダで⾳声に変換)
    Input
    ソース⾳声のメルスペクトログラム
    ソース話者・ターゲット話者の⾳声特徴
    ソース⾳声の正規化したlog F0 ← New!!

    View Slide

  5. AutoVCとは
    • AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
    1. エンコード・デコード時に話者を変えずに
    復元した場合( !
    , )の復元ロス
    2. 上記処理の中間復元結果 $
    の復元ロス
    3. 復元したメルスペクトログラムを再エン
    コードした特徴の⼀致度合い

    View Slide

  6. AutoVCの構成
    • 全体のネットワーク構成

    View Slide

  7. AutoVCの構成
    • ⼊⼒はメルスペクトログラム
    ソース⾳声の
    メルスペクトログラム
    ターゲット⾳声の
    メルスペクトログラム

    View Slide

  8. AutoVCの構成
    • 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)
    話者の特徴抽出
    (事前に学習しておく)
    話者の特徴抽出
    (事前に学習しておく)

    View Slide

  9. AutoVCの構成
    • ソース発話内容と話者特徴をエンコード
    発話内容のエンコード

    View Slide

  10. AutoVCの構成
    • ダウンサンプルする事で特徴の次元数を落とす
    ダウンサンプル&
    アップサンプル

    View Slide

  11. AutoVCの構成
    • ターゲットの話者特徴を加えてデコードする
    ターゲット特徴を
    Concatしてデコード

    View Slide

  12. AutoVCの学習・変換
    • 学習時はソース話者のみ出現
    • 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
    • 話者の変換を明⽰的には学習しない
    • 推論時に、ターゲット話者の特徴を利⽤

    View Slide

  13. F0による条件付け
    • AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
    • デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
    に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
    • この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
    ド時にターゲット話者の特徴と⼀緒に埋め込む
    • 256段階のone-hot+無⾳1次元分の257次元
    !"#$ =
    %#& −
    4
    pはフレーム毎のlog-F0
    u, σはpの平均・標準偏差

    View Slide

  14. 実験
    • 実験内容
    • F0の情報が適切に復元されるかを、定性的・定量的に調査
    • 実験条件
    • VCTKコーパスで学習/テストを⾏う
    • 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
    • 90%のデータを学習、10%をテストに利⽤

    View Slide

  15. 定量的評価
    • F0の分布に関する評価
    • 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
    • AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近
    くなっている
    • 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる

    View Slide

  16. 定量的評価
    • 変換前後でF0が⼀貫性を持つかを調査
    • 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
    • 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
    右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる

    View Slide

  17. ボトルネックのテストおよびF0の制御
    • 実験1:エンコーダのF0リーク検証
    • 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
    コーダのみ学習
    • エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
    事でランダムなF0が復元されていることが確認できる
    • 実験2:F0の制御の検証
    • デコーダに与えるF0をフラットにして実験
    • 復元される⾳声のF0もフラットにできる

    View Slide

  18. 定性的評価
    • Amazon Mechanical TurkでMOS評価を⾏った
    • AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
    られた
    • 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成

    View Slide

  19. まとめ
    • AutoEncoderベースでのmany-to-many⾳声変換
    • ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
    があった
    • F0の情報をデコーダに⼊れる事で上記問題を解決
    • 実験により、定量的・定性的に上記効果を検証

    View Slide