F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

Slide 1

Slide 1 text

F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore presenter: @peisuke ICASSP2020⾳響⾳声読み会

Slide 2

Slide 2 text

⾃⼰紹介名前：藤本敬介所属：ABEJA 研究：コンピュータビジョン、ロボット活動： Twitter @peisuke Github https://github.com/peisuke Qiita https://qiita.com/peisuke SlideShare https://www.slideshare.net/FujimotoKeisuke

Slide 3

Slide 3 text

概要 • タイトル • F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder • どんな論⽂？ • Auto Encoderによってメルスペクトログラムを他⼈のものに変換 • その際にF0（ピッチ）が反転してしまう場合があった問題を解決 • ⼯夫点は？ • 過去に実施したAutoVC（AEベースでの⾳声変換）に、ソース⾳声のF0を条件として与えた

Slide 4

Slide 4 text

全体の構成 • AutoVC (ICML2019)に対してF0を条件に追加 Output 変換後のメルスペクトログラム（WaveNetボコーダで⾳声に変換） Input ソース⾳声のメルスペクトログラムソース話者・ターゲット話者の⾳声特徴ソース⾳声の正規化したlog F0 ← New!!

Slide 5

Slide 5 text

AutoVCとは • AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現 1. エンコード・デコード時に話者を変えずに復元した場合（ ! , ）の復元ロス 2. 上記処理の中間復元結果 $ の復元ロス 3. 復元したメルスペクトログラムを再エンコードした特徴の⼀致度合い

Slide 6

Slide 6 text

AutoVCの構成 • 全体のネットワーク構成

Slide 7

Slide 7 text

AutoVCの構成 • ⼊⼒はメルスペクトログラムソース⾳声のメルスペクトログラムターゲット⾳声のメルスペクトログラム

Slide 8

Slide 8 text

AutoVCの構成 • 予め話者の特徴抽出機を学習しておく（Wan et al. 2018）話者の特徴抽出（事前に学習しておく）話者の特徴抽出（事前に学習しておく）

Slide 9

Slide 9 text

AutoVCの構成 • ソース発話内容と話者特徴をエンコード発話内容のエンコード

Slide 10

Slide 10 text

AutoVCの構成 • ダウンサンプルする事で特徴の次元数を落とすダウンサンプル＆アップサンプル

Slide 11

Slide 11 text

AutoVCの構成 • ターゲットの話者特徴を加えてデコードするターゲット特徴を Concatしてデコード

Slide 12

Slide 12 text

AutoVCの学習・変換 • 学習時はソース話者のみ出現 • 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元 • 話者の変換を明⽰的には学習しない • 推論時に、ターゲット話者の特徴を利⽤

Slide 13

Slide 13 text

F0による条件付け • AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある • デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込みに含まれる韻律の情報が⽭盾する結果、F0が反転すると予想 • この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコード時にターゲット話者の特徴と⼀緒に埋め込む • 256段階のone-hot＋無⾳1次元分の257次元 !"#$ = %#& − 4 pはフレーム毎のlog-F0 u, σはpの平均・標準偏差

Slide 14

Slide 14 text

実験 • 実験内容 • F0の情報が適切に復元されるかを、定性的・定量的に調査 • 実験条件 • VCTKコーパスで学習/テストを⾏う • 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験 • 90%のデータを学習、10％をテストに利⽤

Slide 15

Slide 15 text

定量的評価 • F0の分布に関する評価 • 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査 • AutoVC（上段）と⽐較し、提案⼿法（下段）の⽅がlog(F0)の分布がGTに近くなっている • 上段では２つの⼭が出来ており、⾳声が反転しているケースが確認できる

Slide 16

Slide 16 text

定量的評価 • 変換前後でF0が⼀貫性を持つかを調査 • 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成 • 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる

Slide 17

Slide 17 text

ボトルネックのテストおよびF0の制御 • 実験１：エンコーダのF0リーク検証 • 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デコーダのみ学習 • エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない事でランダムなF0が復元されていることが確認できる • 実験２：F0の制御の検証 • デコーダに与えるF0をフラットにして実験 • 復元される⾳声のF0もフラットにできる

Slide 18

Slide 18 text

定性的評価 • Amazon Mechanical TurkでMOS評価を⾏った • AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得られた • 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成

Slide 19

Slide 19 text

まとめ • AutoEncoderベースでのmany-to-many⾳声変換 • ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題があった • F0の情報をデコーダに⼊れる事で上記問題を解決 • 実験により、定量的・定性的に上記効果を検証