Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore presenter: @peisuke ICASSP2020⾳響⾳声読み会
Slide 2
Slide 2 text
⾃⼰紹介 名前:藤本 敬介 所属:ABEJA 研究:コンピュータビジョン、ロボット 活動: Twitter @peisuke Github https://github.com/peisuke Qiita https://qiita.com/peisuke SlideShare https://www.slideshare.net/FujimotoKeisuke
Slide 3
Slide 3 text
概要 • タイトル • F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder • どんな論⽂? • Auto Encoderによってメルスペクトログラムを他⼈のものに変換 • その際にF0(ピッチ)が反転してしまう場合があった問題を解決 • ⼯夫点は? • 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件 として与えた
Slide 4
Slide 4 text
全体の構成 • AutoVC (ICML2019)に対してF0を条件に追加 Output 変換後のメルスペクトログラム (WaveNetボコーダで⾳声に変換) Input ソース⾳声のメルスペクトログラム ソース話者・ターゲット話者の⾳声特徴 ソース⾳声の正規化したlog F0 ← New!!
Slide 5
Slide 5 text
AutoVCとは • AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現 1. エンコード・デコード時に話者を変えずに 復元した場合( ! , )の復元ロス 2. 上記処理の中間復元結果 $ の復元ロス 3. 復元したメルスペクトログラムを再エン コードした特徴の⼀致度合い
Slide 6
Slide 6 text
AutoVCの構成 • 全体のネットワーク構成
Slide 7
Slide 7 text
AutoVCの構成 • ⼊⼒はメルスペクトログラム ソース⾳声の メルスペクトログラム ターゲット⾳声の メルスペクトログラム
Slide 8
Slide 8 text
AutoVCの構成 • 予め話者の特徴抽出機を学習しておく(Wan et al. 2018) 話者の特徴抽出 (事前に学習しておく) 話者の特徴抽出 (事前に学習しておく)
Slide 9
Slide 9 text
AutoVCの構成 • ソース発話内容と話者特徴をエンコード 発話内容のエンコード
Slide 10
Slide 10 text
AutoVCの構成 • ダウンサンプルする事で特徴の次元数を落とす ダウンサンプル& アップサンプル
Slide 11
Slide 11 text
AutoVCの構成 • ターゲットの話者特徴を加えてデコードする ターゲット特徴を Concatしてデコード
Slide 12
Slide 12 text
AutoVCの学習・変換 • 学習時はソース話者のみ出現 • 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元 • 話者の変換を明⽰的には学習しない • 推論時に、ターゲット話者の特徴を利⽤
Slide 13
Slide 13 text
F0による条件付け • AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある • デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想 • この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー ド時にターゲット話者の特徴と⼀緒に埋め込む • 256段階のone-hot+無⾳1次元分の257次元 !"#$ = %#& − 4 pはフレーム毎のlog-F0 u, σはpの平均・標準偏差
Slide 14
Slide 14 text
実験 • 実験内容 • F0の情報が適切に復元されるかを、定性的・定量的に調査 • 実験条件 • VCTKコーパスで学習/テストを⾏う • 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験 • 90%のデータを学習、10%をテストに利⽤
Slide 15
Slide 15 text
定量的評価 • F0の分布に関する評価 • 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査 • AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近 くなっている • 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
Slide 16
Slide 16 text
定量的評価 • 変換前後でF0が⼀貫性を持つかを調査 • 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成 • 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、 右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
Slide 17
Slide 17 text
ボトルネックのテストおよびF0の制御 • 実験1:エンコーダのF0リーク検証 • 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ コーダのみ学習 • エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない 事でランダムなF0が復元されていることが確認できる • 実験2:F0の制御の検証 • デコーダに与えるF0をフラットにして実験 • 復元される⾳声のF0もフラットにできる
Slide 18
Slide 18 text
定性的評価 • Amazon Mechanical TurkでMOS評価を⾏った • AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得 られた • 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
Slide 19
Slide 19 text
まとめ • AutoEncoderベースでのmany-to-many⾳声変換 • ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題 があった • F0の情報をデコーダに⼊れる事で上記問題を解決 • 実験により、定量的・定性的に上記効果を検証