Interspeech2020_読み会_nakamura

91b77d9a98b86e27838b183407270bc0?s=47 Taiki Nakamura
November 20, 2020

 Interspeech2020_読み会_nakamura

Interspeech2020読み会の中村担当分資料です.

91b77d9a98b86e27838b183407270bc0?s=128

Taiki Nakamura

November 20, 2020
Tweet

Transcript

  1. An Unsupervised Method to Select a Speaker Subset from Large

    Multi-Speaker Speech Synthesis Datasets 1 Interspeech2020 音声読み会 東京大学 M1 中村泰貴
  2. /26 中村泰貴(なかむら たいき) 2 ▸ 所属 • 福島高専→東大工学部→東大院 (猿渡・小山研究室/M1) ▸

    研究分野 • 音声合成 & 声質変換 • 深層ガウス過程を用いた sequence-to-sequence 音声合成 ▸ 趣味 • ビールを飲むこと • 料理を作ること (イタリアン & 中華全般) @supikiti
  3. /26 紹介する論文 3 ▸ An Unsupervised Method to Select a

    Speaker Subset from Large Multi-Speaker Speech Synthesis Datasets • Pilar Oplustil Gallegos, Jennifer Williams, Joanna Rownicka, Simon King (Edinburgh Univ., UK) ? 3行まとめ • 大規模コーパスで学習した TTS ≒ サブセットで学習した TTS • このようなサブセットを教師なしで見つける手法を提案 • クラスタリングの際の話者特徴量として Deep Spectrum が最善
  4. 背景と研究概要 4

  5. /26 背景 5 ▸ 音声の大規模多話者データセットを用いた TTSの学習 • 様々な {品質,収録環境,話者,話し方} を含む

    • 何らかの一貫性のあるデータの使用が TTS の学習 & 性能に影響[1] ▸ TTS の学習に最適な発話あるいは話者の選定 • 話者単位の選定がより TTS の性能向上に寄与[2] • 従来の TTSモデルでは有効な選定方法について議論されている[3, 4] • 最近の sequence-to-sequence TTS において 有効な話者単位の選定を自動化する手法を提案
  6. /26 研究概要 6 ▸ 大規模音声データセット • 話者間の品質の偏りが TTS の学習結果に悪影響を及ぼす可能性 ▸

    提案法: 教師なし話者選択法 • 話者単位の音響特徴量をクラスタリングすることにより 教師なしで大規模コーパスから学習データに含める話者を選択 ▸ 結果 • 限定選択された話者を用いて学習した TTS が全話者を用いて 学習した TTS に比べ性能が向上
  7. 提案法 7

  8. /26 提案フレームワーク 8

  9. /26 提案フレームワーク 9 データの前処理を実行し88話者を選定

  10. /26 使用するデータ 10 ▸ LibriTTS[5] • 話者ごとのデータ量に偏り ▸ 発話時間が20分未満 or

    30分以上の話者を削除 ▸ 外れ値の除去 • 音響特徴量が他話者と大きく異なる話者を削除 ▸ (帯域制限された機器で収録された) 帯域幅が異常に低い話者 ▸ 88話者から成る,計33.8時間のデータを使用
  11. /26 提案フレームワーク 11 ベースライン TTS モデルは全ての話者を学習に使用

  12. /26 TTS モデルの詳細 12 ▸ 使用した TTS モデル • Deep

    Convolutional TTS (DCTTS)[8] ▸ 畳み込み層のみを用いた S2S アーキテクチャ ▸ Tacotron2 [9]と同等の性能を持ち学習が高速 ▸ DCTTS の構造 • Text2Mel (T2M): 音素列をメルスペクトログラムへ変換 ▸ T2Mの全層に話者コードを加えることで多話者化 • Spectrogram Super Resolution Network (SSRN) ▸ より高次なメルスペクトログラムへアップサンプリング
  13. /26 提案フレームワーク 13 話者ごとに特徴ベクトルを平均化

  14. /26 作成するサブセット 14 ▸ サブセットの作成方法 1. 発話ごとに特徴ベクトルを抽出し話者ごとに平均化 2. 得られた各話者の特徴ベクトル集合を教師なしクラスタリング 3.

    それぞれのクラスタを学習データとして TTS モデルを学習 1. 検証に使用する特徴ベクトル • Speaker Identity X-Vector[6] • Device Quality X-Vector • Deep Spectrum Vectors
  15. /26 特徴ベクトル 15 ▸ Speaker Identity X-Vector • VoxCeleb1 &

    2 で学習したX-Vectorモデルを使用 (EER: 3.1%) • 発話ごとの512次元を話者ごとに平均化 → それぞれの話者の話者性を表現 ▸ Device Quality X-Vector • Physical Access (PA)1 コーパスで学習したX-Vectorモデルを使用 • 学習用ラベルは {perfect, high, low, ”not replayed”} • 発話ごとの512次元を話者ごとに平均化 → それぞれの話者の録音品質を表現 1. from ASV Spoofing Challenge 2019
  16. /26 特徴ベクトル 16 ▸ Deep Spectrum Vectors • 学習済み VGG-19

    モデルの fc2 層の出力を使用 • 4096 次元のベクトルを話者ごとに平均化 → 話者性の他に別の特徴量では失われる時間と周波数ごとに 変化するノイズのようなものを捕捉できることを期待 ▸ 特徴ベクトル集合におけるクラスタリング • K-means 法 [7]による教師なしクラスタリング • クラスタ数 ▸ シルエット分析等により 3 に設定
  17. /26 提案フレームワーク 17 特徴ベクトルのクラスタリングにより話者を分割

  18. /26 図: クラスタごとの話者の重複 18 ”DS”: Deep Spectrum ベクトル “ID”: Speaker

    Identity X-Vectors “DQ”: Device Quality X-Vectors ( )内はそのクラスタが持つ話者数 ある程度均一なサイズでクラスタが形成
  19. /26 提案フレームワーク 19 クラスタに含まれる話者でTTSモデルを作成 & 学習

  20. 実験的評価 20

  21. /26 実験条件 21 ▸ 評価パターンの削減 • 特徴ベクトルごとの最適なクラスタの特定 ▸ランダムな文を入力し,T2M モデルに入力する話者コードを 変化させたとき最も安定な出力が得られるモデル

    → DS2,ID2,DQ1 のみ評価 → 主観評価 • DS2,ID2,DQ1 の全てに重複する14名の話者を使用 • (擬似) MUSHRA 法を採用 ▸ Copy Synthesis(原音声),Baseline,3手法の合成音を提示 ▸ 0-100のスコア付,リファレンスには 100 を付けるよう要望
  22. /26 主観評価結果 22 Deep Spectrum 特徴量で分けた話者で学習したTTS (33話者) > 全話者で学習したTTS (88話者)

  23. /26 主観評価結果 23 {話者類似性 (43) or 収録環境 (29)} により分けた話者で学習したTTS <

    全話者で学習したTTS (88話者)
  24. /26 合成音声 24 • [https://pilarog.github.io/] に生成された音声が掲載 • 波形生成は Griffin-Lim [10]アルゴリズムを使用

    話者 GT Baseline DS ID DQ 6927 8468
  25. /26 議論 25 ▸ Deep Spectrum 表現が最良である理由 • 発話率,録音条件,その他の話者特性をDeep Spectrumが内包

    • 汎用的であるため他のデータセットへ適用可能 ▸ うまくいかなかった他の検証 • 単一の性別からなる話者を用いたもの • ランダムな 27名 (それぞれのモデルの話者の平均数) を用いたもの ▸ クラスタ数について • クラスタ数 = 3に加え,クラスタ数 = 5でも同様の結果
  26. /26 結論 26 ▸ 3行まとめ • 大規模コーパスで学習した TTS ≒ サブセットで学習した

    TTS • このようなサブセットを教師なしで見つける手法を提案 • クラスタリングの際の話者特徴量として Deep Spectrum が最善 ▸ 今後の展望 • 最良なクラスタの選択の自動化 • Tacotron2 などの他の TTS モデルを用いた追加実験 • 別の大規模多話者コーパスを用いた追加実験
  27. /26 参考文献 27 [1] J. Williams, J. Rownicka, P. Oplustil,

    and S. King, “Comparison of Speech Representations for Automatic Quality Estimation in Multi-Speaker Text-to-Speech Synthesis,” Speaker Odyssey, 2020. [2] K.-Z. Lee and E. Cooper, “A comparison of speaker-based and utterance-based data selection for text-to-speech synthesis,” Interspeech 2018, vol. 12873, 2018. [3] R. Dall, C. Veaux, J. Yamagishi, and S. King, “Analysis of speaker clustering strategies for hmm-based speech synthesis,” in Thirteenth Annual Conference of the International Speech Communication Association, 2012. [4] A. W. Black and T. Schultz, “Speaker clustering for multilingual synthesis,” in Multilingual Speech and Language Processing, 2006. [5] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived from librispeech for textto-speech,” arXiv preprint arXiv:1904.02882, 2019. [6] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings for speaker recognition,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5329–5333. [7] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, 2011. [8] H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4784–4788.
  28. /26 参考文献 28 [9] J. Shen, R. Pang, R. J.

    Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779– 4783. [10] D. Griffin and J. Lim, “Signal estimation from modified shorttime fourier transform,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236–243, 1984.
  29. /26 捕捉 29 • 入力音素列: CMU 辞書を用いた Festival により生成 •

    発話単位のデータ選択 ▸ 元の発言と全データにより訓練されたモデルによって 合成された発言の亜大のメルケプストラム距離 (MCD) を測定 ▸ MCDが大きいものをノイズを含むとして除去