Interspeech2020_読み会_nakamura

An Unsupervised Method to Select a Speaker Subset from Large
Multi-Speaker Speech Synthesis Datasets 1 Interspeech2020 音声読み会東京大学 M1 中村泰貴

/26 中村泰貴(なかむらたいき) 2 ▸ 所属 • 福島高専→東大工学部→東大院 (猿渡・小山研究室/M1) ▸
研究分野 • 音声合成 & 声質変換 • 深層ガウス過程を用いた sequence-to-sequence 音声合成 ▸ 趣味 • ビールを飲むこと • 料理を作ること (イタリアン & 中華全般) @supikiti

/26 紹介する論文 3 ▸ An Unsupervised Method to Select a
Speaker Subset from Large Multi-Speaker Speech Synthesis Datasets • Pilar Oplustil Gallegos, Jennifer Williams, Joanna Rownicka, Simon King (Edinburgh Univ., UK) ？ 3行まとめ • 大規模コーパスで学習した TTS ≒ サブセットで学習した TTS • このようなサブセットを教師なしで見つける手法を提案 • クラスタリングの際の話者特徴量として Deep Spectrum が最善

背景と研究概要 4

/26 背景 5 ▸ 音声の大規模多話者データセットを用いた TTSの学習 • 様々な {品質，収録環境，話者，話し方} を含む
• 何らかの一貫性のあるデータの使用が TTS の学習 & 性能に影響[1] ▸ TTS の学習に最適な発話あるいは話者の選定 • 話者単位の選定がより TTS の性能向上に寄与[2] • 従来の TTSモデルでは有効な選定方法について議論されている[3, 4] • 最近の sequence-to-sequence TTS において有効な話者単位の選定を自動化する手法を提案

/26 研究概要 6 ▸ 大規模音声データセット • 話者間の品質の偏りが TTS の学習結果に悪影響を及ぼす可能性 ▸
提案法: 教師なし話者選択法 • 話者単位の音響特徴量をクラスタリングすることにより教師なしで大規模コーパスから学習データに含める話者を選択 ▸ 結果 • 限定選択された話者を用いて学習した TTS が全話者を用いて学習した TTS に比べ性能が向上

提案法 7

/26 提案フレームワーク 8

/26 提案フレームワーク 9 データの前処理を実行し88話者を選定

/26 使用するデータ 10 ▸ LibriTTS[5] • 話者ごとのデータ量に偏り ▸ 発話時間が20分未満 or
30分以上の話者を削除 ▸ 外れ値の除去 • 音響特徴量が他話者と大きく異なる話者を削除 ▸ (帯域制限された機器で収録された) 帯域幅が異常に低い話者 ▸ 88話者から成る，計33.8時間のデータを使用

/26 提案フレームワーク 11 ベースライン TTS モデルは全ての話者を学習に使用

/26 TTS モデルの詳細 12 ▸ 使用した TTS モデル • Deep
Convolutional TTS (DCTTS)[8] ▸ 畳み込み層のみを用いた S2S アーキテクチャ ▸ Tacotron2 [9]と同等の性能を持ち学習が高速 ▸ DCTTS の構造 • Text2Mel (T2M): 音素列をメルスペクトログラムへ変換 ▸ T2Mの全層に話者コードを加えることで多話者化 • Spectrogram Super Resolution Network (SSRN) ▸ より高次なメルスペクトログラムへアップサンプリング

/26 提案フレームワーク 13 話者ごとに特徴ベクトルを平均化

/26 作成するサブセット 14 ▸ サブセットの作成方法 1. 発話ごとに特徴ベクトルを抽出し話者ごとに平均化 2. 得られた各話者の特徴ベクトル集合を教師なしクラスタリング 3.
それぞれのクラスタを学習データとして TTS モデルを学習 1. 検証に使用する特徴ベクトル • Speaker Identity X-Vector[6] • Device Quality X-Vector • Deep Spectrum Vectors

/26 特徴ベクトル 15 ▸ Speaker Identity X-Vector • VoxCeleb1 &
2 で学習したX-Vectorモデルを使用 (EER: 3.1%) • 発話ごとの512次元を話者ごとに平均化 → それぞれの話者の話者性を表現 ▸ Device Quality X-Vector • Physical Access (PA)1 コーパスで学習したX-Vectorモデルを使用 • 学習用ラベルは {perfect, high, low, ”not replayed”} • 発話ごとの512次元を話者ごとに平均化 → それぞれの話者の録音品質を表現 1. from ASV Spoofing Challenge 2019

/26 特徴ベクトル 16 ▸ Deep Spectrum Vectors • 学習済み VGG-19
モデルの fc2 層の出力を使用 • 4096 次元のベクトルを話者ごとに平均化 → 話者性の他に別の特徴量では失われる時間と周波数ごとに変化するノイズのようなものを捕捉できることを期待 ▸ 特徴ベクトル集合におけるクラスタリング • K-means 法 [7]による教師なしクラスタリング • クラスタ数 ▸ シルエット分析等により 3 に設定

/26 提案フレームワーク 17 特徴ベクトルのクラスタリングにより話者を分割

/26 図: クラスタごとの話者の重複 18 ”DS”: Deep Spectrum ベクトル “ID”: Speaker
Identity X-Vectors “DQ”: Device Quality X-Vectors ( )内はそのクラスタが持つ話者数ある程度均一なサイズでクラスタが形成

/26 提案フレームワーク 19 クラスタに含まれる話者でTTSモデルを作成 & 学習

実験的評価 20

/26 実験条件 21 ▸ 評価パターンの削減 • 特徴ベクトルごとの最適なクラスタの特定 ▸ランダムな文を入力し，T2M モデルに入力する話者コードを変化させたとき最も安定な出力が得られるモデル
→ DS2，ID2，DQ1 のみ評価 → 主観評価 • DS2，ID2，DQ1 の全てに重複する14名の話者を使用 • (擬似) MUSHRA 法を採用 ▸ Copy Synthesis(原音声)，Baseline，3手法の合成音を提示 ▸ 0-100のスコア付，リファレンスには 100 を付けるよう要望

/26 主観評価結果 22 Deep Spectrum 特徴量で分けた話者で学習したTTS (33話者) > 全話者で学習したTTS (88話者)

/26 主観評価結果 23 {話者類似性 (43) or 収録環境 (29)} により分けた話者で学習したTTS <
全話者で学習したTTS (88話者)

/26 合成音声 24 • [https://pilarog.github.io/] に生成された音声が掲載 • 波形生成は Griffin-Lim [10]アルゴリズムを使用
話者 GT Baseline DS ID DQ 6927 8468

/26 議論 25 ▸ Deep Spectrum 表現が最良である理由 • 発話率，録音条件，その他の話者特性をDeep Spectrumが内包
• 汎用的であるため他のデータセットへ適用可能 ▸ うまくいかなかった他の検証 • 単一の性別からなる話者を用いたもの • ランダムな 27名 (それぞれのモデルの話者の平均数) を用いたもの ▸ クラスタ数について • クラスタ数 = 3に加え，クラスタ数 = 5でも同様の結果

/26 結論 26 ▸ 3行まとめ • 大規模コーパスで学習した TTS ≒ サブセットで学習した
TTS • このようなサブセットを教師なしで見つける手法を提案 • クラスタリングの際の話者特徴量として Deep Spectrum が最善 ▸ 今後の展望 • 最良なクラスタの選択の自動化 • Tacotron2 などの他の TTS モデルを用いた追加実験 • 別の大規模多話者コーパスを用いた追加実験

/26 参考文献 27 [1] J. Williams, J. Rownicka, P. Oplustil,
and S. King, “Comparison of Speech Representations for Automatic Quality Estimation in Multi-Speaker Text-to-Speech Synthesis,” Speaker Odyssey, 2020. [2] K.-Z. Lee and E. Cooper, “A comparison of speaker-based and utterance-based data selection for text-to-speech synthesis,” Interspeech 2018, vol. 12873, 2018. [3] R. Dall, C. Veaux, J. Yamagishi, and S. King, “Analysis of speaker clustering strategies for hmm-based speech synthesis,” in Thirteenth Annual Conference of the International Speech Communication Association, 2012. [4] A. W. Black and T. Schultz, “Speaker clustering for multilingual synthesis,” in Multilingual Speech and Language Processing, 2006. [5] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived from librispeech for textto-speech,” arXiv preprint arXiv:1904.02882, 2019. [6] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings for speaker recognition,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5329–5333. [7] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, 2011. [8] H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4784–4788.

/26 参考文献 28 [9] J. Shen, R. Pang, R. J.
Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779– 4783. [10] D. Griffin and J. Lim, “Signal estimation from modified shorttime fourier transform,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236–243, 1984.

/26 捕捉 29 • 入力音素列: CMU 辞書を用いた Festival により生成 •
発話単位のデータ選択 ▸ 元の発言と全データにより訓練されたモデルによって合成された発言の亜大のメルケプストラム距離 (MCD) を測定 ▸ MCDが大きいものをノイズを含むとして除去

Interspeech2020_読み会_nakamura

Interspeech2020_読み会_nakamura

Taiki Nakamura

More Decks by Taiki Nakamura

Other Decks in Research

Featured

Transcript

An Unsupervised Method to Select a Speaker Subset from Large

/26 中村泰貴(なかむらたいき) 2 ▸ 所属 • 福島高専→東大工学部→東大院 (猿渡・小山研究室/M1) ▸

/26 紹介する論文 3 ▸ An Unsupervised Method to Select a

背景と研究概要 4

/26 背景 5 ▸ 音声の大規模多話者データセットを用いた TTSの学習 • 様々な {品質，収録環境，話者，話し方} を含む

/26 研究概要 6 ▸ 大規模音声データセット • 話者間の品質の偏りが TTS の学習結果に悪影響を及ぼす可能性 ▸

提案法 7

/26 提案フレームワーク 8

/26 提案フレームワーク 9 データの前処理を実行し88話者を選定

/26 使用するデータ 10 ▸ LibriTTS[5] • 話者ごとのデータ量に偏り ▸ 発話時間が20分未満 or

/26 提案フレームワーク 11 ベースライン TTS モデルは全ての話者を学習に使用

/26 TTS モデルの詳細 12 ▸ 使用した TTS モデル • Deep

/26 提案フレームワーク 13 話者ごとに特徴ベクトルを平均化

/26 作成するサブセット 14 ▸ サブセットの作成方法 1. 発話ごとに特徴ベクトルを抽出し話者ごとに平均化 2. 得られた各話者の特徴ベクトル集合を教師なしクラスタリング 3.

/26 特徴ベクトル 15 ▸ Speaker Identity X-Vector • VoxCeleb1 &

/26 特徴ベクトル 16 ▸ Deep Spectrum Vectors • 学習済み VGG-19

/26 提案フレームワーク 17 特徴ベクトルのクラスタリングにより話者を分割

/26 図: クラスタごとの話者の重複 18 ”DS”: Deep Spectrum ベクトル “ID”: Speaker

/26 提案フレームワーク 19 クラスタに含まれる話者でTTSモデルを作成 & 学習

実験的評価 20

/26 実験条件 21 ▸ 評価パターンの削減 • 特徴ベクトルごとの最適なクラスタの特定 ▸ランダムな文を入力し，T2M モデルに入力する話者コードを変化させたとき最も安定な出力が得られるモデル

/26 主観評価結果 22 Deep Spectrum 特徴量で分けた話者で学習したTTS (33話者) > 全話者で学習したTTS (88話者)

/26 主観評価結果 23 {話者類似性 (43) or 収録環境 (29)} により分けた話者で学習したTTS <

/26 合成音声 24 • [https://pilarog.github.io/] に生成された音声が掲載 • 波形生成は Griffin-Lim [10]アルゴリズムを使用

/26 議論 25 ▸ Deep Spectrum 表現が最良である理由 • 発話率，録音条件，その他の話者特性をDeep Spectrumが内包

/26 結論 26 ▸ 3行まとめ • 大規模コーパスで学習した TTS ≒ サブセットで学習した

/26 参考文献 27 [1] J. Williams, J. Rownicka, P. Oplustil,

/26 参考文献 28 [9] J. Shen, R. Pang, R. J.

/26 捕捉 29 • 入力音素列: CMU 辞書を用いた Festival により生成 •