$30 off During Our Annual Pro Sale. View Details »

Interspeech2020_読み会_nakamura

Taiki Nakamura
November 20, 2020

 Interspeech2020_読み会_nakamura

Interspeech2020読み会の中村担当分資料です.

Taiki Nakamura

November 20, 2020
Tweet

More Decks by Taiki Nakamura

Other Decks in Research

Transcript

  1. An Unsupervised Method to Select
    a Speaker Subset from Large
    Multi-Speaker Speech Synthesis Datasets
    1
    Interspeech2020 音声読み会
    東京大学 M1 中村泰貴

    View Slide

  2. /26
    中村泰貴(なかむら たいき)
    2
    ▸ 所属
    • 福島高専→東大工学部→東大院 (猿渡・小山研究室/M1)
    ▸ 研究分野
    • 音声合成 & 声質変換
    • 深層ガウス過程を用いた sequence-to-sequence 音声合成
    ▸ 趣味
    • ビールを飲むこと
    • 料理を作ること (イタリアン & 中華全般)
    @supikiti

    View Slide

  3. /26
    紹介する論文
    3
    ▸ An Unsupervised Method to Select a Speaker Subset
    from Large Multi-Speaker Speech Synthesis Datasets
    • Pilar Oplustil Gallegos, Jennifer Williams, Joanna Rownicka,
    Simon King (Edinburgh Univ., UK)
    ? 3行まとめ
    • 大規模コーパスで学習した TTS ≒ サブセットで学習した TTS
    • このようなサブセットを教師なしで見つける手法を提案
    • クラスタリングの際の話者特徴量として Deep Spectrum が最善

    View Slide

  4. 背景と研究概要
    4

    View Slide

  5. /26
    背景
    5
    ▸ 音声の大規模多話者データセットを用いた TTSの学習
    • 様々な {品質,収録環境,話者,話し方} を含む
    • 何らかの一貫性のあるデータの使用が TTS の学習 & 性能に影響[1]
    ▸ TTS の学習に最適な発話あるいは話者の選定
    • 話者単位の選定がより TTS の性能向上に寄与[2]
    • 従来の TTSモデルでは有効な選定方法について議論されている[3, 4]
    • 最近の sequence-to-sequence TTS において
    有効な話者単位の選定を自動化する手法を提案

    View Slide

  6. /26
    研究概要
    6
    ▸ 大規模音声データセット
    • 話者間の品質の偏りが TTS の学習結果に悪影響を及ぼす可能性
    ▸ 提案法: 教師なし話者選択法
    • 話者単位の音響特徴量をクラスタリングすることにより
    教師なしで大規模コーパスから学習データに含める話者を選択
    ▸ 結果
    • 限定選択された話者を用いて学習した TTS が全話者を用いて
    学習した TTS に比べ性能が向上

    View Slide

  7. 提案法
    7

    View Slide

  8. /26
    提案フレームワーク
    8

    View Slide

  9. /26
    提案フレームワーク
    9
    データの前処理を実行し88話者を選定

    View Slide

  10. /26
    使用するデータ
    10
    ▸ LibriTTS[5]
    • 話者ごとのデータ量に偏り
    ▸ 発話時間が20分未満 or 30分以上の話者を削除
    ▸ 外れ値の除去
    • 音響特徴量が他話者と大きく異なる話者を削除
    ▸ (帯域制限された機器で収録された) 帯域幅が異常に低い話者
    ▸ 88話者から成る,計33.8時間のデータを使用

    View Slide

  11. /26
    提案フレームワーク
    11
    ベースライン TTS モデルは全ての話者を学習に使用

    View Slide

  12. /26
    TTS モデルの詳細
    12
    ▸ 使用した TTS モデル
    • Deep Convolutional TTS (DCTTS)[8]
    ▸ 畳み込み層のみを用いた S2S アーキテクチャ
    ▸ Tacotron2 [9]と同等の性能を持ち学習が高速
    ▸ DCTTS の構造
    • Text2Mel (T2M): 音素列をメルスペクトログラムへ変換
    ▸ T2Mの全層に話者コードを加えることで多話者化
    • Spectrogram Super Resolution Network (SSRN)
    ▸ より高次なメルスペクトログラムへアップサンプリング

    View Slide

  13. /26
    提案フレームワーク
    13
    話者ごとに特徴ベクトルを平均化

    View Slide

  14. /26
    作成するサブセット
    14
    ▸ サブセットの作成方法
    1. 発話ごとに特徴ベクトルを抽出し話者ごとに平均化
    2. 得られた各話者の特徴ベクトル集合を教師なしクラスタリング
    3. それぞれのクラスタを学習データとして TTS モデルを学習
    1. 検証に使用する特徴ベクトル
    • Speaker Identity X-Vector[6]
    • Device Quality X-Vector
    • Deep Spectrum Vectors

    View Slide

  15. /26
    特徴ベクトル
    15
    ▸ Speaker Identity X-Vector
    • VoxCeleb1 & 2 で学習したX-Vectorモデルを使用 (EER: 3.1%)
    • 発話ごとの512次元を話者ごとに平均化
    → それぞれの話者の話者性を表現
    ▸ Device Quality X-Vector
    • Physical Access (PA)1 コーパスで学習したX-Vectorモデルを使用
    • 学習用ラベルは {perfect, high, low, ”not replayed”}
    • 発話ごとの512次元を話者ごとに平均化
    → それぞれの話者の録音品質を表現
    1. from ASV Spoofing Challenge 2019

    View Slide

  16. /26
    特徴ベクトル
    16
    ▸ Deep Spectrum Vectors
    • 学習済み VGG-19 モデルの fc2 層の出力を使用
    • 4096 次元のベクトルを話者ごとに平均化
    → 話者性の他に別の特徴量では失われる時間と周波数ごとに
    変化するノイズのようなものを捕捉できることを期待
    ▸ 特徴ベクトル集合におけるクラスタリング
    • K-means 法 [7]による教師なしクラスタリング
    • クラスタ数
    ▸ シルエット分析等により 3 に設定

    View Slide

  17. /26
    提案フレームワーク
    17
    特徴ベクトルのクラスタリングにより話者を分割

    View Slide

  18. /26
    図: クラスタごとの話者の重複
    18
    ”DS”: Deep Spectrum ベクトル
    “ID”: Speaker Identity X-Vectors
    “DQ”: Device Quality X-Vectors
    ( )内はそのクラスタが持つ話者数
    ある程度均一なサイズでクラスタが形成

    View Slide

  19. /26
    提案フレームワーク
    19
    クラスタに含まれる話者でTTSモデルを作成 & 学習

    View Slide

  20. 実験的評価
    20

    View Slide

  21. /26
    実験条件
    21
    ▸ 評価パターンの削減
    • 特徴ベクトルごとの最適なクラスタの特定
    ▸ランダムな文を入力し,T2M モデルに入力する話者コードを
    変化させたとき最も安定な出力が得られるモデル
    → DS2,ID2,DQ1 のみ評価
    → 主観評価
    • DS2,ID2,DQ1 の全てに重複する14名の話者を使用
    • (擬似) MUSHRA 法を採用
    ▸ Copy Synthesis(原音声),Baseline,3手法の合成音を提示
    ▸ 0-100のスコア付,リファレンスには 100 を付けるよう要望

    View Slide

  22. /26
    主観評価結果
    22
    Deep Spectrum 特徴量で分けた話者で学習したTTS (33話者) >
    全話者で学習したTTS (88話者)

    View Slide

  23. /26
    主観評価結果
    23
    {話者類似性 (43) or 収録環境 (29)} により分けた話者で学習したTTS <
    全話者で学習したTTS (88話者)

    View Slide

  24. /26
    合成音声
    24
    • [https://pilarog.github.io/] に生成された音声が掲載
    • 波形生成は Griffin-Lim [10]アルゴリズムを使用
    話者 GT Baseline DS ID DQ
    6927
    8468

    View Slide

  25. /26
    議論
    25
    ▸ Deep Spectrum 表現が最良である理由
    • 発話率,録音条件,その他の話者特性をDeep Spectrumが内包
    • 汎用的であるため他のデータセットへ適用可能
    ▸ うまくいかなかった他の検証
    • 単一の性別からなる話者を用いたもの
    • ランダムな 27名 (それぞれのモデルの話者の平均数) を用いたもの
    ▸ クラスタ数について
    • クラスタ数 = 3に加え,クラスタ数 = 5でも同様の結果

    View Slide

  26. /26
    結論
    26
    ▸ 3行まとめ
    • 大規模コーパスで学習した TTS ≒ サブセットで学習した TTS
    • このようなサブセットを教師なしで見つける手法を提案
    • クラスタリングの際の話者特徴量として Deep Spectrum が最善
    ▸ 今後の展望
    • 最良なクラスタの選択の自動化
    • Tacotron2 などの他の TTS モデルを用いた追加実験
    • 別の大規模多話者コーパスを用いた追加実験

    View Slide

  27. /26
    参考文献
    27
    [1] J. Williams, J. Rownicka, P. Oplustil, and S. King, “Comparison of Speech Representations
    for Automatic Quality Estimation in Multi-Speaker Text-to-Speech Synthesis,” Speaker Odyssey, 2020.
    [2] K.-Z. Lee and E. Cooper, “A comparison of speaker-based and utterance-based data selection
    for text-to-speech synthesis,” Interspeech 2018, vol. 12873, 2018.
    [3] R. Dall, C. Veaux, J. Yamagishi, and S. King, “Analysis of speaker clustering strategies
    for hmm-based speech synthesis,” in Thirteenth Annual Conference of
    the International Speech Communication Association, 2012.
    [4] A. W. Black and T. Schultz, “Speaker clustering for multilingual synthesis,” in Multilingual Speech and
    Language Processing, 2006.
    [5] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived
    from librispeech for textto-speech,” arXiv preprint arXiv:1904.02882, 2019.
    [6] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddings
    for speaker recognition,” in 2018 IEEE International Conference on Acoustics,
    Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5329–5333.
    [7] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,
    V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay,
    “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, 2011.
    [8] H. Tachibana, K. Uenoyama, and S. Aihara, “Efficiently trainable text-to-speech system
    based on deep convolutional networks with guided attention,” in 2018 IEEE International Conference
    on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4784–4788.

    View Slide

  28. /26
    参考文献
    28
    [9] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan et al.,
    “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference
    on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779– 4783.
    [10] D. Griffin and J. Lim, “Signal estimation from modified shorttime fourier transform,” IEEE Transactions on Acoustics,
    Speech, and Signal Processing, vol. 32, no. 2, pp. 236–243, 1984.

    View Slide

  29. /26
    捕捉
    29
    • 入力音素列: CMU 辞書を用いた Festival により生成
    • 発話単位のデータ選択
    ▸ 元の発言と全データにより訓練されたモデルによって
    合成された発言の亜大のメルケプストラム距離 (MCD) を測定
    ▸ MCDが大きいものをノイズを含むとして除去

    View Slide