Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

橘 健太郎(LINE株式会社)音声合成における話者・スタイル表現手法の調査

Tokyo BISH Bash #04での発表資料です(2021/03/30)
https://tokyo-bish-bash.connpass.com/event/205884/

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers
PRO

March 30, 2021
Tweet

Transcript

  1. ⾳声合成における話者・スタイル表現 ⼿法の調査 Tokyo BISH Bash #04 LINE株式会社 橘健太郎 1

  2. ⾃⼰紹介 • ⽒名 • Kentaro Tachibana • 職歴 • Apr.

    2008 - Sep. 2017 : 東芝 • Oct. 2014 - Sep. 2017 : National Institute Information and Communications Technology (NICT) 出向 • Oct. 2017 - Jul. 2020 : DeNA • Aug. 2020 - present : LINE • 研究分野 • Text-to-speech (TTS), Voice Conversion (VC) and speech separation 2
  3. LINE AI Speech Video Voice NLU Data OCR Vision Face

    LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology
  4. LINE CLOVA Products CLOVA Chatbot CLOVA OCR CLOVA Voice CLOVA

    Speech CLOVA Text Analytics CLOVA Face CLOVA Assistant LINE AiCall LINE eKYC Solutions Devices CLOVA Friends CLOVA Friends mini CLOVA Desk CLOVA WAVE LINE’s AI Technology Brand
  5. 2017.3 CLOVA ൃද 2017.12 CLOVA Friends 2019.3 CLOVA Desk 2018.6

    CLOVA Friends mini 2017.10 CLOVA WAVE 2019.10 Gatebox ʢGateboxࣾʣ LINE CLOVA - Devices
  6. LINE CLOVA - Solutions

  7. ⽬次 • TTSとは︖ 1. TTSの構成モジュール 2. ⾳声合成を活⽤したプロダクト • 多様な話者・スタイルの⾳声合成 •

    多様な話者・スタイルの実現⽅法 • まとめ 7
  8. What is TTS? • TTSとは任意のテキストから⾳声を⽣成する技術 • 任意のテキストに対して、所望の声質で⾳声を⽣成できる 8 TTS 今⽇もめっちゃいい天気ですね

  9. Text Normalizer Synthesizer Vocoder Linguistic feature Acoustic feature TTSの構成モジュール 9

    ⾔語特徴量を抽出 ⾳響特徴量へ変換 ⾳声波形を⽣成 今⽇も いい天気ですね Kyooʼmo/meccha/iiteʼnki/deʼsune. 読み、アクセント句、アクセント核 F0やスペクトル等
  10. ⾳声合成を活⽤したプロダクト 10 多様な声質やスタイルへのニーズが⾼まることが ⾒込まれる スマートスピーカ オーディオブック AIアバター

  11. 多様な話者・スタイルの⾳声合成 1. ⽬標話者ごとにモデルを学習 • モデルごとに細かい調整ができるが、管理がコストが増⼤ 11 TTS 今⽇もめっちゃ いい天気ですね ・・・

  12. 多様な話者・スタイルの⾳声合成 2. All-in-oneモデル(1つのモデルで複数の話者を表現) • 各話者にあった調整難しいが、⼀つのモデルで完結するので管理が楽 12 TTS ・・・ 今⽇もめっちゃ いい天気ですね

    複数話者を1つのモデルで表現する様々な⼿法が 存在
  13. 話者表現の学習 • 話者の特徴を埋め込みベクトルで学習 • ⼀つのモデルで複数の話者やスタイルを表現可能 • 様々な学習⽅式、アルゴリズムが存在 13 Synthesizer Linguistic

    feature Acoustic feature Speaker embedding ・・・ Embedding vector loss
  14. 多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 14
  15. 多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 15
  16. 2. 話者表現モデルをTTSと同時学習 • Lookup embedding • 話者idをone-hot vector化し、lookupテーブルで表現 • LookupテーブルをTTSモデル学習時に最適化できる

    16 … 0 … 1 0 One-hot Lookup table … 0.844 0.567 0.625 Synthesizer Linguistic feature loss Speaker encoder
  17. Lookup embeddingの挿⼊⽅法・位置 1. Deep Voice 2 [1] 1. あらゆるモジュール・位置に挿⼊ 17

    Duration Frequency
  18. Lookup embeddingの挿⼊⽅法・位置 2. MultiSpeech: Multi-Speaker Text to Speech with Transformer

    • Encoder適⽤後とDecoderPrenet適⽤後に挿⼊ 18 Encoder Decoder Embedding [2]
  19. 挿⼊⽅法・位置の違いによる性能検証 • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS

    [3] • Tacotron (attention構造を持つencoder-decoderネットワーク) 19 post Cos類似度 pre attn • Encoder適⽤後とPrenet適⽤後に挿⼊する ことが良さげ Encoder Decoder
  20. Lookup embedding + fine-tuning 1. 事前に複数話者でspeaker encoderを学習 2. ⽬標話者のデータを使って、fine-tuning 20

    … Speaker encoder Synthesizer Linguistic feature loss Speaker encoder Synthesizer Linguistic feature loss Target speaker
  21. Lookup embedding + fine-tuning • SAMPLE EFFICIENT ADAPTIVE TEXT-TO-SPEECH [4]

    • Lookup embedding学習後、いくつかのfine-tuning⼿法を検討 21 Speaker encoder Speaker verificationベースの speaker encoderを利⽤: SEA-ENC Embedding vectorとvocoderを fine-tuning: SEA-ALL Embedding vectorのみfine-tuning: SEA-EMB ⾃然性 話者類似度 LibliSpeech VCTK Update parameters
  22. 1-2. スタイル表現を学習 • Style Tokens: Unsupervised Style Modeling, Control and

    Transfer in End- to-End Speech Synthesis Training (Tacotron-GST) [5] • 話速、styleを制御するため、Style tokenを導⼊ • Audio-book読み上げなど表現⼒を伴う応⽤に対応することが⽬的 • ⾳声から表現空間をdata drivenで⾃動学習 • 推論時は、参照⾳声もしくはstyle空間からサンプルすることでstyleを獲得できる Melspec.
  23. Tacotron-GSTの主観評価 • Preferenceテスト • Audiobook 単⼀話者モデル • BASE: vanilla Tacotron

    • 評価基準によっては、GSTに有意差あり 23 参照信号
  24. 1-3. 話者 + スタイルの表現を獲得 • HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE

    SPEECH SYNTHESIS (GMVAE-Tacotron) [6] • Latent encoderとobserved encoderで話者情報を条件づけ • Latent encoder: スタイル、observed encoder: 話者idに相当 • Observed encoderの分散は、latent encoderより⼩さく制約をかけることで、普 遍的な情報(話者id)を学習するように促す • Latent encoderは韻律や環境情報といったスタイルを表現 • アーキテクチャはCNN x 2 → biLSTM x 2 → pooling → FC → mean, std 24 話者id スタイル
  25. GMVAE-Tacotronの主観評価結果 1. 複数話者モデル 1. MOS評価は無し Demo: https://google.github.io/tacotron/publications/gmvae_controllable_tts/ 2. ノイズ +

    クリーン環境 • Baseline = lookup embedding • ⽐較⼿法⾼い⾃然性を達成 25
  26. GMVAE-Tacotronの主観評価結果 3. CROWD-SOURCED AUDIOBOOK CORPUS • 利⽤データデータセット: LibriVox 有志が投稿できるオーディオブックサイト •

    複数のサブデータセットを扱える 26 ⾃然性 話者類似度 SC: Seen Clean UN: Unseen Noisy SN: Seen Noisy UC: Unseen Clean
  27. 話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 27
  28. Speaker verificationとSpeaker recognitionの違い • Speaker verification (話者照合) • Speaker authentication

    (話者認証) とも⾔う • ある⼈物が本⼈の主張している通りの個⼈であるかを照合/認証 • Speaker recognition (話者認識) • Speaker identification (話者識別) とも⾔う • 誰だかわからない声を誰のものか識別 28 Speaker verification or not Speaker recognition … …
  29. 2-1. Speaker verification • Transfer learning from speaker verification to

    multispeaker text- to-speech synthesis [7] • Generalized end-to-end (GE2E) lossを⽤いた話者認証アルゴリズムを採⽤ • GE2E loss: Cos類似度規範で、対象話者の埋め込みベクトルがcentroidに近づき、 他話者のcentroidからは遠ざかるようにlossを設計 29 : centroid : vector
  30. 2-1. Speaker verification • パイプライン 30 話者埋め込みのt-SNE • 各話者が遠ざかり、同じ話者の発話が近づいて いることが確認できる

  31. 2-1. Speaker verification • 主観評価 • SeenでLookup embeddingとほぼ同等の性能 • Unseenでも性能劣化は⾒られない

    31 ⾃然性 話者類似度
  32. • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS [3]

    • Speaker recognitionタスクで有名なx-vectorが⽤いられる • X-vectorのアーキテクチャ: Time delay neural network (TDNN)を利⽤ • ResNet34が使われているよう 2-2. Speaker recognition 32 Ref: https://github.com/cvqluu/TDNN TDNN TDNN Softmax Pooling x 5 FC x 2 CE loss X-vectorのアーキテクチャ Speaker embedding vector として利⽤
  33. 2-3. Subjective Inter-speaker Similarity • DNN-based Speaker Embedding Using Subjective

    Inter- speaker Similarity for Multi-speaker Modeling in Speech Synthesis [8] • 2話者間の相対的知覚類似度を主観評価した結果を利⽤ 33 d-vector Proposed ⾃然性 0.428 0.572 話者類似度 0.426 0.574 Preference scores
  34. 話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 34
  35. 1.と2.のHybrid • INVESTIGATING ON INCORPORATING PRETRAINED AND LEARNABLE SPEAKER REPRESENTATIONS

    FOR MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH [9] • Pretrained speaker representation model (PSR)、speaker embedding、GSTを組み合 わせた • PSR(d-vector、x-vector、VAEベース)の性能検証 35
  36. 話者表現⼿法の性能⽐較 36 • 客観評価 1. PretrainedではTacotron2、FastSpeech2 ともに、VC (VAEベース) が精度が良い 2.

    Pretrainedとlearnableを組み合わせると さらに改善する 3. Learnableに関してもEmbed + GSTの組み合 わせが良い
  37. 話者表現⼿法の性能⽐較 • Track2の話者での主観評価 • 客観評価とは異なる傾向に • 話者埋め込み空間 37 SV accuracy

    .623 .837 .490 .937 再掲 • 個⼈的考察 • x-vector vs. VC • VCは話者同⼠が密 • ⾃然性︓補完しあい、 品質向上。 • 話者性︓混ざってしまい劣化
  38. まとめ • ⾳声合成において、多様な話者を表現するための⼿法を紹介 • 話者表現は事前学習モデルを⽤いるより、TTSと同時学習の⽅ が精度良い傾向 • ⽬標話者の⾳声があるなら、 各モデルでtuning: lookup

    embedding + fine-tuning All-in-one: GMVAE-Tacotron を試すのが良さそう 38
  39. 参考⽂献 [1] Arik, Sercan, et al. "Deep voice 2: Multi-speaker

    neural text-to-speech." arXiv preprint arXiv:1705.08947 (2017). [2] Chen, Mingjian, et al. "MultiSpeech: Multi-speaker text to speech with transformer." arXiv preprint arXiv:2006.04664 (2020). [3] Cooper, Erica, et al. "Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. [4] Chen, Yutian, et al. "Sample efficient adaptive text-to-speech." arXiv preprint arXiv:1809.10460 (2018). [5] Wang, Yuxuan, et al. "Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis." International Conference on Machine Learning. PMLR, 2018. [6] Hsu, Wei-Ning, et al. "Hierarchical generative modeling for controllable speech synthesis." arXiv preprint arXiv:1810.07217 (2018). [7] Jia, Ye, et al. "Transfer learning from speaker verification to multispeaker text-to-speech synthesis." arXiv preprint arXiv:1806.04558 (2018). [8] Saito, Yuki, Shinnosuke Takamichi, and Hiroshi Saruwatari. "DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech Synthesis." arXiv preprint arXiv:1907.08294 (2019). [9] Chien, Chung-Ming, et al. "Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech." arXiv preprint arXiv:2103.04088 (2021). 39