Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声合成における話者・スタイル表現手法の調査 / A survey of speaker an...

音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

橘 健太郎(LINE株式会社)音声合成における話者・スタイル表現手法の調査

Tokyo BISH Bash #04での発表資料です(2021/03/30)
https://tokyo-bish-bash.connpass.com/event/205884/

LINE Developers

March 30, 2021
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 • ⽒名 • Kentaro Tachibana • 職歴 • Apr.

    2008 - Sep. 2017 : 東芝 • Oct. 2014 - Sep. 2017 : National Institute Information and Communications Technology (NICT) 出向 • Oct. 2017 - Jul. 2020 : DeNA • Aug. 2020 - present : LINE • 研究分野 • Text-to-speech (TTS), Voice Conversion (VC) and speech separation 2
  2. LINE AI Speech Video Voice NLU Data OCR Vision Face

    LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology
  3. LINE CLOVA Products CLOVA Chatbot CLOVA OCR CLOVA Voice CLOVA

    Speech CLOVA Text Analytics CLOVA Face CLOVA Assistant LINE AiCall LINE eKYC Solutions Devices CLOVA Friends CLOVA Friends mini CLOVA Desk CLOVA WAVE LINE’s AI Technology Brand
  4. 2017.3 CLOVA ൃද 2017.12 CLOVA Friends 2019.3 CLOVA Desk 2018.6

    CLOVA Friends mini 2017.10 CLOVA WAVE 2019.10 Gatebox ʢGateboxࣾʣ LINE CLOVA - Devices
  5. Text Normalizer Synthesizer Vocoder Linguistic feature Acoustic feature TTSの構成モジュール 9

    ⾔語特徴量を抽出 ⾳響特徴量へ変換 ⾳声波形を⽣成 今⽇も いい天気ですね Kyooʼmo/meccha/iiteʼnki/deʼsune. 読み、アクセント句、アクセント核 F0やスペクトル等
  6. 多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 14
  7. 多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 15
  8. Lookup embeddingの挿⼊⽅法・位置 2. MultiSpeech: Multi-Speaker Text to Speech with Transformer

    • Encoder適⽤後とDecoderPrenet適⽤後に挿⼊ 18 Encoder Decoder Embedding [2]
  9. 挿⼊⽅法・位置の違いによる性能検証 • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS

    [3] • Tacotron (attention構造を持つencoder-decoderネットワーク) 19 post Cos類似度 pre attn • Encoder適⽤後とPrenet適⽤後に挿⼊する ことが良さげ Encoder Decoder
  10. Lookup embedding + fine-tuning 1. 事前に複数話者でspeaker encoderを学習 2. ⽬標話者のデータを使って、fine-tuning 20

    … Speaker encoder Synthesizer Linguistic feature loss Speaker encoder Synthesizer Linguistic feature loss Target speaker
  11. Lookup embedding + fine-tuning • SAMPLE EFFICIENT ADAPTIVE TEXT-TO-SPEECH [4]

    • Lookup embedding学習後、いくつかのfine-tuning⼿法を検討 21 Speaker encoder Speaker verificationベースの speaker encoderを利⽤: SEA-ENC Embedding vectorとvocoderを fine-tuning: SEA-ALL Embedding vectorのみfine-tuning: SEA-EMB ⾃然性 話者類似度 LibliSpeech VCTK Update parameters
  12. 1-2. スタイル表現を学習 • Style Tokens: Unsupervised Style Modeling, Control and

    Transfer in End- to-End Speech Synthesis Training (Tacotron-GST) [5] • 話速、styleを制御するため、Style tokenを導⼊ • Audio-book読み上げなど表現⼒を伴う応⽤に対応することが⽬的 • ⾳声から表現空間をdata drivenで⾃動学習 • 推論時は、参照⾳声もしくはstyle空間からサンプルすることでstyleを獲得できる Melspec.
  13. 1-3. 話者 + スタイルの表現を獲得 • HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE

    SPEECH SYNTHESIS (GMVAE-Tacotron) [6] • Latent encoderとobserved encoderで話者情報を条件づけ • Latent encoder: スタイル、observed encoder: 話者idに相当 • Observed encoderの分散は、latent encoderより⼩さく制約をかけることで、普 遍的な情報(話者id)を学習するように促す • Latent encoderは韻律や環境情報といったスタイルを表現 • アーキテクチャはCNN x 2 → biLSTM x 2 → pooling → FC → mean, std 24 話者id スタイル
  14. GMVAE-Tacotronの主観評価結果 3. CROWD-SOURCED AUDIOBOOK CORPUS • 利⽤データデータセット: LibriVox 有志が投稿できるオーディオブックサイト •

    複数のサブデータセットを扱える 26 ⾃然性 話者類似度 SC: Seen Clean UN: Unseen Noisy SN: Seen Noisy UC: Unseen Clean
  15. 話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 27
  16. Speaker verificationとSpeaker recognitionの違い • Speaker verification (話者照合) • Speaker authentication

    (話者認証) とも⾔う • ある⼈物が本⼈の主張している通りの個⼈であるかを照合/認証 • Speaker recognition (話者認識) • Speaker identification (話者識別) とも⾔う • 誰だかわからない声を誰のものか識別 28 Speaker verification or not Speaker recognition … …
  17. 2-1. Speaker verification • Transfer learning from speaker verification to

    multispeaker text- to-speech synthesis [7] • Generalized end-to-end (GE2E) lossを⽤いた話者認証アルゴリズムを採⽤ • GE2E loss: Cos類似度規範で、対象話者の埋め込みベクトルがcentroidに近づき、 他話者のcentroidからは遠ざかるようにlossを設計 29 : centroid : vector
  18. • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS [3]

    • Speaker recognitionタスクで有名なx-vectorが⽤いられる • X-vectorのアーキテクチャ: Time delay neural network (TDNN)を利⽤ • ResNet34が使われているよう 2-2. Speaker recognition 32 Ref: https://github.com/cvqluu/TDNN TDNN TDNN Softmax Pooling x 5 FC x 2 CE loss X-vectorのアーキテクチャ Speaker embedding vector として利⽤
  19. 2-3. Subjective Inter-speaker Similarity • DNN-based Speaker Embedding Using Subjective

    Inter- speaker Similarity for Multi-speaker Modeling in Speech Synthesis [8] • 2話者間の相対的知覚類似度を主観評価した結果を利⽤ 33 d-vector Proposed ⾃然性 0.428 0.572 話者類似度 0.426 0.574 Preference scores
  20. 話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

    embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 34
  21. 1.と2.のHybrid • INVESTIGATING ON INCORPORATING PRETRAINED AND LEARNABLE SPEAKER REPRESENTATIONS

    FOR MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH [9] • Pretrained speaker representation model (PSR)、speaker embedding、GSTを組み合 わせた • PSR(d-vector、x-vector、VAEベース)の性能検証 35
  22. 話者表現⼿法の性能⽐較 36 • 客観評価 1. PretrainedではTacotron2、FastSpeech2 ともに、VC (VAEベース) が精度が良い 2.

    Pretrainedとlearnableを組み合わせると さらに改善する 3. Learnableに関してもEmbed + GSTの組み合 わせが良い
  23. 話者表現⼿法の性能⽐較 • Track2の話者での主観評価 • 客観評価とは異なる傾向に • 話者埋め込み空間 37 SV accuracy

    .623 .837 .490 .937 再掲 • 個⼈的考察 • x-vector vs. VC • VCは話者同⼠が密 • ⾃然性︓補完しあい、 品質向上。 • 話者性︓混ざってしまい劣化
  24. 参考⽂献 [1] Arik, Sercan, et al. "Deep voice 2: Multi-speaker

    neural text-to-speech." arXiv preprint arXiv:1705.08947 (2017). [2] Chen, Mingjian, et al. "MultiSpeech: Multi-speaker text to speech with transformer." arXiv preprint arXiv:2006.04664 (2020). [3] Cooper, Erica, et al. "Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. [4] Chen, Yutian, et al. "Sample efficient adaptive text-to-speech." arXiv preprint arXiv:1809.10460 (2018). [5] Wang, Yuxuan, et al. "Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis." International Conference on Machine Learning. PMLR, 2018. [6] Hsu, Wei-Ning, et al. "Hierarchical generative modeling for controllable speech synthesis." arXiv preprint arXiv:1810.07217 (2018). [7] Jia, Ye, et al. "Transfer learning from speaker verification to multispeaker text-to-speech synthesis." arXiv preprint arXiv:1806.04558 (2018). [8] Saito, Yuki, Shinnosuke Takamichi, and Hiroshi Saruwatari. "DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech Synthesis." arXiv preprint arXiv:1907.08294 (2019). [9] Chien, Chung-Ming, et al. "Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech." arXiv preprint arXiv:2103.04088 (2021). 39