音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

by LINE Developers

Slide 1

Slide 1 text

⾳声合成における話者・スタイル表現⼿法の調査 Tokyo BISH Bash #04 LINE株式会社橘健太郎 1

Slide 2

Slide 2 text

⾃⼰紹介 • ⽒名 • Kentaro Tachibana • 職歴 • Apr. 2008 - Sep. 2017 : 東芝 • Oct. 2014 - Sep. 2017 : National Institute Information and Communications Technology (NICT) 出向 • Oct. 2017 - Jul. 2020 : DeNA • Aug. 2020 - present : LINE • 研究分野 • Text-to-speech (TTS), Voice Conversion (VC) and speech separation 2

Slide 3

Slide 3 text

LINE AI Speech Video Voice NLU Data OCR Vision Face LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology

Slide 4

Slide 4 text

LINE CLOVA Products CLOVA Chatbot CLOVA OCR CLOVA Voice CLOVA Speech CLOVA Text Analytics CLOVA Face CLOVA Assistant LINE AiCall LINE eKYC Solutions Devices CLOVA Friends CLOVA Friends mini CLOVA Desk CLOVA WAVE LINE’s AI Technology Brand

Slide 5

Slide 5 text

2017.3 CLOVA ൃද 2017.12 CLOVA Friends 2019.3 CLOVA Desk 2018.6 CLOVA Friends mini 2017.10 CLOVA WAVE 2019.10 Gatebox ʢGateboxࣾʣ LINE CLOVA - Devices

Slide 6

Slide 6 text

LINE CLOVA - Solutions

Slide 7

Slide 7 text

⽬次 • TTSとは︖ 1. TTSの構成モジュール 2. ⾳声合成を活⽤したプロダクト • 多様な話者・スタイルの⾳声合成 • 多様な話者・スタイルの実現⽅法 • まとめ 7

Slide 8

Slide 8 text

What is TTS? • TTSとは任意のテキストから⾳声を⽣成する技術 • 任意のテキストに対して、所望の声質で⾳声を⽣成できる 8 TTS 今⽇もめっちゃいい天気ですね

Slide 9

Slide 9 text

Text Normalizer Synthesizer Vocoder Linguistic feature Acoustic feature TTSの構成モジュール 9 ⾔語特徴量を抽出⾳響特徴量へ変換⾳声波形を⽣成今⽇もいい天気ですね Kyooʼmo/meccha/iiteʼnki/deʼsune. 読み、アクセント句、アクセント核 F0やスペクトル等

Slide 10

Slide 10 text

⾳声合成を活⽤したプロダクト 10 多様な声質やスタイルへのニーズが⾼まることが⾒込まれるスマートスピーカオーディオブック AIアバター

Slide 11

Slide 11 text

多様な話者・スタイルの⾳声合成 1. ⽬標話者ごとにモデルを学習 • モデルごとに細かい調整ができるが、管理がコストが増⼤ 11 TTS 今⽇もめっちゃいい天気ですね・・・

Slide 12

Slide 12 text

多様な話者・スタイルの⾳声合成 2. All-in-oneモデル（1つのモデルで複数の話者を表現） • 各話者にあった調整難しいが、⼀つのモデルで完結するので管理が楽 12 TTS ・・・今⽇もめっちゃいい天気ですね複数話者を１つのモデルで表現する様々な⼿法が存在

Slide 13

Slide 13 text

話者表現の学習 • 話者の特徴を埋め込みベクトルで学習 • ⼀つのモデルで複数の話者やスタイルを表現可能 • 様々な学習⽅式、アルゴリズムが存在 13 Synthesizer Linguistic feature Acoustic feature Speaker embedding ・・・ Embedding vector loss

Slide 14

Slide 14 text

多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 14

Slide 15

Slide 15 text

Slide 16

Slide 16 text

2. 話者表現モデルをTTSと同時学習 • Lookup embedding • 話者idをone-hot vector化し、lookupテーブルで表現 • LookupテーブルをTTSモデル学習時に最適化できる 16 … 0 … 1 0 One-hot Lookup table … 0.844 0.567 0.625 Synthesizer Linguistic feature loss Speaker encoder

Slide 17

Slide 17 text

Lookup embeddingの挿⼊⽅法・位置 1. Deep Voice 2 [1] 1. あらゆるモジュール・位置に挿⼊ 17 Duration Frequency

Slide 18

Slide 18 text

Lookup embeddingの挿⼊⽅法・位置 2. MultiSpeech: Multi-Speaker Text to Speech with Transformer • Encoder適⽤後とDecoderPrenet適⽤後に挿⼊ 18 Encoder Decoder Embedding [2]

Slide 19

Slide 19 text

挿⼊⽅法・位置の違いによる性能検証 • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS [3] • Tacotron (attention構造を持つencoder-decoderネットワーク) 19 post Cos類似度 pre attn • Encoder適⽤後とPrenet適⽤後に挿⼊することが良さげ Encoder Decoder

Slide 20

Slide 20 text

Lookup embedding + fine-tuning 1. 事前に複数話者でspeaker encoderを学習 2. ⽬標話者のデータを使って、fine-tuning 20 … Speaker encoder Synthesizer Linguistic feature loss Speaker encoder Synthesizer Linguistic feature loss Target speaker

Slide 21

Slide 21 text

Lookup embedding + fine-tuning • SAMPLE EFFICIENT ADAPTIVE TEXT-TO-SPEECH [4] • Lookup embedding学習後、いくつかのfine-tuning⼿法を検討 21 Speaker encoder Speaker verificationベースの speaker encoderを利⽤: SEA-ENC Embedding vectorとvocoderを fine-tuning: SEA-ALL Embedding vectorのみfine-tuning: SEA-EMB ⾃然性話者類似度 LibliSpeech VCTK Update parameters

Slide 22

Slide 22 text

1-2. スタイル表現を学習 • Style Tokens: Unsupervised Style Modeling, Control and Transfer in End- to-End Speech Synthesis Training (Tacotron-GST) [5] • 話速、styleを制御するため、Style tokenを導⼊ • Audio-book読み上げなど表現⼒を伴う応⽤に対応することが⽬的 • ⾳声から表現空間をdata drivenで⾃動学習 • 推論時は、参照⾳声もしくはstyle空間からサンプルすることでstyleを獲得できる Melspec.

Slide 23

Slide 23 text

Tacotron-GSTの主観評価 • Preferenceテスト • Audiobook 単⼀話者モデル • BASE: vanilla Tacotron • 評価基準によっては、GSTに有意差あり 23 参照信号

Slide 24

Slide 24 text

1-3. 話者 + スタイルの表現を獲得 • HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE SPEECH SYNTHESIS (GMVAE-Tacotron) [6] • Latent encoderとobserved encoderで話者情報を条件づけ • Latent encoder: スタイル、observed encoder: 話者idに相当 • Observed encoderの分散は、latent encoderより⼩さく制約をかけることで、普遍的な情報（話者id）を学習するように促す • Latent encoderは韻律や環境情報といったスタイルを表現 • アーキテクチャはCNN x 2 → biLSTM x 2 → pooling → FC → mean, std 24 話者id スタイル

Slide 25

Slide 25 text

GMVAE-Tacotronの主観評価結果 1. 複数話者モデル 1. MOS評価は無し Demo: https://google.github.io/tacotron/publications/gmvae_controllable_tts/ 2. ノイズ + クリーン環境 • Baseline = lookup embedding • ⽐較⼿法⾼い⾃然性を達成 25

Slide 26

Slide 26 text

GMVAE-Tacotronの主観評価結果 3. CROWD-SOURCED AUDIOBOOK CORPUS • 利⽤データデータセット: LibriVox 有志が投稿できるオーディオブックサイト • 複数のサブデータセットを扱える 26 ⾃然性話者類似度 SC: Seen Clean UN: Unseen Noisy SN: Seen Noisy UC: Unseen Clean

Slide 27

Slide 27 text

話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 27

Slide 28

Slide 28 text

Speaker verificationとSpeaker recognitionの違い • Speaker verification (話者照合) • Speaker authentication (話者認証) とも⾔う • ある⼈物が本⼈の主張している通りの個⼈であるかを照合/認証 • Speaker recognition (話者認識) • Speaker identification (話者識別) とも⾔う • 誰だかわからない声を誰のものか識別 28 Speaker verification or not Speaker recognition … …

Slide 29

Slide 29 text

2-1. Speaker verification • Transfer learning from speaker verification to multispeaker text- to-speech synthesis [7] • Generalized end-to-end (GE2E) lossを⽤いた話者認証アルゴリズムを採⽤ • GE2E loss: Cos類似度規範で、対象話者の埋め込みベクトルがcentroidに近づき、他話者のcentroidからは遠ざかるようにlossを設計 29 : centroid : vector

Slide 30

Slide 30 text

2-1. Speaker verification • パイプライン 30 話者埋め込みのt-SNE • 各話者が遠ざかり、同じ話者の発話が近づいていることが確認できる

Slide 31

Slide 31 text

2-1. Speaker verification • 主観評価 • SeenでLookup embeddingとほぼ同等の性能 • Unseenでも性能劣化は⾒られない 31 ⾃然性話者類似度

Slide 32

Slide 32 text

• ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS [3] • Speaker recognitionタスクで有名なx-vectorが⽤いられる • X-vectorのアーキテクチャ: Time delay neural network (TDNN)を利⽤ • ResNet34が使われているよう 2-2. Speaker recognition 32 Ref: https://github.com/cvqluu/TDNN TDNN TDNN Softmax Pooling x 5 FC x 2 CE loss X-vectorのアーキテクチャ Speaker embedding vector として利⽤

Slide 33

Slide 33 text

2-3. Subjective Inter-speaker Similarity • DNN-based Speaker Embedding Using Subjective Inter- speaker Similarity for Multi-speaker Modeling in Speech Synthesis [8] • ２話者間の相対的知覚類似度を主観評価した結果を利⽤ 33 d-vector Proposed ⾃然性 0.428 0.572 話者類似度 0.426 0.574 Preference scores

Slide 34

Slide 34 text

Slide 35

Slide 35 text

1.と2.のHybrid • INVESTIGATING ON INCORPORATING PRETRAINED AND LEARNABLE SPEAKER REPRESENTATIONS FOR MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH [9] • Pretrained speaker representation model (PSR)、speaker embedding、GSTを組み合わせた • PSR（d-vector、x-vector、VAEベース）の性能検証 35

Slide 36

Slide 36 text

話者表現⼿法の性能⽐較 36 • 客観評価 1. PretrainedではTacotron2、FastSpeech2 ともに、VC (VAEベース) が精度が良い 2. Pretrainedとlearnableを組み合わせるとさらに改善する 3. Learnableに関してもEmbed + GSTの組み合わせが良い

Slide 37

Slide 37 text

話者表現⼿法の性能⽐較 • Track2の話者での主観評価 • 客観評価とは異なる傾向に • 話者埋め込み空間 37 SV accuracy .623 .837 .490 .937 再掲 • 個⼈的考察 • x-vector vs. VC • VCは話者同⼠が密 • ⾃然性︓補完しあい、品質向上。 • 話者性︓混ざってしまい劣化

Slide 38

Slide 38 text

まとめ • ⾳声合成において、多様な話者を表現するための⼿法を紹介 • 話者表現は事前学習モデルを⽤いるより、TTSと同時学習の⽅が精度良い傾向 • ⽬標話者の⾳声があるなら、各モデルでtuning: lookup embedding + fine-tuning All-in-one: GMVAE-Tacotron を試すのが良さそう 38

Slide 39

Slide 39 text

参考⽂献 [1] Arik, Sercan, et al. "Deep voice 2: Multi-speaker neural text-to-speech." arXiv preprint arXiv:1705.08947 (2017). [2] Chen, Mingjian, et al. "MultiSpeech: Multi-speaker text to speech with transformer." arXiv preprint arXiv:2006.04664 (2020). [3] Cooper, Erica, et al. "Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. [4] Chen, Yutian, et al. "Sample efficient adaptive text-to-speech." arXiv preprint arXiv:1809.10460 (2018). [5] Wang, Yuxuan, et al. "Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis." International Conference on Machine Learning. PMLR, 2018. [6] Hsu, Wei-Ning, et al. "Hierarchical generative modeling for controllable speech synthesis." arXiv preprint arXiv:1810.07217 (2018). [7] Jia, Ye, et al. "Transfer learning from speaker verification to multispeaker text-to-speech synthesis." arXiv preprint arXiv:1806.04558 (2018). [8] Saito, Yuki, Shinnosuke Takamichi, and Hiroshi Saruwatari. "DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech Synthesis." arXiv preprint arXiv:1907.08294 (2019). [9] Chien, Chung-Ming, et al. "Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech." arXiv preprint arXiv:2103.04088 (2021). 39