音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

⾳声合成における話者・スタイル表現⼿法の調査 Tokyo BISH Bash #04 LINE株式会社橘健太郎 1

⾃⼰紹介 • ⽒名 • Kentaro Tachibana • 職歴 • Apr.
2008 - Sep. 2017 : 東芝 • Oct. 2014 - Sep. 2017 : National Institute Information and Communications Technology (NICT) 出向 • Oct. 2017 - Jul. 2020 : DeNA • Aug. 2020 - present : LINE • 研究分野 • Text-to-speech (TTS), Voice Conversion (VC) and speech separation 2

LINE AI Speech Video Voice NLU Data OCR Vision Face
LINE Shopping Lens Adult Image Filter Scene Classification Ad image Filter Visual Search Analogous image Product Image Lip Reading Fashion Image Spot Clustering Food Image Indonesia LINE Split Bill LINE MUSIC Playlist OCR LINE CONOMI Handwritten Font Receipt OCR Credit card OCR Bill OCR Document Intelligence Identification Face Sign eKYC Face Sign Auto Cut Auto Cam Transcription Telephone network Voice recognition Single-Demand STT Simple voice High quality voice Voice Style Transfer Active Leaning Federated Leaning Action recognition Pose estimation Speech Note Vlive Auto Highlight Content Center AI CLOVA Dubbing LINE AiCall CLOVA Speaker Gatebox Papago Video Insight LINE CLOVA AI Interactive Avatar Interactive Avatar Media 3D Avatar LINE Profile Lip Reading LINE’s AI Technology

LINE CLOVA Products CLOVA Chatbot CLOVA OCR CLOVA Voice CLOVA
Speech CLOVA Text Analytics CLOVA Face CLOVA Assistant LINE AiCall LINE eKYC Solutions Devices CLOVA Friends CLOVA Friends mini CLOVA Desk CLOVA WAVE LINE’s AI Technology Brand

2017.3 CLOVA ൃද 2017.12 CLOVA Friends 2019.3 CLOVA Desk 2018.6
CLOVA Friends mini 2017.10 CLOVA WAVE 2019.10 Gatebox ʢGateboxࣾʣ LINE CLOVA - Devices

LINE CLOVA - Solutions

⽬次 • TTSとは︖ 1. TTSの構成モジュール 2. ⾳声合成を活⽤したプロダクト • 多様な話者・スタイルの⾳声合成 •
多様な話者・スタイルの実現⽅法 • まとめ 7

What is TTS? • TTSとは任意のテキストから⾳声を⽣成する技術 • 任意のテキストに対して、所望の声質で⾳声を⽣成できる 8 TTS 今⽇もめっちゃいい天気ですね

Text Normalizer Synthesizer Vocoder Linguistic feature Acoustic feature TTSの構成モジュール 9
⾔語特徴量を抽出⾳響特徴量へ変換⾳声波形を⽣成今⽇もいい天気ですね Kyooʼmo/meccha/iiteʼnki/deʼsune. 読み、アクセント句、アクセント核 F0やスペクトル等

⾳声合成を活⽤したプロダクト 10 多様な声質やスタイルへのニーズが⾼まることが⾒込まれるスマートスピーカオーディオブック AIアバター

多様な話者・スタイルの⾳声合成 1. ⽬標話者ごとにモデルを学習 • モデルごとに細かい調整ができるが、管理がコストが増⼤ 11 TTS 今⽇もめっちゃいい天気ですね・・・

多様な話者・スタイルの⾳声合成 2. All-in-oneモデル（1つのモデルで複数の話者を表現） • 各話者にあった調整難しいが、⼀つのモデルで完結するので管理が楽 12 TTS ・・・今⽇もめっちゃいい天気ですね
複数話者を１つのモデルで表現する様々な⼿法が存在

話者表現の学習 • 話者の特徴を埋め込みベクトルで学習 • ⼀つのモデルで複数の話者やスタイルを表現可能 • 様々な学習⽅式、アルゴリズムが存在 13 Synthesizer Linguistic
feature Acoustic feature Speaker embedding ・・・ Embedding vector loss

多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup
embedding + fine-tuning 2. スタイル • Tacotron-GST 3. 話者 + スタイル • GMVAE-Tacotron 2. 事前に話者表現モデルを学習 1. Speaker verification 2. Speaker recognition 3. Subjective Inter-speaker Similarity 3. 1.と2.のhybrid 14

多様な話者・スタイルの実現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

2. 話者表現モデルをTTSと同時学習 • Lookup embedding • 話者idをone-hot vector化し、lookupテーブルで表現 • LookupテーブルをTTSモデル学習時に最適化できる
16 … 0 … 1 0 One-hot Lookup table … 0.844 0.567 0.625 Synthesizer Linguistic feature loss Speaker encoder

Lookup embeddingの挿⼊⽅法・位置 1. Deep Voice 2 [1] 1. あらゆるモジュール・位置に挿⼊ 17
Duration Frequency

Lookup embeddingの挿⼊⽅法・位置 2. MultiSpeech: Multi-Speaker Text to Speech with Transformer
• Encoder適⽤後とDecoderPrenet適⽤後に挿⼊ 18 Encoder Decoder Embedding [2]

挿⼊⽅法・位置の違いによる性能検証 • ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS
[3] • Tacotron (attention構造を持つencoder-decoderネットワーク) 19 post Cos類似度 pre attn • Encoder適⽤後とPrenet適⽤後に挿⼊することが良さげ Encoder Decoder

Lookup embedding + fine-tuning 1. 事前に複数話者でspeaker encoderを学習 2. ⽬標話者のデータを使って、fine-tuning 20
… Speaker encoder Synthesizer Linguistic feature loss Speaker encoder Synthesizer Linguistic feature loss Target speaker

Lookup embedding + fine-tuning • SAMPLE EFFICIENT ADAPTIVE TEXT-TO-SPEECH [4]
• Lookup embedding学習後、いくつかのfine-tuning⼿法を検討 21 Speaker encoder Speaker verificationベースの speaker encoderを利⽤: SEA-ENC Embedding vectorとvocoderを fine-tuning: SEA-ALL Embedding vectorのみfine-tuning: SEA-EMB ⾃然性話者類似度 LibliSpeech VCTK Update parameters

1-2. スタイル表現を学習 • Style Tokens: Unsupervised Style Modeling, Control and
Transfer in End- to-End Speech Synthesis Training (Tacotron-GST) [5] • 話速、styleを制御するため、Style tokenを導⼊ • Audio-book読み上げなど表現⼒を伴う応⽤に対応することが⽬的 • ⾳声から表現空間をdata drivenで⾃動学習 • 推論時は、参照⾳声もしくはstyle空間からサンプルすることでstyleを獲得できる Melspec.

Tacotron-GSTの主観評価 • Preferenceテスト • Audiobook 単⼀話者モデル • BASE: vanilla Tacotron
• 評価基準によっては、GSTに有意差あり 23 参照信号

1-3. 話者 + スタイルの表現を獲得 • HIERARCHICAL GENERATIVE MODELING FOR CONTROLLABLE
SPEECH SYNTHESIS (GMVAE-Tacotron) [6] • Latent encoderとobserved encoderで話者情報を条件づけ • Latent encoder: スタイル、observed encoder: 話者idに相当 • Observed encoderの分散は、latent encoderより⼩さく制約をかけることで、普遍的な情報（話者id）を学習するように促す • Latent encoderは韻律や環境情報といったスタイルを表現 • アーキテクチャはCNN x 2 → biLSTM x 2 → pooling → FC → mean, std 24 話者id スタイル

GMVAE-Tacotronの主観評価結果 1. 複数話者モデル 1. MOS評価は無し Demo: https://google.github.io/tacotron/publications/gmvae_controllable_tts/ 2. ノイズ +
クリーン環境 • Baseline = lookup embedding • ⽐較⼿法⾼い⾃然性を達成 25

GMVAE-Tacotronの主観評価結果 3. CROWD-SOURCED AUDIOBOOK CORPUS • 利⽤データデータセット: LibriVox 有志が投稿できるオーディオブックサイト •
複数のサブデータセットを扱える 26 ⾃然性話者類似度 SC: Seen Clean UN: Unseen Noisy SN: Seen Noisy UC: Unseen Clean

話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

Speaker verificationとSpeaker recognitionの違い • Speaker verification (話者照合) • Speaker authentication
(話者認証) とも⾔う • ある⼈物が本⼈の主張している通りの個⼈であるかを照合/認証 • Speaker recognition (話者認識) • Speaker identification (話者識別) とも⾔う • 誰だかわからない声を誰のものか識別 28 Speaker verification or not Speaker recognition … …

2-1. Speaker verification • Transfer learning from speaker verification to
multispeaker text- to-speech synthesis [7] • Generalized end-to-end (GE2E) lossを⽤いた話者認証アルゴリズムを採⽤ • GE2E loss: Cos類似度規範で、対象話者の埋め込みベクトルがcentroidに近づき、他話者のcentroidからは遠ざかるようにlossを設計 29 : centroid : vector

2-1. Speaker verification • パイプライン 30 話者埋め込みのt-SNE • 各話者が遠ざかり、同じ話者の発話が近づいていることが確認できる

2-1. Speaker verification • 主観評価 • SeenでLookup embeddingとほぼ同等の性能 • Unseenでも性能劣化は⾒られない
31 ⾃然性話者類似度

• ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS [3]
• Speaker recognitionタスクで有名なx-vectorが⽤いられる • X-vectorのアーキテクチャ: Time delay neural network (TDNN)を利⽤ • ResNet34が使われているよう 2-2. Speaker recognition 32 Ref: https://github.com/cvqluu/TDNN TDNN TDNN Softmax Pooling x 5 FC x 2 CE loss X-vectorのアーキテクチャ Speaker embedding vector として利⽤

2-3. Subjective Inter-speaker Similarity • DNN-based Speaker Embedding Using Subjective
Inter- speaker Similarity for Multi-speaker Modeling in Speech Synthesis [8] • ２話者間の相対的知覚類似度を主観評価した結果を利⽤ 33 d-vector Proposed ⾃然性 0.428 0.572 話者類似度 0.426 0.574 Preference scores

話者表現⽅法 1. 話者表現モデルをTTSと同時学習 1. 話者の表現を獲得 • Lookup embedding • Lookup

1.と2.のHybrid • INVESTIGATING ON INCORPORATING PRETRAINED AND LEARNABLE SPEAKER REPRESENTATIONS
FOR MULTI-SPEAKER MULTI-STYLE TEXT-TO-SPEECH [9] • Pretrained speaker representation model (PSR)、speaker embedding、GSTを組み合わせた • PSR（d-vector、x-vector、VAEベース）の性能検証 35

話者表現⼿法の性能⽐較 36 • 客観評価 1. PretrainedではTacotron2、FastSpeech2 ともに、VC (VAEベース) が精度が良い 2.
Pretrainedとlearnableを組み合わせるとさらに改善する 3. Learnableに関してもEmbed + GSTの組み合わせが良い

話者表現⼿法の性能⽐較 • Track2の話者での主観評価 • 客観評価とは異なる傾向に • 話者埋め込み空間 37 SV accuracy
.623 .837 .490 .937 再掲 • 個⼈的考察 • x-vector vs. VC • VCは話者同⼠が密 • ⾃然性︓補完しあい、品質向上。 • 話者性︓混ざってしまい劣化

まとめ • ⾳声合成において、多様な話者を表現するための⼿法を紹介 • 話者表現は事前学習モデルを⽤いるより、TTSと同時学習の⽅が精度良い傾向 • ⽬標話者の⾳声があるなら、各モデルでtuning: lookup
embedding + fine-tuning All-in-one: GMVAE-Tacotron を試すのが良さそう 38

参考⽂献 [1] Arik, Sercan, et al. "Deep voice 2: Multi-speaker
neural text-to-speech." arXiv preprint arXiv:1705.08947 (2017). [2] Chen, Mingjian, et al. "MultiSpeech: Multi-speaker text to speech with transformer." arXiv preprint arXiv:2006.04664 (2020). [3] Cooper, Erica, et al. "Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020. [4] Chen, Yutian, et al. "Sample efficient adaptive text-to-speech." arXiv preprint arXiv:1809.10460 (2018). [5] Wang, Yuxuan, et al. "Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis." International Conference on Machine Learning. PMLR, 2018. [6] Hsu, Wei-Ning, et al. "Hierarchical generative modeling for controllable speech synthesis." arXiv preprint arXiv:1810.07217 (2018). [7] Jia, Ye, et al. "Transfer learning from speaker verification to multispeaker text-to-speech synthesis." arXiv preprint arXiv:1806.04558 (2018). [8] Saito, Yuki, Shinnosuke Takamichi, and Hiroshi Saruwatari. "DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech Synthesis." arXiv preprint arXiv:1907.08294 (2019). [9] Chien, Chung-Ming, et al. "Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech." arXiv preprint arXiv:2103.04088 (2021). 39

音声合成における話者・スタイル表現手法の調査 / A survey of speaker an...

音声合成における話者・スタイル表現手法の調査 / A survey of speaker and style representation methods in speech synthesis

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript