IS2020読み会資料

Controllable neural text-to-speech synthesis using intuitive prosodic features 2020/11/20 (Fri)
INTERSPEECH 2020読み会 @ Zoom 発表者安部聡志

⾃⼰紹介名前安部聡志 (ABE SATOSHI) 所属 LINE Corp. (2020-)
Software Engineer ⾳声合成、はじめました好きなものジョギング、サウナ

本⽇紹介する論⽂ Controllable neural text-to-speech synthesis using intuitive prosodic features Tuomo
Raitio, Ramya Rasipuram, Dan Castellani (Apple) 概要 - ⽣成する⾳声のprosodyを直感的に制御できるTTSシステムの提案 - Prosodyに関する5つの⾳響特徴量を利⽤したprosody encoderをTacotron2-based モデルへ導⼊ - 5つのパラメタを通して、直感的なprosodyの制御が可能なことを実験を通じて確認選んだ理由 - デモ⾳声を聞くとprosodyの強度がきれいに制御できていて印象に残った - これからTTSの開発を⾏うための勉強として

発表の流れ - 背景 - 提案⼿法 - 実験結果 - まとめ

背景：Prosodyとは [RJ Skerry-Ryan et al., 2018] Towards End-to-End Prosody Transfer
for Expressive Speech Synthesis with Tacotron https://arxiv.org/pdf/1803.09047.pdf Prosodyに関連する⾳響的な要因 - ピッチ - ⾳声の⻑さ - ラウドネス - 声質イントネーション、強勢、リズム、話し⽅ [RJ Skerry-Ryan et al., 2018] “The prosody of language covers all aspects of speech that are not related directly to the articulation for the linguistic expression” [T. Raitio et al., 2020]

背景：Text-to-Speech の構成 Text analyzer Acoustic model Vocoder テキストから⾳声波形を⽣成する今⽇はいい天気
Input Output ky o o w a i i t e N k i テキスト⾔語特徴量⾳響特徴量⾳声波形 e.g. Tacotron, Tacotron2 etc. e.g. WaveNet, WaveRNN etc.

背景：課題近年のE2E⾳声合成システムの課題 (e.g. Tacotron [Y. Wang et al., 2017]) -
⽣成された⾳声のprosodyは、学習データの平均に近づいてしまう - ⼊⼒した⽂章でprosodyが決まるので、同じ⽂章で異なったprosodyの⾳声を出⼒できない Prosody modelingに関する研究 - Tacotron GST [Y. Wang et al., 2018] - Global Style Token (GST) と呼ばれるprosodyの潜在空間をラベルなしで学習 - GSTから話者のスタイルの埋め込みベクトルを⽣成し、Tacotronを条件付け - 参照する⾳声のスタイルを転移させたり、重みの変更でスタイルの制御が可能に [Y. Wang et al., 2017] Tacotron: Towards end-to-end speech synthesis https://arxiv.org/pdf/1703.10135.pdf [Y. Wang et al., 2018] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis https://arxiv.org/pdf/1803.09047.pdf

背景：関連研究のPros & Cons 関連研究：Prosodyの潜在空間を学習する unsupervised method e.g. [Y. Wang et
al., 2018], [RJ Skerry-Ryan et al., 2018] Pros - Prosodyに関する情報をラベルなしで学習できる Cons - prosody以外の⾳響的要因も含めて学習してしまう(e.g. 録⾳環境) - どのstyle tokenを使うか、所望のスタイルが学習されているのか⼈が聞かないと分からない [Y. Wang et al., 2018] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis https://arxiv.org/pdf/1803.09047.pdf [RJ Skerry-Ryan et al., 2018] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron https://arxiv.org/pdf/1803.09047.pdf Prosodyに関する⾳響特徴量を⽤いたsupervised methodを提案より直感的な制御を可能に

提案⼿法：⾳響特徴量 Prosody Encoderの学習に利⽤する特徴量 Prosodyの要素⾳響特徴量ピッチ 1. Pitch(F0) 2. Pitch
range ⾳声の⻑さ 3. Phone duration ラウドネス 4. Speech energy 声質 5. Spectral tilt それぞれの特徴量は独⽴に制御できる Prosodyへの影響が直感的に理解しやすい

提案⼿法：ベースライン Baseline [S. Achanta et al., 2020] Acoustic model -
Tacotron 2 ベースのモデル - ⼊⼒：⾳素列出⼒：メルスペクトログラム Vocoder - WaveRNNベースのモデル - ⼊⼒：メルスペクトログラム出⼒：⾳声波形 Attention Phone encoder Decoder Text (Phoneme) Phone embedding Mel-spectrogram [S. Achanta et al., 2020] On-device neural speech system Seq2seq w/attention model

提案⼿法：モデルの全体像（学習時）1/3 Attention Phone encoder Decoder Text (Phoneme) Phone embedding Feature
extraction Reference audio 1. Log-pitch(F0) 2. Log-pitch range 3. Log-energy 4. Log-phone duration 5. Spectral tilt Acoustic features (Averaged per utterance) Frame-wise 参照⾳声から⾳響特徴量抽出 - Prosodyに関する5種類の⾳響特徴量を抽出 - フレーム単位で抽出した特徴量を発話単位で平均化 - それぞれ [-1, 1] の範囲に正規化※ ※ データセットにおける各特徴量の中央値をMとしたときの[M-3σ, M+3σ]が [-1, 1] に対応するように正規化 Mel-spectrogram Seq2seq w/attention model

提案⼿法：モデルの全体像（学習時）2/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Input
: Phone embedding Phone embedding Feature extraction Reference audio Acoustic features (Averaged per utterance) Frame-wise Output : Prosody feature vector (5-dim) Baselineモデルへprosody encoderを導⼊ - Phone encoderの出⼒から5つの⾳響特徴量を予測 - 抽出した特徴量と出⼒間の誤差最⼩化を⾏う Mel-spectrogram MSE loss Seq2seq w/attention model

提案⼿法：モデルの全体像（学習時）3/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram
Input : Phone embedding Phone embedding Feature extraction Reference audio Acoustic features (Averaged per utterance) Frame-wise Output : Prosody feature vector (5-dim) Decoderには抽出した特徴量を⼊⼒しモデル全体を学習する MSE loss Concat Teacher-forcing (Target) Mel-spectrogram MSE loss Stop-gradient Seq2seq w/attention model

提案⼿法：モデルの全体像（推論時） Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram
Input : Phone embedding Phone embedding Output : Prosody feature vector (5-dim) Concat Optional bias 制御のためのbiasを与える e.g. (0.5, 0.5, 0, -0.3, 1) ⾳響特徴量に対応したoptional biasを設定することでprosodyを制御 Prosody encoderの出⼒にbiasを加算しDecoderへ⼊⼒ Seq2seq w/attention model

実験条件 - 使⽤したデータ - Sampling rate 24kHzへダウンサンプル - 80次元のメルスペクトログラムを抽出 Dataset
説明 1. Internal Dataset (36h) アメリカ英語⼥性話者スタジオ録⾳データ 2. Internal Dataset (16h) 同話者会話表現を含むデータ Model 説明 1. Baseline Tacotron2 ベースモデル、 36hデータで学習 2. Prosody 36h 提案⼿法、36hデータで学習 3. Prosody 52h 提案⼿法、 36h + 16hデータで学習 - 3つのモデルを⽐較 - GPU1台でそれぞれ 3M Step 学習（Batch size=16に設定） - ボコーダーには 36h データを⽤いて学習されたWaveRNN-based model [S. Achanta et al., 2020]を使⽤ [S. Achanta et al., 2020] On-device neural speech system

客観評価 Prosodyに関するbias条件を変更して⽣成した⾳声の特徴量の変化 - 実験内容 - 199⽂を⽤いて, biasの条件を変更して⾳声を⽣成 - ⽣成された⾳声の特徴量とbiasの関係を調べた
- 結果 - Biasの値変更 [-1, +1]と特徴量の変化に相関関係 - 52hデータを⽤いた場合のほうが36hのものより変化⼤ Biasによって各特徴量の制御が可能であることを確認数値対応表データセットにおける各特徴量の中央値をMとしたときの [M-3σ, M+3σ]が [-1, 1]に対応するように設定

主観評価: Prosodyの制御がない場合の MOS, A/B Test MOS A/B listening test -
実験内容 1. 提案⼿法のbias=0にした状態で、⾃然さについてMean Opinion Score (MOS) 評価を実施 (5段階評価) 2. ベースラインモデルと提案⼿法どちらが好ましいかA/B listening testを実施 - 条件 1. MOS : 各モデルで⽣成した199⽂章の⾳声を使⽤ - 66名のアメリカ英語⺟国語話者による評価 2. A/B listening test :各モデルで⽣成した50⽂章の⾳声を使⽤ - 10名の英語話者による評価評価結果 - MOS評価より、提案⼿法はbaselineと同等の⾼品質な⾳声が⽣成可能 - A/B listening testより、baselineの⽅が提案⼿法よりも好まれる傾向が確認 - Baselineからややデグレが⽣じている - Prosody encoderの追加によってモデルの複雑性が⼤きくなったためでは

主観評価: Prosodyを制御した場合のMOS評価 Prosodyに関するbias条件を変更した際の MOS評価の変化 - 実験内容 - 40⽂を⽤いて, biasの条件を変更して⾳声を⽣成 -
⽣成された⾳声についてMOS評価とbiasの関係を調べた - 結果 - 調節幅が⼤きくなるにつれて徐々に評価が下がる傾向 - 特にduration, pitchに関するMOSの減少が⼤きい - Durationを⼤きく変化させると不⾃然 - Pitchを⼤きくしすぎると声優の限界を超え不⾃然

まとめ - 直感的で、理解しやすい特徴量を通じてprosodyの制御が⾏えるシンプルなTTSシステムを提案 - 5つの特徴量を利⽤することで様々なprosodyの制御が可能 - 主観評価、客観評価の結果より - 提案⼿法はbaselineと同等の⾼品質な⾳声が⽣成可能 -
特徴量に関するbiasの値を加えることで、prosodyの制御が可能 Pros 独⽴に制御ができる⾳響特徴量を利⽤したそれぞれの特徴量がprosodyに与える影響が直感的にわかりやすく制御しやすい Cons ⽂単位でのコントロールになるため、⾳素単位などの細かい制御性に⽋ける Future work - Baselineよりも品質がややデグレしていた点をどう改善するか？ - Prosodic featureのロバスト性に関する調査 - 新しいアーキテクチャの提案

Thank you for listening! DEMO: https://apple.github.io/neural-tts-with-prosody-control/

IS2020読み会資料

IS2020読み会資料

beeeee

Other Decks in Research

Featured

Transcript

Controllable neural text-to-speech synthesis using intuitive prosodic features 2020/11/20 (Fri)

⾃⼰紹介名前安部聡志 (ABE SATOSHI) 所属 LINE Corp. (2020-)

本⽇紹介する論⽂ Controllable neural text-to-speech synthesis using intuitive prosodic features Tuomo

発表の流れ - 背景 - 提案⼿法 - 実験結果 - まとめ

背景：Prosodyとは [RJ Skerry-Ryan et al., 2018] Towards End-to-End Prosody Transfer

背景：Text-to-Speech の構成 Text analyzer Acoustic model Vocoder テキストから⾳声波形を⽣成する今⽇はいい天気

背景：課題近年のE2E⾳声合成システムの課題 (e.g. Tacotron [Y. Wang et al., 2017]) -

背景：関連研究のPros & Cons 関連研究：Prosodyの潜在空間を学習する unsupervised method e.g. [Y. Wang et

提案⼿法：⾳響特徴量 Prosody Encoderの学習に利⽤する特徴量 Prosodyの要素⾳響特徴量ピッチ 1. Pitch(F0) 2. Pitch

提案⼿法：ベースライン Baseline [S. Achanta et al., 2020] Acoustic model -

提案⼿法：モデルの全体像（学習時）1/3 Attention Phone encoder Decoder Text (Phoneme) Phone embedding Feature

提案⼿法：モデルの全体像（学習時）2/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Input

提案⼿法：モデルの全体像（学習時）3/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram

提案⼿法：モデルの全体像（推論時） Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram

実験条件 - 使⽤したデータ - Sampling rate 24kHzへダウンサンプル - 80次元のメルスペクトログラムを抽出 Dataset

客観評価 Prosodyに関するbias条件を変更して⽣成した⾳声の特徴量の変化 - 実験内容 - 199⽂を⽤いて, biasの条件を変更して⾳声を⽣成 - ⽣成された⾳声の特徴量とbiasの関係を調べた

主観評価: Prosodyの制御がない場合の MOS, A/B Test MOS A/B listening test -

主観評価: Prosodyを制御した場合のMOS評価 Prosodyに関するbias条件を変更した際の MOS評価の変化 - 実験内容 - 40⽂を⽤いて, biasの条件を変更して⾳声を⽣成 -

Thank you for listening! DEMO: https://apple.github.io/neural-tts-with-prosody-control/