IS2020読み会資料

7d64064c51829ab25d114d76cbd8f9bb?s=47 beeeee
November 20, 2020

 IS2020読み会資料

論文の紹介
Controllable neural text-to-speech synthesis using intuitive prosodic features
Tuomo Raitio, Ramya Rasipuram, Dan Castellani
(Apple)

7d64064c51829ab25d114d76cbd8f9bb?s=128

beeeee

November 20, 2020
Tweet

Transcript

  1. Controllable neural text-to-speech synthesis using intuitive prosodic features 2020/11/20 (Fri)

    INTERSPEECH 2020読み会 @ Zoom 発表者 安部聡志
  2. ⾃⼰紹介 名前 安部 聡志 (ABE SATOSHI) 所属 LINE Corp. (2020-)

    Software Engineer ⾳声合成、はじめました 好きなもの ジョギング、サウナ
  3. 本⽇紹介する論⽂ Controllable neural text-to-speech synthesis using intuitive prosodic features Tuomo

    Raitio, Ramya Rasipuram, Dan Castellani (Apple) 概要 - ⽣成する⾳声のprosodyを直感的に制御できるTTSシステムの提案 - Prosodyに関する5つの⾳響特徴量を利⽤したprosody encoderをTacotron2-based モデルへ導⼊ - 5つのパラメタを通して、直感的なprosodyの制御が可能なことを実験を通じて確認 選んだ理由 - デモ⾳声を聞くとprosodyの強度がきれいに制御できていて印象に残った - これからTTSの開発を⾏うための勉強として
  4. 発表の流れ - 背景 - 提案⼿法 - 実験結果 - まとめ

  5. 背景:Prosodyとは [RJ Skerry-Ryan et al., 2018] Towards End-to-End Prosody Transfer

    for Expressive Speech Synthesis with Tacotron https://arxiv.org/pdf/1803.09047.pdf Prosodyに関連する⾳響的な要因 - ピッチ - ⾳声の⻑さ - ラウドネス - 声質 イントネーション、強勢、リズム、話し⽅ [RJ Skerry-Ryan et al., 2018] “The prosody of language covers all aspects of speech that are not related directly to the articulation for the linguistic expression” [T. Raitio et al., 2020]
  6. 背景:Text-to-Speech の構成 Text analyzer Acoustic model Vocoder テキストから⾳声波形を⽣成する 今⽇は いい天気

    Input Output ky o o w a i i t e N k i テキスト ⾔語特徴量 ⾳響特徴量 ⾳声波形 e.g. Tacotron, Tacotron2 etc. e.g. WaveNet, WaveRNN etc.
  7. 背景:課題 近年のE2E⾳声合成システムの課題 (e.g. Tacotron [Y. Wang et al., 2017]) -

    ⽣成された⾳声のprosodyは、学習データの平均に近づいてしまう - ⼊⼒した⽂章でprosodyが決まるので、同じ⽂章で異なったprosodyの⾳声を出⼒できない Prosody modelingに関する研究 - Tacotron GST [Y. Wang et al., 2018] - Global Style Token (GST) と呼ばれるprosodyの潜在空間をラベルなしで学習 - GSTから話者のスタイルの埋め込みベクトルを⽣成し、Tacotronを条件付け - 参照する⾳声のスタイルを転移させたり、重みの変更でスタイルの制御が可能に [Y. Wang et al., 2017] Tacotron: Towards end-to-end speech synthesis https://arxiv.org/pdf/1703.10135.pdf [Y. Wang et al., 2018] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis https://arxiv.org/pdf/1803.09047.pdf
  8. 背景:関連研究のPros & Cons 関連研究:Prosodyの潜在空間を学習する unsupervised method e.g. [Y. Wang et

    al., 2018], [RJ Skerry-Ryan et al., 2018] Pros - Prosodyに関する情報をラベルなしで学習できる Cons - prosody以外の⾳響的要因も含めて学習してしまう(e.g. 録⾳環境) - どのstyle tokenを使うか、所望のスタイルが学習されているのか⼈が聞かないと分からない [Y. Wang et al., 2018] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis https://arxiv.org/pdf/1803.09047.pdf [RJ Skerry-Ryan et al., 2018] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron https://arxiv.org/pdf/1803.09047.pdf Prosodyに関する⾳響特徴量を⽤いたsupervised methodを提案 より直感的な制御を可能に
  9. 提案⼿法:⾳響特徴量 Prosody Encoderの学習に利⽤する特徴量 Prosodyの要素 ⾳響特徴量 ピッチ 1. Pitch(F0) 2. Pitch

    range ⾳声の⻑さ 3. Phone duration ラウドネス 4. Speech energy 声質 5. Spectral tilt それぞれの特徴量は独⽴に制御できる Prosodyへの影響が直感的に理解しやすい
  10. 提案⼿法:ベースライン Baseline [S. Achanta et al., 2020] Acoustic model -

    Tacotron 2 ベースのモデル - ⼊⼒:⾳素列 出⼒:メルスペクトログラム Vocoder - WaveRNNベースのモデル - ⼊⼒:メルスペクトログラム 出⼒:⾳声波形 Attention Phone encoder Decoder Text (Phoneme) Phone embedding Mel-spectrogram [S. Achanta et al., 2020] On-device neural speech system Seq2seq w/attention model
  11. 提案⼿法:モデルの全体像(学習時)1/3 Attention Phone encoder Decoder Text (Phoneme) Phone embedding Feature

    extraction Reference audio 1. Log-pitch(F0) 2. Log-pitch range 3. Log-energy 4. Log-phone duration 5. Spectral tilt Acoustic features (Averaged per utterance) Frame-wise 参照⾳声から⾳響特徴量抽出 - Prosodyに関する5種類の⾳響特徴量を抽出 - フレーム単位で抽出した特徴量を発話単位で平均化 - それぞれ [-1, 1] の範囲に正規化※ ※ データセットにおける各特徴量の中央値をMとしたときの[M-3σ, M+3σ]が [-1, 1] に対応するように正規化 Mel-spectrogram Seq2seq w/attention model
  12. 提案⼿法:モデルの全体像(学習時)2/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Input

    : Phone embedding Phone embedding Feature extraction Reference audio Acoustic features (Averaged per utterance) Frame-wise Output : Prosody feature vector (5-dim) Baselineモデルへprosody encoderを導⼊ - Phone encoderの出⼒から5つの⾳響特徴量を予測 - 抽出した特徴量と出⼒間の誤差最⼩化を⾏う Mel-spectrogram MSE loss Seq2seq w/attention model
  13. 提案⼿法:モデルの全体像(学習時)3/3 Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram

    Input : Phone embedding Phone embedding Feature extraction Reference audio Acoustic features (Averaged per utterance) Frame-wise Output : Prosody feature vector (5-dim) Decoderには抽出した特徴量を⼊⼒し モデル全体を学習する MSE loss Concat Teacher-forcing (Target) Mel-spectrogram MSE loss Stop-gradient Seq2seq w/attention model
  14. 提案⼿法:モデルの全体像(推論時) Prosody encoder Attention Phone encoder Decoder Text (Phoneme) Mel-spectrogram

    Input : Phone embedding Phone embedding Output : Prosody feature vector (5-dim) Concat Optional bias 制御のためのbiasを与える e.g. (0.5, 0.5, 0, -0.3, 1) ⾳響特徴量に対応したoptional biasを設定することでprosodyを制御 Prosody encoderの出⼒にbiasを加算しDecoderへ⼊⼒ Seq2seq w/attention model
  15. 実験条件 - 使⽤したデータ - Sampling rate 24kHzへダウンサンプル - 80次元のメルスペクトログラムを抽出 Dataset

    説明 1. Internal Dataset (36h) アメリカ英語⼥性話者 スタジオ録⾳データ 2. Internal Dataset (16h) 同話者 会話表現を含むデータ Model 説明 1. Baseline Tacotron2 ベースモデル、 36hデータで学習 2. Prosody 36h 提案⼿法、36hデータで学習 3. Prosody 52h 提案⼿法、 36h + 16hデータで学習 - 3つのモデルを⽐較 - GPU1台でそれぞれ 3M Step 学習(Batch size=16に設定) - ボコーダーには 36h データを⽤いて学習されたWaveRNN-based model [S. Achanta et al., 2020]を使⽤ [S. Achanta et al., 2020] On-device neural speech system
  16. 客観評価 Prosodyに関するbias条件を変更して⽣成した ⾳声の特徴量の変化 - 実験内容 - 199⽂を⽤いて, biasの条件を変更して⾳声を⽣成 - ⽣成された⾳声の特徴量とbiasの関係を調べた

    - 結果 - Biasの値変更 [-1, +1]と特徴量の変化に相関関係 - 52hデータを⽤いた場合のほうが36hのものより変化⼤ Biasによって各特徴量の制御が可能であることを確認 数値対応表 データセットにおける各特徴量の中央値をMとしたときの [M-3σ, M+3σ]が [-1, 1]に対応するように設定
  17. 主観評価: Prosodyの制御がない場合の MOS, A/B Test MOS A/B listening test -

    実験内容 1. 提案⼿法のbias=0にした状態で、⾃然さについてMean Opinion Score (MOS) 評価を実施 (5段階評価) 2. ベースラインモデルと提案⼿法どちらが好ましいかA/B listening testを実施 - 条件 1. MOS : 各モデルで⽣成した199⽂章の⾳声を使⽤ - 66名のアメリカ英語⺟国語話者による評価 2. A/B listening test :各モデルで⽣成した50⽂章の⾳声を使⽤ - 10名の英語話者による評価 評価結果 - MOS評価より、提案⼿法はbaselineと同等の⾼品質な⾳声が⽣成可能 - A/B listening testより、baselineの⽅が提案⼿法よりも好まれる傾向が確認 - Baselineからややデグレが⽣じている - Prosody encoderの追加によってモデルの複雑性が⼤きくなったためでは
  18. 主観評価: Prosodyを制御した場合のMOS評価 Prosodyに関するbias条件を変更した際の MOS評価の変化 - 実験内容 - 40⽂を⽤いて, biasの条件を変更して⾳声を⽣成 -

    ⽣成された⾳声についてMOS評価とbiasの関係を調べた - 結果 - 調節幅が⼤きくなるにつれて徐々に評価が下がる傾向 - 特にduration, pitchに関するMOSの減少が⼤きい - Durationを⼤きく変化させると不⾃然 - Pitchを⼤きくしすぎると声優の限界を超え不⾃然
  19. まとめ - 直感的で、理解しやすい特徴量を通じてprosodyの制御が⾏えるシンプルなTTSシステムを提案 - 5つの特徴量を利⽤することで様々なprosodyの制御が可能 - 主観評価、客観評価の結果より - 提案⼿法はbaselineと同等の⾼品質な⾳声が⽣成可能 -

    特徴量に関するbiasの値を加えることで、prosodyの制御が可能 Pros 独⽴に制御ができる⾳響特徴量を利⽤した それぞれの特徴量がprosodyに与える影響が直感的にわかりやすく制御しやすい Cons ⽂単位でのコントロールになるため、⾳素単位などの細かい制御性に⽋ける Future work - Baselineよりも品質がややデグレしていた点をどう改善するか? - Prosodic featureのロバスト性に関する調査 - 新しいアーキテクチャの提案
  20. Thank you for listening! DEMO: https://apple.github.io/neural-tts-with-prosody-control/