Upgrade to Pro — share decks privately, control downloads, hide ads and more …

表現と話者を操る音声合成に向けた研究開発【CADC2022】

 表現と話者を操る音声合成に向けた研究開発【CADC2022】

既存の音声合成では生成したい人の声の長時間の録音がなければまともな品質にすることは難しかったため、様々な人の声を出そうとするとかなりの手間が必要だった。今回はこれまで取り組んできた様々な研究の一部として、非常に少量のデータからでも制御性の高い音声合成を実現した自分の研究を紹介するほか、社内の巨大な広告音声を活用することで広告話者埋め込みを作り、広告で使われるような様々な声を生成した結果を報告する。

2016ba6b977a2e6691811fa66d5f4336?s=128

CyberAgent
PRO

March 24, 2022
Tweet

More Decks by CyberAgent

Other Decks in Technology

Transcript

  1. None
  2. 吉本 暁文 Research Scientist 表現と話者を操る音声合成に向けた研究開発 @mulgray

  3. Contents • AI Lab 音声研究の概要 • 制御性能の高い音声合成 ◦ 音声合成によくある制御性能の限界 ◦

    ニューラルベース手法での制御 ◦ 完璧なアクセント制御 • 社内リソースを応用した音声合成 • まとめ
  4. AI Lab 音声研究の概要

  5. AI Lab 音声研究の概要 CG や小売、AI 電話応対など、 様々な事業で音声合成・認識や 関連する動作、言語処理まで扱う 関連分野の採用/連携強化中

  6. 制御性能の高い音声合成

  7. 音声合成によくある制御性能の限界 よくあるインターフェース (1): • 全体の速度やピッチを調整できる ◦ ある程度以上の調整はすぐに機械的になる傾向 ここにテキストを入力 速度 ピッチ

  8. 音声合成によくある制御性能の限界 よくあるインターフェース (2): • アクセントを調整できる場合があるが … ◦ 手法次第で必ず指示通りになるとは限らない ◦ イントネーションも同様

    ここにテキストを入力 コ コ ニ テ キ ス ト ヲ ニュ ウ リョ ク 速度 ピッチ
  9. なぜか? → モデルによる性質の違い ソースフィルタモデルによる分析合成では、 ピッチは 自由に調整できる • ただし音質はニューラルボコーダに勝つのが難しい https://tam5917.hatenablog.com/entry/2016/03/15/183706

  10. なぜか? → モデルによる性質の違い ニューラルモデルでは、主にピッチ制御性能に癖が 生じる • 音素ごとの長さに関しては比較的制御できる ◦ 学習時の一貫性が高い +

    フレーム数と直接対応 付けされる • 音素ごとにピッチを変えようとすると、 狙い通りに変わると は限らない
  11. ニューラルベース手法での制御

  12. ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 +

    アクセント情報 k o ^ N n i ch i w a 音響モデル FastSpeech2 など 音響特徴 ボコーダ HiFi-GAN など 音声波形
  13. ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 +

    アクセント情報 k o ^ N n i ch i w a 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形
  14. ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 +

    アクセント情報 k o ^ N n i ch i w a 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形 ピッチ制御能力は主にこの部分の性能
  15. ピッチ制御できるニューラルモデル text2mel の中には、ピッチ制御機構を持つものがあ り、生成時にピッチを変えることができる FastSpeech 2: Fast and High-Quality End-to-End

    Text to Speech, ICLR2021
  16. 癖はどこで生じるか (1) text2mel を大量のデータで学習すると text2mel は ピッチ制御能力をある程度獲得する これを少量の別話者のデータで転移学習するとピッ チ制御能力は受け継がれる 音響モデル

    text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形
  17. 癖はどこで生じるか (1) このモデルでピッチ制御をすると、音がかすれる条件 が観測できる この時、Griffin-Lim で位相復元すると、ニューラルボ コーダで大きく劣化する地点でも劣化が知覚しにくい → ニューラルボコーダでの劣化 音響モデル

    text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形
  18. ニューラルボコーダでの劣化の特徴 音の高さによって”かすれ”が生じる • 無声音(非周期雑音)や無音になっていく 学習時のデータにないピッチが出ない傾向 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ

    HiFi-GAN など 音声波形
  19. 癖はどこで生じるか (2) text2mel を大量のデータで学習すると text2mel は ピッチ制御能力を獲得する → 少量のデータでは text2mel

    の時点でピッチ制御 できなくなる • Griffin-Lim で確認しても変化しない 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形
  20. 癖はどこで生じるか (2) ただし、text2mel を大量のデータで学習していても ピッチ制御能力は完璧ではない • 出力音声は状況によって変化したりしなかったりする • 音素 +

    アクセント情報から出すべき F0 を推定する pitch predictor 自体は入力によく反応する 一方で、text2mel の入力に関して、アクセント情報 は F0 より少ないデータで汎化しやすい アクセントだけピッチから切り離して考える
  21. 完璧なアクセント制御

  22. 完璧なアクセント制御 結局、大量のデータがあってもこれまでの制御は完 璧ではなかった • 完璧なアクセント制御を実現できないか • 少ないデータでより汎化しやすい手法であれば、完璧な 制御ができるデータを用意しやすいのではないか • 条件付け情報が単純であればより汎化しやすいのでは

    → さらにシンプルなアクセント情報を検討
  23. 既存のアクセントラベル アクセント型とアクセント核までの距離を表すラベルを加える 手法 [太田他, 音講論(春) 2021] アクセント句の区切りと音高の上昇、下降、そして文末のラ ベルを加える手法 [Kurihara, et

    al., IEICE T INF SYST 2021] k 5 -4 o 5 -4 N 5 -3 n 5 -2 i 5 -2 ch 5 -1 i 5 -1 w 5 0 a 5 0 k o ^ N n i ch i w a ( こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a
  24. もっと単純なアクセントラベル 音高が高い状態を H 、低い状態を L として音素の直後に併 記する手法 [吉本他, 音講論(春) 2022](類似:[神谷他,

    音講論(秋) 2014]) OpenJTalk の情報から作ることはできるが、実際の収録音 声は多くの部分でこのアクセントと異なる 収録時に指示しても理想の声になるとは限らない k_L o_L N_H n_H i_H ch_H i_H w_H a_H こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a
  25. アクセント音声認識 音声認識モデルでアクセント情報を音声から予測する [吉本他, 音講論(春) 2022] (類似: [栗原清, 音講論(秋) 2021]) 音声認識での高低入りトークン誤り率

    6.0 % 程度 発話内容から音素を固定し高低候補でビーム探索をするこ とで、音素誤り率 0 % 、高低誤り率 3.5 % sil k_H k_L o_H o_L N_H N_L n_H n_L i_H i_L
  26. アクセント音声認識からの音声合成 音声合成の制御性能実験 • 台本:ITA コーパス[小口他, 2021-MUS-131]の朗読 324 文 • 話者:プロ声優男女

    2 名 x 2 通りのスタイル • 高低アノテーション:作業者 1 名、各 100 文 音高認識モデルを学習し、全ての音声をそのモデルでラベリ ング 音声合成モデルをそのデータだけで学習しても、アクセント を十分制御できる多話者モデルを実現できた
  27. アクセント制御デモ

  28. 社内リソースを応用した音声合成

  29. 様々な社内リソース 広告事業部だけでも多くの音声データを所有 • 膨大かつクリーンな広告関連データ( CSJ 並!?) ◦ 社内アノテーション部隊によるラベル付き • プロ声優による新規収録データ

    • 著名人による独自収録データ ◦ 音声に限らないマルチモーダルデータ • 社内有志を集めた人海戦術による独自収録データ • 研究・商用が可能なデータの購入 ゲーム関連でも同様に貴重なデータが… 🤫
  30. 日本語で x-vector + GST one-shot VC 膨大な社内データを使い、多話者モデルを作成 • 欲しい音声のサンプルを与えると同様の声が得られる •

    ランダムな声質で音声合成も可能 • 制御能力もあり
  31. まとめ AI Lab 音声チームでは、様々な事業と連携しながら 以下のような音声研究開発を進めています • 制御性能の高い音声合成 • 文脈を考慮した音声認識 •

    高品質な声質変換 音声や言語理解と対話に関する研究者の方との連携や 採用に非常に力を入れています お話を聞くだけも◎、以下からご連絡ください! http://cyberagent.ai/careers/ • 機械学習エンジニア(音声 /対話) • 機械学習エンジニア( NLP/対話) • リサーチサイエンティスト