Upgrade to Pro — share decks privately, control downloads, hide ads and more …

表現と話者を操る音声合成に向けた研究開発【CADC2022】

 表現と話者を操る音声合成に向けた研究開発【CADC2022】

既存の音声合成では生成したい人の声の長時間の録音がなければまともな品質にすることは難しかったため、様々な人の声を出そうとするとかなりの手間が必要だった。今回はこれまで取り組んできた様々な研究の一部として、非常に少量のデータからでも制御性の高い音声合成を実現した自分の研究を紹介するほか、社内の巨大な広告音声を活用することで広告話者埋め込みを作り、広告で使われるような様々な声を生成した結果を報告する。

CyberAgent

March 24, 2022
Tweet

More Decks by CyberAgent

Other Decks in Technology

Transcript

  1. Contents • AI Lab 音声研究の概要 • 制御性能の高い音声合成 ◦ 音声合成によくある制御性能の限界 ◦

    ニューラルベース手法での制御 ◦ 完璧なアクセント制御 • 社内リソースを応用した音声合成 • まとめ
  2. ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 +

    アクセント情報 k o ^ N n i ch i w a 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形 ピッチ制御能力は主にこの部分の性能
  3. 癖はどこで生じるか (2) text2mel を大量のデータで学習すると text2mel は ピッチ制御能力を獲得する → 少量のデータでは text2mel

    の時点でピッチ制御 できなくなる • Griffin-Lim で確認しても変化しない 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形
  4. 癖はどこで生じるか (2) ただし、text2mel を大量のデータで学習していても ピッチ制御能力は完璧ではない • 出力音声は状況によって変化したりしなかったりする • 音素 +

    アクセント情報から出すべき F0 を推定する pitch predictor 自体は入力によく反応する 一方で、text2mel の入力に関して、アクセント情報 は F0 より少ないデータで汎化しやすい アクセントだけピッチから切り離して考える
  5. 既存のアクセントラベル アクセント型とアクセント核までの距離を表すラベルを加える 手法 [太田他, 音講論(春) 2021] アクセント句の区切りと音高の上昇、下降、そして文末のラ ベルを加える手法 [Kurihara, et

    al., IEICE T INF SYST 2021] k 5 -4 o 5 -4 N 5 -3 n 5 -2 i 5 -2 ch 5 -1 i 5 -1 w 5 0 a 5 0 k o ^ N n i ch i w a ( こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a
  6. もっと単純なアクセントラベル 音高が高い状態を H 、低い状態を L として音素の直後に併 記する手法 [吉本他, 音講論(春) 2022](類似:[神谷他,

    音講論(秋) 2014]) OpenJTalk の情報から作ることはできるが、実際の収録音 声は多くの部分でこのアクセントと異なる 収録時に指示しても理想の声になるとは限らない k_L o_L N_H n_H i_H ch_H i_H w_H a_H こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a
  7. アクセント音声認識 音声認識モデルでアクセント情報を音声から予測する [吉本他, 音講論(春) 2022] (類似: [栗原清, 音講論(秋) 2021]) 音声認識での高低入りトークン誤り率

    6.0 % 程度 発話内容から音素を固定し高低候補でビーム探索をするこ とで、音素誤り率 0 % 、高低誤り率 3.5 % sil k_H k_L o_H o_L N_H N_L n_H n_L i_H i_L
  8. アクセント音声認識からの音声合成 音声合成の制御性能実験 • 台本:ITA コーパス[小口他, 2021-MUS-131]の朗読 324 文 • 話者:プロ声優男女

    2 名 x 2 通りのスタイル • 高低アノテーション:作業者 1 名、各 100 文 音高認識モデルを学習し、全ての音声をそのモデルでラベリ ング 音声合成モデルをそのデータだけで学習しても、アクセント を十分制御できる多話者モデルを実現できた
  9. 様々な社内リソース 広告事業部だけでも多くの音声データを所有 • 膨大かつクリーンな広告関連データ( CSJ 並!?) ◦ 社内アノテーション部隊によるラベル付き • プロ声優による新規収録データ

    • 著名人による独自収録データ ◦ 音声に限らないマルチモーダルデータ • 社内有志を集めた人海戦術による独自収録データ • 研究・商用が可能なデータの購入 ゲーム関連でも同様に貴重なデータが… 🤫
  10. まとめ AI Lab 音声チームでは、様々な事業と連携しながら 以下のような音声研究開発を進めています • 制御性能の高い音声合成 • 文脈を考慮した音声認識 •

    高品質な声質変換 音声や言語理解と対話に関する研究者の方との連携や 採用に非常に力を入れています お話を聞くだけも◎、以下からご連絡ください! http://cyberagent.ai/careers/ • 機械学習エンジニア(音声 /対話) • 機械学習エンジニア( NLP/対話) • リサーチサイエンティスト