Slide 1

Slide 1 text

No content

Slide 2

Slide 2 text

吉本 暁文 Research Scientist 表現と話者を操る音声合成に向けた研究開発 @mulgray

Slide 3

Slide 3 text

Contents ● AI Lab 音声研究の概要 ● 制御性能の高い音声合成 ○ 音声合成によくある制御性能の限界 ○ ニューラルベース手法での制御 ○ 完璧なアクセント制御 ● 社内リソースを応用した音声合成 ● まとめ

Slide 4

Slide 4 text

AI Lab 音声研究の概要

Slide 5

Slide 5 text

AI Lab 音声研究の概要 CG や小売、AI 電話応対など、 様々な事業で音声合成・認識や 関連する動作、言語処理まで扱う 関連分野の採用/連携強化中

Slide 6

Slide 6 text

制御性能の高い音声合成

Slide 7

Slide 7 text

音声合成によくある制御性能の限界 よくあるインターフェース (1): ● 全体の速度やピッチを調整できる ○ ある程度以上の調整はすぐに機械的になる傾向 ここにテキストを入力 速度 ピッチ …

Slide 8

Slide 8 text

音声合成によくある制御性能の限界 よくあるインターフェース (2): ● アクセントを調整できる場合があるが … ○ 手法次第で必ず指示通りになるとは限らない ○ イントネーションも同様 ここにテキストを入力 コ コ ニ テ キ ス ト ヲ ニュ ウ リョ ク 速度 ピッチ

Slide 9

Slide 9 text

なぜか? → モデルによる性質の違い ソースフィルタモデルによる分析合成では、 ピッチは 自由に調整できる ● ただし音質はニューラルボコーダに勝つのが難しい https://tam5917.hatenablog.com/entry/2016/03/15/183706

Slide 10

Slide 10 text

なぜか? → モデルによる性質の違い ニューラルモデルでは、主にピッチ制御性能に癖が 生じる ● 音素ごとの長さに関しては比較的制御できる ○ 学習時の一貫性が高い + フレーム数と直接対応 付けされる ● 音素ごとにピッチを変えようとすると、 狙い通りに変わると は限らない

Slide 11

Slide 11 text

ニューラルベース手法での制御

Slide 12

Slide 12 text

ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a 音響モデル FastSpeech2 など 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 13

Slide 13 text

ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 14

Slide 14 text

ニューラルモデルの概要 音響モデルで音素から音響特徴へ、ボコーダで音響 特徴から波形へと変換することが多い こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形 ピッチ制御能力は主にこの部分の性能

Slide 15

Slide 15 text

ピッチ制御できるニューラルモデル text2mel の中には、ピッチ制御機構を持つものがあ り、生成時にピッチを変えることができる FastSpeech 2: Fast and High-Quality End-to-End Text to Speech, ICLR2021

Slide 16

Slide 16 text

癖はどこで生じるか (1) text2mel を大量のデータで学習すると text2mel は ピッチ制御能力をある程度獲得する これを少量の別話者のデータで転移学習するとピッ チ制御能力は受け継がれる 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 17

Slide 17 text

癖はどこで生じるか (1) このモデルでピッチ制御をすると、音がかすれる条件 が観測できる この時、Griffin-Lim で位相復元すると、ニューラルボ コーダで大きく劣化する地点でも劣化が知覚しにくい → ニューラルボコーダでの劣化 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 18

Slide 18 text

ニューラルボコーダでの劣化の特徴 音の高さによって”かすれ”が生じる ● 無声音(非周期雑音)や無音になっていく 学習時のデータにないピッチが出ない傾向 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 19

Slide 19 text

癖はどこで生じるか (2) text2mel を大量のデータで学習すると text2mel は ピッチ制御能力を獲得する → 少量のデータでは text2mel の時点でピッチ制御 できなくなる ● Griffin-Lim で確認しても変化しない 音響モデル text2mel とも呼ぶ 音響特徴 ボコーダ HiFi-GAN など 音声波形

Slide 20

Slide 20 text

癖はどこで生じるか (2) ただし、text2mel を大量のデータで学習していても ピッチ制御能力は完璧ではない ● 出力音声は状況によって変化したりしなかったりする ● 音素 + アクセント情報から出すべき F0 を推定する pitch predictor 自体は入力によく反応する 一方で、text2mel の入力に関して、アクセント情報 は F0 より少ないデータで汎化しやすい アクセントだけピッチから切り離して考える

Slide 21

Slide 21 text

完璧なアクセント制御

Slide 22

Slide 22 text

完璧なアクセント制御 結局、大量のデータがあってもこれまでの制御は完 璧ではなかった ● 完璧なアクセント制御を実現できないか ● 少ないデータでより汎化しやすい手法であれば、完璧な 制御ができるデータを用意しやすいのではないか ● 条件付け情報が単純であればより汎化しやすいのでは → さらにシンプルなアクセント情報を検討

Slide 23

Slide 23 text

既存のアクセントラベル アクセント型とアクセント核までの距離を表すラベルを加える 手法 [太田他, 音講論(春) 2021] アクセント句の区切りと音高の上昇、下降、そして文末のラ ベルを加える手法 [Kurihara, et al., IEICE T INF SYST 2021] k 5 -4 o 5 -4 N 5 -3 n 5 -2 i 5 -2 ch 5 -1 i 5 -1 w 5 0 a 5 0 k o ^ N n i ch i w a ( こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a

Slide 24

Slide 24 text

もっと単純なアクセントラベル 音高が高い状態を H 、低い状態を L として音素の直後に併 記する手法 [吉本他, 音講論(春) 2022](類似:[神谷他, 音講論(秋) 2014]) OpenJTalk の情報から作ることはできるが、実際の収録音 声は多くの部分でこのアクセントと異なる 収録時に指示しても理想の声になるとは限らない k_L o_L N_H n_H i_H ch_H i_H w_H a_H こんにちは 入力テキスト テキスト解析 OpenJTalk など 音素 + アクセント情報 k o ^ N n i ch i w a

Slide 25

Slide 25 text

アクセント音声認識 音声認識モデルでアクセント情報を音声から予測する [吉本他, 音講論(春) 2022] (類似: [栗原清, 音講論(秋) 2021]) 音声認識での高低入りトークン誤り率 6.0 % 程度 発話内容から音素を固定し高低候補でビーム探索をするこ とで、音素誤り率 0 % 、高低誤り率 3.5 % sil k_H k_L o_H o_L N_H N_L n_H n_L i_H i_L

Slide 26

Slide 26 text

アクセント音声認識からの音声合成 音声合成の制御性能実験 ● 台本:ITA コーパス[小口他, 2021-MUS-131]の朗読 324 文 ● 話者:プロ声優男女 2 名 x 2 通りのスタイル ● 高低アノテーション:作業者 1 名、各 100 文 音高認識モデルを学習し、全ての音声をそのモデルでラベリ ング 音声合成モデルをそのデータだけで学習しても、アクセント を十分制御できる多話者モデルを実現できた

Slide 27

Slide 27 text

アクセント制御デモ

Slide 28

Slide 28 text

社内リソースを応用した音声合成

Slide 29

Slide 29 text

様々な社内リソース 広告事業部だけでも多くの音声データを所有 ● 膨大かつクリーンな広告関連データ( CSJ 並!?) ○ 社内アノテーション部隊によるラベル付き ● プロ声優による新規収録データ ● 著名人による独自収録データ ○ 音声に限らないマルチモーダルデータ ● 社内有志を集めた人海戦術による独自収録データ ● 研究・商用が可能なデータの購入 ゲーム関連でも同様に貴重なデータが… 🤫

Slide 30

Slide 30 text

日本語で x-vector + GST one-shot VC 膨大な社内データを使い、多話者モデルを作成 ● 欲しい音声のサンプルを与えると同様の声が得られる ● ランダムな声質で音声合成も可能 ● 制御能力もあり

Slide 31

Slide 31 text

まとめ AI Lab 音声チームでは、様々な事業と連携しながら 以下のような音声研究開発を進めています ● 制御性能の高い音声合成 ● 文脈を考慮した音声認識 ● 高品質な声質変換 音声や言語理解と対話に関する研究者の方との連携や 採用に非常に力を入れています お話を聞くだけも◎、以下からご連絡ください! http://cyberagent.ai/careers/ ● 機械学習エンジニア(音声 /対話) ● 機械学習エンジニア( NLP/対話) ● リサーチサイエンティスト