Slide 1

Slide 1 text

No content

Slide 2

Slide 2 text

吉本 暁文 画像 2017 年度 新卒入社 AI Lab / Graphics & Audio Team 専門領域:自然言語・音声 趣味:3DCG / 画像処理 / ハードウェア / サーバ @mulgray

Slide 3

Slide 3 text

音声技術デモ

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

音声合成

Slide 6

Slide 6 text

Seiren Voice

Slide 7

Slide 7 text

何が起きているの? 2012 年頃まで、音声合成は個人では真似が難しい技術で品質も限界があった •ソースフィルタモデルによる声道の特徴の再現   •波形接続型における適切な波形の探索   https://tam5917.hatenablog.com/entry/2016/03/15/183706 https://machinelearning.apple.com/research/siri-voices

Slide 8

Slide 8 text

何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される Shen, Jonathan, et al. "Natural tts synthesis by conditioning wavenet on mel spectrogram predictions." ICASSP 2018. Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).

Slide 9

Slide 9 text

何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される 「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 ボコーダ ParallelWaveGAN など 音声波形

Slide 10

Slide 10 text

何が起きているの? •深層学習ベースの方が実装はシンプル   「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 完全に初めての人は https://github.com/NVIDIA/tacotron2 と https://github.com/kan-bayashi/ParallelWaveGAN あたりから触ると理解が早いかも ボコーダ ParallelWaveGAN など 音声波形

Slide 11

Slide 11 text

•録音に匹敵する品質の音声   •10 分程度の収録音声から学習   •高精度なアクセントの予測   •音素ごとの音高や長さの手動調整   •入力した音声に合わせた生成     •繰り返し等が発生しない安定した生成 text2mel による生成 精緻化 GroundTruth AI Lab における音声合成の品質

Slide 12

Slide 12 text

Two more things...

Slide 13

Slide 13 text

声質変換

Slide 14

Slide 14 text

声質変換 •録音に匹敵する品質の音声       •10 分程度の収録音声から学習   •話し方の癖まで変換   •言語横断の変換に対応   •数種類の全く異なるアルゴリズム スペイン人女性   の声質を 日本人男性   に変換 元音声 変換後 本物 Huang, Wen-Chin, et al. "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining." INTERSPEECH 2020.

Slide 15

Slide 15 text

音声認識

Slide 16

Slide 16 text

音声認識 •某社製品を凌駕する精度   •音素単位の誤り率は 1 % 台 (綺麗な音声データの場合)   •音素ごとの発音時間の付与   •内部状態から、電話応対などに有効な補正   •感情などの音声特徴の分析  

Slide 17

Slide 17 text

今後の展望

Slide 18

Slide 18 text

今後の展望 •実はこれまで一人でやっていましたが、今後チームとしてより研究を加速します   名古屋大学 戸田智基先生と共同研究しています   •興味を持って頂ける個人・法人様からのカジュアルなお話もお待ちしています   (お気軽に  @mulgray へ DM 、あるいは https://cyberagent.ai/careers/ )   •もちろん社内の他部署、他事業部との連携相談もお待ちしています   •今回あまり細かく触れないようにしていた様々な技術もいつかリリースへ

Slide 19

Slide 19 text

No content