Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイバーエージェントの音声研究開発の取り組み | CA BASE NEXT

サイバーエージェントの音声研究開発の取り組み | CA BASE NEXT

□ 登壇者
吉本 暁文

□ 発表について
非常に少ないデータから自然な音声合成を実現する取り組みや、生成品質の向上、日本語特有のアクセントの対応、言語横断での声質変換、音声認識など、現在取り組んでいる内容の中から時間が許す限りかいつまんでお伝えします。

詳細はこちら

□ CA BASE NEXT (CyberAgent Developer Conference by Next Generations) とは
20代のエンジニア・クリエイターが中心となって創り上げるサイバーエージェントの技術カンファレンスです。
当日はセッション・LT・パネルディスカッション・インタビューセッションを含む約50のコンテンツをYouTube Liveを通じて配信します。
イベントページ

□ 採用情報
サイバーエージェントに少しでも興味を持っていただきましたら、お気軽にマイページ登録やエントリーをおねがいします!

◆新卒エンジニア採用
エントリー・マイページ登録はこちら
採用関連情報のまとめはこちら

◆新卒クリエイター採用
エントリー・マイページ登録はこちら

◆中途採用
採用情報はこちら

2016ba6b977a2e6691811fa66d5f4336?s=128

CyberAgent
PRO

May 28, 2021
Tweet

Transcript

  1. None
  2. 吉本 暁文 画像 2017 年度 新卒入社 AI Lab / Graphics

    & Audio Team 専門領域:自然言語・音声 趣味:3DCG / 画像処理 / ハードウェア / サーバ @mulgray
  3. 音声技術デモ

  4. None
  5. 音声合成

  6. Seiren Voice

  7. 何が起きているの? 2012 年頃まで、音声合成は個人では真似が難しい技術で品質も限界があった •ソースフィルタモデルによる声道の特徴の再現   •波形接続型における適切な波形の探索   https://tam5917.hatenablog.com/entry/2016/03/15/183706 https://machinelearning.apple.com/research/siri-voices

  8. 何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet

    が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される Shen, Jonathan, et al. "Natural tts synthesis by conditioning wavenet on mel spectrogram predictions." ICASSP 2018. Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).
  9. 何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet

    が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される 「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 ボコーダ ParallelWaveGAN など 音声波形
  10. 何が起きているの? •深層学習ベースの方が実装はシンプル   「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy

    a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 完全に初めての人は https://github.com/NVIDIA/tacotron2 と https://github.com/kan-bayashi/ParallelWaveGAN あたりから触ると理解が早いかも ボコーダ ParallelWaveGAN など 音声波形
  11. •録音に匹敵する品質の音声   •10 分程度の収録音声から学習   •高精度なアクセントの予測   •音素ごとの音高や長さの手動調整   •入力した音声に合わせた生成

        •繰り返し等が発生しない安定した生成 text2mel による生成 精緻化 GroundTruth AI Lab における音声合成の品質
  12. Two more things...

  13. 声質変換

  14. 声質変換 •録音に匹敵する品質の音声       •10 分程度の収録音声から学習   •話し方の癖まで変換  

    •言語横断の変換に対応   •数種類の全く異なるアルゴリズム スペイン人女性   の声質を 日本人男性   に変換 元音声 変換後 本物 Huang, Wen-Chin, et al. "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining." INTERSPEECH 2020.
  15. 音声認識

  16. 音声認識 •某社製品を凌駕する精度   •音素単位の誤り率は 1 % 台 (綺麗な音声データの場合)   •音素ごとの発音時間の付与

      •内部状態から、電話応対などに有効な補正   •感情などの音声特徴の分析  
  17. 今後の展望

  18. 今後の展望 •実はこれまで一人でやっていましたが、今後チームとしてより研究を加速します   名古屋大学 戸田智基先生と共同研究しています   •興味を持って頂ける個人・法人様からのカジュアルなお話もお待ちしています   (お気軽に  @mulgray へ DM

    、あるいは https://cyberagent.ai/careers/ )   •もちろん社内の他部署、他事業部との連携相談もお待ちしています   •今回あまり細かく触れないようにしていた様々な技術もいつかリリースへ
  19. None