Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイバーエージェントの音声研究開発の取り組み | CA BASE NEXT

サイバーエージェントの音声研究開発の取り組み | CA BASE NEXT

□ 登壇者
吉本 暁文

□ 発表について
非常に少ないデータから自然な音声合成を実現する取り組みや、生成品質の向上、日本語特有のアクセントの対応、言語横断での声質変換、音声認識など、現在取り組んでいる内容の中から時間が許す限りかいつまんでお伝えします。

セッション動画はこちら

□ CA BASE NEXT (CyberAgent Developer Conference by Next Generations) とは
20代のエンジニア・クリエイターが中心となって創り上げるサイバーエージェントの技術カンファレンスです。
当日はセッション・LT・パネルディスカッション・インタビューセッションを含む約50のコンテンツをYouTube Liveを通じて配信します。
イベントページ

□ 採用情報
サイバーエージェントに少しでも興味を持っていただきましたら、お気軽にマイページ登録やエントリーをおねがいします!

◆新卒エンジニア採用
エントリー・マイページ登録はこちら
採用関連情報のまとめはこちら

◆新卒クリエイター採用
エントリー・マイページ登録はこちら

◆中途採用
採用情報はこちら

CyberAgent

May 28, 2021
Tweet

More Decks by CyberAgent

Other Decks in Technology

Transcript

  1. 吉本 暁文 画像 2017 年度 新卒入社 AI Lab / Graphics

    & Audio Team 専門領域:自然言語・音声 趣味:3DCG / 画像処理 / ハードウェア / サーバ @mulgray
  2. 何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet

    が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される Shen, Jonathan, et al. "Natural tts synthesis by conditioning wavenet on mel spectrogram predictions." ICASSP 2018. Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).
  3. 何が起きているの? •2013 年に Zen らによる深層学習ベースの手法が登場(※ ニューラル初ではない)   •2016 年に WaveNet

    が登場、声道の数理モデルが要らず表現力が飛躍的に向上   •2017 年に Tacotron が登場、人間と遜色ない品質の音声合成システムが示される 「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 ボコーダ ParallelWaveGAN など 音声波形
  4. 何が起きているの? •深層学習ベースの方が実装はシンプル   「100日生きる」 入力テキスト テキスト解析 OpenJTalk など 音素、拍、アクセント hy

    a k u | n i ch i | i k i r u 2 2 2 2 2 2 2 2 2 2 2 2 2 音響モデル Tacotron2 など 音響特徴 完全に初めての人は https://github.com/NVIDIA/tacotron2 と https://github.com/kan-bayashi/ParallelWaveGAN あたりから触ると理解が早いかも ボコーダ ParallelWaveGAN など 音声波形
  5. 声質変換 •録音に匹敵する品質の音声       •10 分程度の収録音声から学習   •話し方の癖まで変換  

    •言語横断の変換に対応   •数種類の全く異なるアルゴリズム スペイン人女性   の声質を 日本人男性   に変換 元音声 変換後 本物 Huang, Wen-Chin, et al. "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining." INTERSPEECH 2020.
  6. 今後の展望 •実はこれまで一人でやっていましたが、今後チームとしてより研究を加速します   名古屋大学 戸田智基先生と共同研究しています   •興味を持って頂ける個人・法人様からのカジュアルなお話もお待ちしています   (お気軽に  @mulgray へ DM

    、あるいは https://cyberagent.ai/careers/ )   •もちろん社内の他部署、他事業部との連携相談もお待ちしています   •今回あまり細かく触れないようにしていた様々な技術もいつかリリースへ