高音質リアルタイム声質変換 Chainer Meetup LT #1

D3063b8dec46ae4e99b37204cbe4984c?s=47 Hiroshiba
April 18, 2019
100

高音質リアルタイム声質変換 Chainer Meetup LT #1

Chainer Meetup LT #1の資料です。
https://chainer.connpass.com/event/81556/

D3063b8dec46ae4e99b37204cbe4984c?s=128

Hiroshiba

April 18, 2019
Tweet

Transcript

  1. 高音質リアルタイム声質変換 廣芝 和之 2018/03/22

  2. 自己紹介   ドワンゴ   Dwango Media Village、研究開発チーム   好きなゲーム   Splatoon   一番好きなバーチャルYoutuber   輝夜月   今期イチオシアニメ

      デスマーチからはじまる異世界協奏曲   5XJUUFS*%!IJIP@LBSVUB
  3.   なりたい姿になる技術は進んでいる   例: バーチャルYoutuber   なりたい声になる技術が遅れている   理想のシステム   リアルタイムで   高音質で   誰の声でも変換できて   誰の声にも変換できるやつ 見た目の仮想化は進んでいる 

     5XJUUFS*%!IJIP@LBSVUB ࠓճ͸ϦΞϧλΠϜˍߴԻ࣭ͷ࣮ݱʹνϟϨϯδ
  4.   音声合成ソフトウェアの一種   VOICELOID   VOCALOID   中の人は石黒千尋さん   音声合成にすごく適した声の持ち主   通称「波形美人」 結月ゆかりを目指す   ʮ͋ΒΏΔݱ࣮Λɺશͯɺࣗ෼ͷํ΁೧͡ۂ͛ͨͷͩɻʯ

    σΟʔϓϥʔχϯάͷྗͰ ݄݁Ώ͔Γͷ੠ʹͳͬͯΈ·ͨ͠
  5. リアルタイム声質変換デモ   GPU付きPCが必要   持ってこなかったので動画   遅延は3〜4秒   バッファの幅1秒   音響特徴量抽出1〜2秒   GPU処理が1秒  

  6. ゲーム実況プレイデモ   ディープラーニングの力で結月ゆかりの声になってみた   http://www.nicovideo.jp/watch/sm32724409   録音した音声と変換結果を重ねた   笑い声も変換できている  

  7. モデルの工夫1   2段階構成にした   高音質な変換を学習させるには、大量のペアデータが必要になる   低音質変換と高音質化に分けた   ๻  ௿Ի࣭ 

    ݄݁Ώ͔Γ  ߴԻ࣭  ݄݁Ώ͔Γ  ม׵ ߴԻ࣭Խ ɾػցֶश࣌ʹগ਺ͷϖΞσʔλ͕ඞཁ ɾػցֶश࣌ʹϖΞσʔλ͸ෆཁ ɹʢେྔͷԻ੠σʔλ͕͋Ε͹͍͍ʣ
  8. モデルの工夫2   画像分野の手法(pix2pix)を転用した   音声を時間×周波数の「絵」として捉える   時間方向にも周波数方向にも繰り返し構造があるので、CNNと相性が良いはず   ߴԻ࣭Խલ ߴԻ࣭Խޙ

  9. その他   技術寄りの解説記事やデモ動画を公開してます   「ディープラーニング 結月ゆかり」で検索!   コードもGitHubで公開しています   chainer製   「become-yukarin」で検索!   課題   変換結果の滑舌が悪い → 学習データのチューニングでマシになった   僕の声にしか対応してない → 誰の声でも変換できるように頑張ってます 

     ʮਫ্͕͕͖ͬͯͨΒɺ ͋ͱ͸Ώͬ͘Γͱɺ ্Լͤ͞Ε͹ྑ͍ʯ
  10. ご静聴ありがとうございました

  11. 自己紹介   ドワンゴ   Dwango Media Village、研究開発チーム   好きなゲーム   Splatoon   一番好きなバーチャルYoutuber   輝夜月   今期イチオシアニメ

      デスマーチからはじまる異世界協奏曲   5XJUUFS*%!IJIP@LBSVUB