Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
高音質リアルタイム声質変換 Chainer Meetup LT #1
Search
Hiroshiba
April 18, 2019
0
460
高音質リアルタイム声質変換 Chainer Meetup LT #1
Chainer Meetup LT #1の資料です。
https://chainer.connpass.com/event/81556/
Hiroshiba
April 18, 2019
Tweet
Share
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
53
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
96
Ethics towards AI in product and experience design
skipperchong
1
150
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
63
How STYLIGHT went responsive
nonsquared
100
6k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
What the history of the web can teach us about the future of AI
inesmontani
PRO
0
380
For a Future-Friendly Web
brad_frost
180
10k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
Transcript
高音質リアルタイム声質変換 廣芝 和之 2018/03/22
自己紹介 ドワンゴ Dwango Media Village、研究開発チーム 好きなゲーム Splatoon 一番好きなバーチャルYoutuber 輝夜月 今期イチオシアニメ
デスマーチからはじまる異世界協奏曲 5XJUUFS*%!IJIP@LBSVUB
なりたい姿になる技術は進んでいる 例: バーチャルYoutuber なりたい声になる技術が遅れている 理想のシステム リアルタイムで 高音質で 誰の声でも変換できて 誰の声にも変換できるやつ 見た目の仮想化は進んでいる
5XJUUFS*%!IJIP@LBSVUB ࠓճϦΞϧλΠϜˍߴԻ࣭ͷ࣮ݱʹνϟϨϯδ
音声合成ソフトウェアの一種 VOICELOID VOCALOID 中の人は石黒千尋さん 音声合成にすごく適した声の持ち主 通称「波形美人」 結月ゆかりを目指す ʮ͋ΒΏΔݱ࣮Λɺશͯɺࣗͷํ೧͡ۂ͛ͨͷͩɻʯ
σΟʔϓϥʔχϯάͷྗͰ ݄݁Ώ͔ΓͷʹͳͬͯΈ·ͨ͠
リアルタイム声質変換デモ GPU付きPCが必要 持ってこなかったので動画 遅延は3〜4秒 バッファの幅1秒 音響特徴量抽出1〜2秒 GPU処理が1秒
ゲーム実況プレイデモ ディープラーニングの力で結月ゆかりの声になってみた http://www.nicovideo.jp/watch/sm32724409 録音した音声と変換結果を重ねた 笑い声も変換できている
モデルの工夫1 2段階構成にした 高音質な変換を学習させるには、大量のペアデータが必要になる 低音質変換と高音質化に分けた Ի࣭
݄݁Ώ͔Γ ߴԻ࣭ ݄݁Ώ͔Γ ม ߴԻ࣭Խ ɾػցֶश࣌ʹগͷϖΞσʔλ͕ඞཁ ɾػցֶश࣌ʹϖΞσʔλෆཁ ɹʢେྔͷԻσʔλ͕͋Ε͍͍ʣ
モデルの工夫2 画像分野の手法(pix2pix)を転用した 音声を時間×周波数の「絵」として捉える 時間方向にも周波数方向にも繰り返し構造があるので、CNNと相性が良いはず ߴԻ࣭Խલ ߴԻ࣭Խޙ
その他 技術寄りの解説記事やデモ動画を公開してます 「ディープラーニング 結月ゆかり」で検索! コードもGitHubで公開しています chainer製 「become-yukarin」で検索! 課題 変換結果の滑舌が悪い → 学習データのチューニングでマシになった 僕の声にしか対応してない → 誰の声でも変換できるように頑張ってます
ʮਫ্͕͕͖ͬͯͨΒɺ ͋ͱΏͬ͘Γͱɺ ্Լͤ͞Εྑ͍ʯ
ご静聴ありがとうございました
自己紹介 ドワンゴ Dwango Media Village、研究開発チーム 好きなゲーム Splatoon 一番好きなバーチャルYoutuber 輝夜月 今期イチオシアニメ
デスマーチからはじまる異世界協奏曲 5XJUUFS*%!IJIP@LBSVUB