本発表では、AI研究開発部音声チームが開発している音声変換技術について紹介します。音声変換とは自分の声を別人の声に変える技術です。近年、VTuber、ライブ配信、ボイスチャット、メタバースなどの盛り上がりにともない、自分の声を好みの声やお気に入りのキャラクターの声に変えたいという需要が高まっており、我々はその実現に向けて取り組んでいます。
現在開発中の音声変換技術は「VOICE AVATAR 七声ニーナ」というWebサービスで使われています。七声ニーナは、「AIを用いた完全なキャラクター声の再現」を目指して、従来では難しかった誰の声からでもキャラクターの声へと変換できる音声変換を、洗練されたUIと親しみ易いキャラクターと共にお届けしました。
その七声ニーナの立ち上げと運用を経て受け止めた皆様の熱い想いを振り返るとともに、今後どのような形で昇華していくか?音声変換技術のライブ配信アプリへの導入を見据えた、リアルタイム化に関する取り組みを、研究開発の最前線からお伝えします。
資料内でのリンク集:
p30, https://dena.ai/story/nanakoe-nina/
p33, https://engineering.dena.com/blog/2021/04/voice-avatar-backend/
p34-1, https://fastapi.tiangolo.com/
p34-2, https://pgjones.gitlab.io/hypercorn/
p36-1.2, https://design.dena.com/design/nanakoe-nina2
p37, https://design.dena.com/design/nanakoe-nina
p44, https://github.com/aiortc/aiortc
p45-1, https://www.jstage.jst.go.jp/article/jasj/73/7/73_404/_pdf
p45-2, https://caniuse.com/?search=webassembly
p47, https://superpowered.com/webbrowserlatency
p48-1.2, https://android-developers.googleblog.com/2021/03/an-update-on-androids-audio-latency.html
p52, https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html
p54-1, https://github.com/KinWaiCheuk/nnAudio
p54-2, https://github.com/keunwoochoi/kapre
p55-1, https://github.com/open-mmlab/mmdeploy
p55-2, https://openmmlab.com/
p55-3, https://mmdeploy.readthedocs.io/en/latest/tutorials/how_to_support_new_models.html?highlight=Function#function-rewriter
p55-4, https://github.com/open-mmlab/mmdeploy
p57, https://dena.ai/
◆ You Tube
https://youtu.be/97Shx8I4KI8
◆ You Tube チャンネル登録はこちら↓
https://youtube.com/c/denatech?sub_confirmation=1
◆ Twitter
https://twitter.com/DeNAxTech
◆ DeNA Engineering
https://engineering.dena.com/
◆ DeNA Engineer Blog
https://engineering.dena.com/blog/
◆ DeNA TechCon 2022 公式サイト
https://techcon2022.dena.dev/spring/