Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声変換と生成AI:開発者視点からの1.5年の振り返り

 音声変換と生成AI:開発者視点からの1.5年の振り返り

# この1.5年の音声変換と生成AIの進化

前々回 2022/6/25 に「リアルタイムボイスチェンジャー MMVCとvitsの紹介」
https://speakerdeck.com/stealthinu/riarutaimuboisutienziyammvctovitsfalseshao-jie
で、ずんだもんでリアルタイム音声変換して発表を行いました。

- 現時点からあの頃をみると、このときまさに**生成AIブーム前夜**でした
- この1年半で急速に進化普及した「生成AI」を音声変換を中心に振り返る
- 技術解説だけでなく自分の仕事を振り返りつつ解説

SATOH Kiyoshi

January 28, 2024
Tweet

More Decks by SATOH Kiyoshi

Other Decks in Programming

Transcript

  1. 音声生成系のおおきめな変化まとめ 2021/ 6 vits(テキスト音声生成論文) 2021/ 6 HuBERT(音素情報抽出) 2021/ 8 VOICEVOX(日本のOSSテキスト音声生成)

    2022/ 3 MMVC(日本のOSSリアルタイム音声変換) 2022/ 9 sovits(中国のOSSテキスト音声変換) 2022/ 9 Whisper(音声の高品質文字書き起こし) 2022/ 9 Lyra V2(GoogleのOSS音声圧縮) 2023/ 4 RVC(中国のOSSテキスト音声変換) 2023/ 9 Bert-VITS2(中国のOSS感情付きテキスト音声生成) 2023/ 9 Suno.AIベータサービス開始(楽曲生成サービス) 2023/12 ParakeetVC(低遅延低負荷リアルタイム音声変換) 6
  2. 自分のやってたこと 2022/ 4 MMVC開発にcommit開始 2022/ 6 勉強会で発表 2022/ 7 ノイズリダクションで大幅に精度が良くなることがわかる

    2022/ 8 男性声→女性声の精度問題がf0導入で解決目処 2022/ 9 無学習変換(sovitsのHuBERTで解決目処) 2022/10 MMVCでHuBERT導入開始 2022/12 ONNX化(NVIDIAのグラボ以外でも変換可に) 2023/ 1 Windowsネイティブ化 2023/ 3 TFLite化とUnity対応(Unity対応=Android対応=Quest対応) 2023/ 4 Lyra組み込み 7
  3. vits 2021/6 高速高品質の End to End Text to Speach (TTS)

    論文 Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text- to-Speech https://arxiv.org/abs/2106.06103 vitsの公式実装 https://github.com/jaywalnut310/vits テキストから音声を生成するものだが音声変換もできる VAE/GAN/Flowと3つの生成モデルを使っている(diffusionは使っていない) 高品質なのはEnd to Endだったからだと思う 8
  4. (自分) TFLite化とUnity対応 2023/ 3 Questで動かす=Androidで動かす=TFLite化する必要がある ONNX -> TFLite化 出来る神ツール onnx2tf

    onnx2tf作者のPINTOさんにすごいフォローしていただいた Unity対応=Android対応=Quest対応 27
  5. ディープラーニング/AGIについての予想 過去の勉強会でこんな話をしていたことがあった 2018/5/26 NSEG 勉強会 #100 / 第 31 回フリーテーマプレゼン大会

    - connpass https://nseg.connpass.com/event/86278/ 「シンギュラリティはくるの?」 2019/2/16 フリーテーマプレゼン大会 in GEEKLAB.NAGANO - connpass https://glnagano.connpass.com/event/111883/ 「ディープラーニングはブームで終わらなそう」 39
  6. まとめ ディープラーニング系の開発はものすごい速さで進んでいる 常に巨人や対抗から新しい技術や進歩が出ることを見越す必要がある LLMの進化は GPT-2 -> GPT-3.5 -> GPT-4 と見ると想像が出来る

    GPT-2:幼稚園児 GPT-3.5:知ったかぶりな中2 GPT-4:超ものしりな大1 「Attention Is All You Need」(2017/6)から5年でGPT-4の地点 GPT-4から5年後では完全に自分は抜かれてるはず 44