Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声変換と生成AI:開発者視点からの1.5年の振り返り

 音声変換と生成AI:開発者視点からの1.5年の振り返り

# この1.5年の音声変換と生成AIの進化

前々回 2022/6/25 に「リアルタイムボイスチェンジャー MMVCとvitsの紹介」
https://speakerdeck.com/stealthinu/riarutaimuboisutienziyammvctovitsfalseshao-jie
で、ずんだもんでリアルタイム音声変換して発表を行いました。

- 現時点からあの頃をみると、このときまさに**生成AIブーム前夜**でした
- この1年半で急速に進化普及した「生成AI」を音声変換を中心に振り返る
- 技術解説だけでなく自分の仕事を振り返りつつ解説

SATOH Kiyoshi

January 28, 2024
Tweet

More Decks by SATOH Kiyoshi

Other Decks in Programming

Transcript

  1. 音声変換と生成AI:開発者視点からの1.5年の振り返り
    NSEG #108
    2024/1/27
    さとうきよし
    @stealthinu

    View full-size slide

  2. この1.5年の音声変換と生成AIの進化
    前々回 2022/6/25 に「リアルタイムボイスチェンジャー MMVCとvitsの紹介」
    https://speakerdeck.com/stealthinu/riarutaimuboisutienziyammvctovitsfalseshao-jie
    で、ずんだもんでリアルタイム音声変換して発表を行いました。
    現時点からあの頃をみると、このときまさに生成AIブーム前夜でした
    この1年半で急速に進化普及した「生成AI」を音声変換を中心に振り返る
    技術解説だけでなく自分の仕事を振り返りつつ解説
    2

    View full-size slide

  3. この話の着地点
    僕の仕事はあと4年でなくなる
    (ChatGPT-4誕生の5年後)
    3

    View full-size slide

  4. 自分がなにをやっていたか
    2021/10 2001年から受注していたISPの仕事が終わる
    2021/12 VR系ベンチャーのMMORPG開発プロジェクトに参加
    2022/ 3 VR世界内で音声通信のニューラル圧縮を研究開始
    VR世界の中でボイスチェンジ出来る音声通話を実現させる
    Quest2で無学習でデータ圧縮と低遅延リアルタイム音声変換出来るようにする
    MMVCベースで、低遅延、低負荷、データ圧縮、に振ったものを作る
    今回は僕視点でこの1年半どうだったかを話します
    4

    View full-size slide

  5. 生成AI系のすごく重要な変革まとめ
    2022/ 7/13 Midjourneyがオープンベータ開始し画像生成AIが認知される
    2022/ 8/22 Stable Diffusionの公開しオープンソースで急速に進化
    2022/11/30 ChatGPT(ChatGPT-3.5)がサービススタートで衝撃
    2023/ 3/15 ChatGPT-4がサービススタートし仕事に使えるレベルになる
    5

    View full-size slide

  6. 音声生成系のおおきめな変化まとめ
    2021/ 6 vits(テキスト音声生成論文)
    2021/ 6 HuBERT(音素情報抽出)
    2021/ 8 VOICEVOX(日本のOSSテキスト音声生成)
    2022/ 3 MMVC(日本のOSSリアルタイム音声変換)
    2022/ 9 sovits(中国のOSSテキスト音声変換)
    2022/ 9 Whisper(音声の高品質文字書き起こし)
    2022/ 9 Lyra V2(GoogleのOSS音声圧縮)
    2023/ 4 RVC(中国のOSSテキスト音声変換)
    2023/ 9 Bert-VITS2(中国のOSS感情付きテキスト音声生成)
    2023/ 9 Suno.AIベータサービス開始(楽曲生成サービス)
    2023/12 ParakeetVC(低遅延低負荷リアルタイム音声変換)
    6

    View full-size slide

  7. 自分のやってたこと
    2022/ 4 MMVC開発にcommit開始
    2022/ 6 勉強会で発表
    2022/ 7 ノイズリダクションで大幅に精度が良くなることがわかる
    2022/ 8 男性声→女性声の精度問題がf0導入で解決目処
    2022/ 9 無学習変換(sovitsのHuBERTで解決目処)
    2022/10 MMVCでHuBERT導入開始
    2022/12 ONNX化(NVIDIAのグラボ以外でも変換可に)
    2023/ 1 Windowsネイティブ化
    2023/ 3 TFLite化とUnity対応(Unity対応=Android対応=Quest対応)
    2023/ 4 Lyra組み込み
    7

    View full-size slide

  8. vits
    2021/6
    高速高品質の End to End Text to Speach (TTS) 論文
    Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-
    to-Speech https://arxiv.org/abs/2106.06103
    vitsの公式実装 https://github.com/jaywalnut310/vits
    テキストから音声を生成するものだが音声変換もできる
    VAE/GAN/Flowと3つの生成モデルを使っている(diffusionは使っていない)
    高品質なのはEnd to Endだったからだと思う
    8

    View full-size slide

  9. vitsの構成図
    エンコーダーで音の特徴量抽出
    デコーダーで特徴量から音生成
    VAEとGANで音声生成の学習
    TransformerとMASで特徴量抽出
    Flowで特徴量と音素との学習
    9

    View full-size slide

  10. HuBERT
    2021/ 6
    Facebookの音素情報抽出
    音声から「a」とか「k」とかの音素を抽出する
    音素自体の抽出よりその一つ手前の音素の概念を抽出している音素特徴量が重要
    10

    View full-size slide

  11. VOICEVOX
    2021/ 8
    日本のOSSテキスト音声生成
    Deeplearningを用いたテキストから音声生成の老舗
    テキストから音声製というとVOICEVOXだろう
    他のOSSテキスト音声生成へも多きな影響を持っている
    色々なキャラクタ性を持った音声があるところも特徴
    11

    View full-size slide

  12. MMVC
    2022/ 3
    日本のOSSリアルタイム音声変換
    MMVC_Trainer https://github.com/isletennos/MMVC_Trainer
    vitsベースでリアルタイム音声変換ができる
    GPUなくてもColab上で好きな音声を学習可能
    リアルタイム音声変換を行えるクライアントも提供される
    12

    View full-size slide

  13. (自分) MMVC開発にcommit開始
    2022/ 4
    ニューラル圧縮をするためにespnetなどを触っていた
    MMVCをニュースサイトで見かけて試してみる
    リアルタイム音声変換が行えて音質も良いことがわかった
    OSSでColabを利用していて、ユーザに開かれているコミュニティ
    OSSでは主にクライアント部分の改善を行なっていた
    13

    View full-size slide

  14. (自分) 勉強会で発表
    2022/ 6
    MMVCへのコミットをぼちぼち始めてvitsの仕組みがやっとわかったあたり
    「vits完全に理解した」状況だった…
    リアルタイム音声変換はまだまだ目新しいものだった
    14

    View full-size slide

  15. Midjourney
    2022/ 7/13
    Midjourneyがオープンベータ開始し画像生成AIが認知される
    この頃は今と比べるとまだまだ低品質な画像だった
    でも当時としては衝撃的な品質の画像が生成できるサービスだった
    Diffusion Modelで生成(たぶん)
    15

    View full-size slide

  16. (自分) ノイズリダクションで大幅に品質が良くなるこ
    とがわかる
    2022/ 7
    ネットワークの改善やDAなど他の仕組みの改善をやっていた
    ユーザの学習音声と報告からノイズリダクションで大幅に品質がよくなることが
    わかった
    ニューラルネットはノイズまで再現しようと無駄な努力をしてしまう
    良いデータがとにかく大事
    16

    View full-size slide

  17. (自分) 男性声→女性声の精度問題がf0導入で解決目処
    2022/ 8
    男性が女性声に変換すると品質が低い課題があった
    vitsには音程の違いを吸収する仕組みや補佐する専用の仕組みがなかった
    事前フィルタで音程を変えてから変換すると品質が上がることがわかった
    f0抽出して事前に変換することで解決目処がたつ
    17

    View full-size slide

  18. Stable Diffusion
    2022/ 8/22
    オープンソースで公開される
    学習済みのモデルも公開される
    最初はMidjourneyよりも品質が低かった
    オープンソースでユーザにより急激に開発が進んだ
    Diffusion Modelで生成
    18

    View full-size slide

  19. sovits
    2022/ 9
    中国のOSSテキスト音声変換
    HuBERTとf0入りでvitsベース
    音素をHuBERTで与えられるためテキストコーパスが不要
    HuBERTで音素認識するためユーザ音声学習不要
    中国系開発者が入ってくるきっかけとなったと思う
    少なくとも初期の頃は日本アニメとかをコーパスで使っていた
    RVCの元となる
    19

    View full-size slide

  20. (自分) 無学習変換
    2022/ 9
    ユーザにデータ作成などせず無学習で変換ができるようにしたい
    sovitsはHuBERTで音素認識したものを使い変換を行なって十分な精度が出ていた
    MMVCでもHuBERTを利用した学習モデルを使うようになった
    MMVCはHuBERTも使うが品質優先でユーザの音声ありで学習させる方針
    少なくとも無学習変換はsovitsの手法で目処がたった
    20

    View full-size slide

  21. Whisper
    2022/ 9
    Googleの高品質な音声の文字書き起こし
    それまでの文字起こしと比べディープラーニングで大規模な学習が行われた超高
    性能な文字起こしが無料で使えるように
    音声からの自動書き起こしが可能になりテキストコーパスが自動で作れるように
    なった
    21

    View full-size slide

  22. Lyra V2
    2022/ 9
    GoogleのOSS音声圧縮
    超低ビットレートでもだいぶ高音質
    データを途中で切ってビットレートを変更出来る超絶ありがたい機能がある
    22

    View full-size slide

  23. (自分) MMVCでHuBERT導入開始
    2022/10
    HuBERTとf0導入して無学習音声変換が出来る、軽くて遅延の少ない独自モデルを
    目指す
    23

    View full-size slide

  24. ChatGPT
    2022/11/30
    ChatGPT(ChatGPT-3.5)がサービススタートで衝撃
    24

    View full-size slide

  25. (自分) ONNX化
    2022/12
    NVIDIAのグラボ以外でも変換可に
    DirectMLで動かせるようになる
    AMDでは動くのだがIntelのは動くのだが重くて結局ダメ
    25

    View full-size slide

  26. (自分) Windowsネイティブ化
    2023/ 1
    Pythonで書かれたクライアントをC#のネイティブアプリとして作り直す
    Nuitka化やPyInstaller化の問題を解決
    フットプリントが強烈に小さく出来る
    26

    View full-size slide

  27. (自分) TFLite化とUnity対応
    2023/ 3
    Questで動かす=Androidで動かす=TFLite化する必要がある
    ONNX -> TFLite化 出来る神ツール onnx2tf
    onnx2tf作者のPINTOさんにすごいフォローしていただいた
    Unity対応=Android対応=Quest対応
    27

    View full-size slide

  28. ChatGPT-4
    2023/ 3/15
    ChatGPT-4がサービススタートし仕事に使えるレベルになる
    28

    View full-size slide

  29. RVC
    2023/ 4
    中国のOSSテキスト音声変換
    sovitsベース
    Retrievalを使って似たベクトルを選んで生成
    圧倒的に少ない学習時間で十分高品質
    最初、sovitsとあまりに変更点が少ないのにすごく学習時間が短くて高品質になる
    ため、いったいなにが違うのか、だいぶ調査した
    29

    View full-size slide

  30. (自分) Lyra組み込み
    2023/ 4
    VR内で音声圧縮と音声変換してQuestで使えるようにする
    Lyraで圧縮とMMVCの音声変換してQuestでとりあえず動くようになった
    サーバでユーザ毎にビットレートを変更出来るのでVR世界向けにとても良い
    30

    View full-size slide

  31. Bert-VITS2
    2023/ 9
    「感情付き」でテキストから音声生成が出来る
    BERTで文章の「感情」も一緒にして学習してしまう
    BERTで文章の「感情」もベクトルに含めて生成する
    非常に高品質で自然なテキスト音声生成が可能
    31

    View full-size slide

  32. Suno.AIベータサービス開始
    2023/ 9
    楽曲生成サービス
    単なる音声生成ではなく楽曲生成とボーカル音声生成
    単純な「音声生成」というサービスのステージではなくなった
    32

    View full-size slide

  33. ParakeetVC
    2023/12
    超低遅延低負荷リアルタイム音声変換
    まだPCのみだがたぶんスマホ対応を目指しているはず
    超低遅延で超低負荷であることがうり
    33

    View full-size slide

  34. 前回プレゼンで書いてた「今後の目標」
    無学習または小データと短い学習での変換を可能に
    たくさん学習データを作ったり学習時間がかかるのがハードル
    無学習での変換ができるとだいぶ応用が広がる
    変換の高品質化
    VITSは元々TTSのために作られていて変換だけを目的に作られてるわけじゃない
    だから変換特化で高品質化できるのでは
    低遅延化
    VITSの場合音素情報まで落とし込まないので原理的に遅延は少ない
    0.2秒以下の遅延にできたらよいが
    クライアントのネイティブ化
    Nuitkaのexeはでかすぎる
    VOICEBOXではONNX使ってネイティブで動くようになってる
    34

    View full-size slide

  35. 元々の目標は達成した
    それどころか想定以上の高品質、低遅延、高圧縮率が実現される
    自分がやった部分も多少あるが、周辺の技術の進歩が莫大だった
    書いたものが巨人によって蹂躙されるのを体験
    35

    View full-size slide

  36. 音声生成の個別技術の進化はほぼ完了した
    one-shot/few-shotでの生成
    感情付き生成
    楽曲生成
    音声の生成に+αの研究やサービスが求められるステージに
    36

    View full-size slide

  37. 書いているとすごい技術がでて捨てることになる
    HuBERTで音素抽出することで無学習変換可能に
    Whisperの文字起こしで音声からコーパスが作成可能に
    sovitsやRVCのような対抗OSSでの各種改善手法
    f0抽出の高品質化
    開発していると上記のようなことが起きて、書いてたものを何度か捨てた
    ディープラーニングやLLM系の開発では常にこの視点を持ってたほうが良い
    37

    View full-size slide

  38. 中国チームの台頭
    人材の厚さ
    日本のアニメコンテンツへの愛
    著作権に対しての意識がゆるい
    メインストリームは中国へ
    日本もがんばってはいる
    日本の学術でディープラーニングの音声系は強い分野
    製品もボカロ文化もあって音声生成系は多め
    38

    View full-size slide

  39. ディープラーニング/AGIについての予想
    過去の勉強会でこんな話をしていたことがあった
    2018/5/26
    NSEG 勉強会 #100 / 第 31 回フリーテーマプレゼン大会 - connpass
    https://nseg.connpass.com/event/86278/
    「シンギュラリティはくるの?」
    2019/2/16
    フリーテーマプレゼン大会 in GEEKLAB.NAGANO - connpass
    https://glnagano.connpass.com/event/111883/
    「ディープラーニングはブームで終わらなそう」
    39

    View full-size slide

  40. 「ディープラーニングはブームじゃない話」から引用
    2019-02-15 の勉強会で話をしたものから
    40

    View full-size slide

  41. 2019-02-15
    ※2014~2018の画像生成の進化であることに注意 この頃はまだ「顔」しか生成出来
    なかったしプロンプトでの生成も出来なかった
    GANによる画像生成の進化
    GAN(2014) 2015アニメ DCGAN(2016) Style(2018) 2018アニメ
    41

    View full-size slide

  42. 2019-02-15
    ※GPT-2では、同じネットワークを使っているのにプロンプトを変えると違うタスク
    が出来る!ということそのものに驚いていることに注意
    言語タスク(文章生成)
    同じネットワークで文章生成、QA、翻訳などできる
    文章与えて「A:」とか「french sentence =」で 42

    View full-size slide

  43. 2019-02-15
    ディープラーニングの進歩は続いてる
    分野によりすでに人間を超えている
    今も新しい手法が出続けている
    進歩がものすごく速い
    今は「おもちゃ」と思えるものも3年後は?
    43

    View full-size slide

  44. まとめ
    ディープラーニング系の開発はものすごい速さで進んでいる
    常に巨人や対抗から新しい技術や進歩が出ることを見越す必要がある
    LLMの進化は GPT-2 -> GPT-3.5 -> GPT-4 と見ると想像が出来る
    GPT-2:幼稚園児 GPT-3.5:知ったかぶりな中2 GPT-4:超ものしりな大1
    「Attention Is All You Need」(2017/6)から5年でGPT-4の地点
    GPT-4から5年後では完全に自分は抜かれてるはず
    44

    View full-size slide

  45. おまけ
    「音声変換と生成AI:開発者視点からの1.5年の振り返り」
    このタイトルはChatGPTさんと話し合って決めました
    https://chat.openai.com/share/1a2559b3-c1c3-46bf-811c-2fa6ef2c03f9
    45

    View full-size slide