Slide 1

Slide 1 text

音声変換と生成AI:開発者視点からの1.5年の振り返り NSEG #108 2024/1/27 さとうきよし @stealthinu

Slide 2

Slide 2 text

この1.5年の音声変換と生成AIの進化 前々回 2022/6/25 に「リアルタイムボイスチェンジャー MMVCとvitsの紹介」 https://speakerdeck.com/stealthinu/riarutaimuboisutienziyammvctovitsfalseshao-jie で、ずんだもんでリアルタイム音声変換して発表を行いました。 現時点からあの頃をみると、このときまさに生成AIブーム前夜でした この1年半で急速に進化普及した「生成AI」を音声変換を中心に振り返る 技術解説だけでなく自分の仕事を振り返りつつ解説 2

Slide 3

Slide 3 text

この話の着地点 僕の仕事はあと4年でなくなる (ChatGPT-4誕生の5年後) 3

Slide 4

Slide 4 text

自分がなにをやっていたか 2021/10 2001年から受注していたISPの仕事が終わる 2021/12 VR系ベンチャーのMMORPG開発プロジェクトに参加 2022/ 3 VR世界内で音声通信のニューラル圧縮を研究開始 VR世界の中でボイスチェンジ出来る音声通話を実現させる Quest2で無学習でデータ圧縮と低遅延リアルタイム音声変換出来るようにする MMVCベースで、低遅延、低負荷、データ圧縮、に振ったものを作る 今回は僕視点でこの1年半どうだったかを話します 4

Slide 5

Slide 5 text

生成AI系のすごく重要な変革まとめ 2022/ 7/13 Midjourneyがオープンベータ開始し画像生成AIが認知される 2022/ 8/22 Stable Diffusionの公開しオープンソースで急速に進化 2022/11/30 ChatGPT(ChatGPT-3.5)がサービススタートで衝撃 2023/ 3/15 ChatGPT-4がサービススタートし仕事に使えるレベルになる 5

Slide 6

Slide 6 text

音声生成系のおおきめな変化まとめ 2021/ 6 vits(テキスト音声生成論文) 2021/ 6 HuBERT(音素情報抽出) 2021/ 8 VOICEVOX(日本のOSSテキスト音声生成) 2022/ 3 MMVC(日本のOSSリアルタイム音声変換) 2022/ 9 sovits(中国のOSSテキスト音声変換) 2022/ 9 Whisper(音声の高品質文字書き起こし) 2022/ 9 Lyra V2(GoogleのOSS音声圧縮) 2023/ 4 RVC(中国のOSSテキスト音声変換) 2023/ 9 Bert-VITS2(中国のOSS感情付きテキスト音声生成) 2023/ 9 Suno.AIベータサービス開始(楽曲生成サービス) 2023/12 ParakeetVC(低遅延低負荷リアルタイム音声変換) 6

Slide 7

Slide 7 text

自分のやってたこと 2022/ 4 MMVC開発にcommit開始 2022/ 6 勉強会で発表 2022/ 7 ノイズリダクションで大幅に精度が良くなることがわかる 2022/ 8 男性声→女性声の精度問題がf0導入で解決目処 2022/ 9 無学習変換(sovitsのHuBERTで解決目処) 2022/10 MMVCでHuBERT導入開始 2022/12 ONNX化(NVIDIAのグラボ以外でも変換可に) 2023/ 1 Windowsネイティブ化 2023/ 3 TFLite化とUnity対応(Unity対応=Android対応=Quest対応) 2023/ 4 Lyra組み込み 7

Slide 8

Slide 8 text

vits 2021/6 高速高品質の End to End Text to Speach (TTS) 論文 Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text- to-Speech https://arxiv.org/abs/2106.06103 vitsの公式実装 https://github.com/jaywalnut310/vits テキストから音声を生成するものだが音声変換もできる VAE/GAN/Flowと3つの生成モデルを使っている(diffusionは使っていない) 高品質なのはEnd to Endだったからだと思う 8

Slide 9

Slide 9 text

vitsの構成図 エンコーダーで音の特徴量抽出 デコーダーで特徴量から音生成 VAEとGANで音声生成の学習 TransformerとMASで特徴量抽出 Flowで特徴量と音素との学習 9

Slide 10

Slide 10 text

HuBERT 2021/ 6 Facebookの音素情報抽出 音声から「a」とか「k」とかの音素を抽出する 音素自体の抽出よりその一つ手前の音素の概念を抽出している音素特徴量が重要 10

Slide 11

Slide 11 text

VOICEVOX 2021/ 8 日本のOSSテキスト音声生成 Deeplearningを用いたテキストから音声生成の老舗 テキストから音声製というとVOICEVOXだろう 他のOSSテキスト音声生成へも多きな影響を持っている 色々なキャラクタ性を持った音声があるところも特徴 11

Slide 12

Slide 12 text

MMVC 2022/ 3 日本のOSSリアルタイム音声変換 MMVC_Trainer https://github.com/isletennos/MMVC_Trainer vitsベースでリアルタイム音声変換ができる GPUなくてもColab上で好きな音声を学習可能 リアルタイム音声変換を行えるクライアントも提供される 12

Slide 13

Slide 13 text

(自分) MMVC開発にcommit開始 2022/ 4 ニューラル圧縮をするためにespnetなどを触っていた MMVCをニュースサイトで見かけて試してみる リアルタイム音声変換が行えて音質も良いことがわかった OSSでColabを利用していて、ユーザに開かれているコミュニティ OSSでは主にクライアント部分の改善を行なっていた 13

Slide 14

Slide 14 text

(自分) 勉強会で発表 2022/ 6 MMVCへのコミットをぼちぼち始めてvitsの仕組みがやっとわかったあたり 「vits完全に理解した」状況だった… リアルタイム音声変換はまだまだ目新しいものだった 14

Slide 15

Slide 15 text

Midjourney 2022/ 7/13 Midjourneyがオープンベータ開始し画像生成AIが認知される この頃は今と比べるとまだまだ低品質な画像だった でも当時としては衝撃的な品質の画像が生成できるサービスだった Diffusion Modelで生成(たぶん) 15

Slide 16

Slide 16 text

(自分) ノイズリダクションで大幅に品質が良くなるこ とがわかる 2022/ 7 ネットワークの改善やDAなど他の仕組みの改善をやっていた ユーザの学習音声と報告からノイズリダクションで大幅に品質がよくなることが わかった ニューラルネットはノイズまで再現しようと無駄な努力をしてしまう 良いデータがとにかく大事 16

Slide 17

Slide 17 text

(自分) 男性声→女性声の精度問題がf0導入で解決目処 2022/ 8 男性が女性声に変換すると品質が低い課題があった vitsには音程の違いを吸収する仕組みや補佐する専用の仕組みがなかった 事前フィルタで音程を変えてから変換すると品質が上がることがわかった f0抽出して事前に変換することで解決目処がたつ 17

Slide 18

Slide 18 text

Stable Diffusion 2022/ 8/22 オープンソースで公開される 学習済みのモデルも公開される 最初はMidjourneyよりも品質が低かった オープンソースでユーザにより急激に開発が進んだ Diffusion Modelで生成 18

Slide 19

Slide 19 text

sovits 2022/ 9 中国のOSSテキスト音声変換 HuBERTとf0入りでvitsベース 音素をHuBERTで与えられるためテキストコーパスが不要 HuBERTで音素認識するためユーザ音声学習不要 中国系開発者が入ってくるきっかけとなったと思う 少なくとも初期の頃は日本アニメとかをコーパスで使っていた RVCの元となる 19

Slide 20

Slide 20 text

(自分) 無学習変換 2022/ 9 ユーザにデータ作成などせず無学習で変換ができるようにしたい sovitsはHuBERTで音素認識したものを使い変換を行なって十分な精度が出ていた MMVCでもHuBERTを利用した学習モデルを使うようになった MMVCはHuBERTも使うが品質優先でユーザの音声ありで学習させる方針 少なくとも無学習変換はsovitsの手法で目処がたった 20

Slide 21

Slide 21 text

Whisper 2022/ 9 Googleの高品質な音声の文字書き起こし それまでの文字起こしと比べディープラーニングで大規模な学習が行われた超高 性能な文字起こしが無料で使えるように 音声からの自動書き起こしが可能になりテキストコーパスが自動で作れるように なった 21

Slide 22

Slide 22 text

Lyra V2 2022/ 9 GoogleのOSS音声圧縮 超低ビットレートでもだいぶ高音質 データを途中で切ってビットレートを変更出来る超絶ありがたい機能がある 22

Slide 23

Slide 23 text

(自分) MMVCでHuBERT導入開始 2022/10 HuBERTとf0導入して無学習音声変換が出来る、軽くて遅延の少ない独自モデルを 目指す 23

Slide 24

Slide 24 text

ChatGPT 2022/11/30 ChatGPT(ChatGPT-3.5)がサービススタートで衝撃 24

Slide 25

Slide 25 text

(自分) ONNX化 2022/12 NVIDIAのグラボ以外でも変換可に DirectMLで動かせるようになる AMDでは動くのだがIntelのは動くのだが重くて結局ダメ 25

Slide 26

Slide 26 text

(自分) Windowsネイティブ化 2023/ 1 Pythonで書かれたクライアントをC#のネイティブアプリとして作り直す Nuitka化やPyInstaller化の問題を解決 フットプリントが強烈に小さく出来る 26

Slide 27

Slide 27 text

(自分) TFLite化とUnity対応 2023/ 3 Questで動かす=Androidで動かす=TFLite化する必要がある ONNX -> TFLite化 出来る神ツール onnx2tf onnx2tf作者のPINTOさんにすごいフォローしていただいた Unity対応=Android対応=Quest対応 27

Slide 28

Slide 28 text

ChatGPT-4 2023/ 3/15 ChatGPT-4がサービススタートし仕事に使えるレベルになる 28

Slide 29

Slide 29 text

RVC 2023/ 4 中国のOSSテキスト音声変換 sovitsベース Retrievalを使って似たベクトルを選んで生成 圧倒的に少ない学習時間で十分高品質 最初、sovitsとあまりに変更点が少ないのにすごく学習時間が短くて高品質になる ため、いったいなにが違うのか、だいぶ調査した 29

Slide 30

Slide 30 text

(自分) Lyra組み込み 2023/ 4 VR内で音声圧縮と音声変換してQuestで使えるようにする Lyraで圧縮とMMVCの音声変換してQuestでとりあえず動くようになった サーバでユーザ毎にビットレートを変更出来るのでVR世界向けにとても良い 30

Slide 31

Slide 31 text

Bert-VITS2 2023/ 9 「感情付き」でテキストから音声生成が出来る BERTで文章の「感情」も一緒にして学習してしまう BERTで文章の「感情」もベクトルに含めて生成する 非常に高品質で自然なテキスト音声生成が可能 31

Slide 32

Slide 32 text

Suno.AIベータサービス開始 2023/ 9 楽曲生成サービス 単なる音声生成ではなく楽曲生成とボーカル音声生成 単純な「音声生成」というサービスのステージではなくなった 32

Slide 33

Slide 33 text

ParakeetVC 2023/12 超低遅延低負荷リアルタイム音声変換 まだPCのみだがたぶんスマホ対応を目指しているはず 超低遅延で超低負荷であることがうり 33

Slide 34

Slide 34 text

前回プレゼンで書いてた「今後の目標」 無学習または小データと短い学習での変換を可能に たくさん学習データを作ったり学習時間がかかるのがハードル 無学習での変換ができるとだいぶ応用が広がる 変換の高品質化 VITSは元々TTSのために作られていて変換だけを目的に作られてるわけじゃない だから変換特化で高品質化できるのでは 低遅延化 VITSの場合音素情報まで落とし込まないので原理的に遅延は少ない 0.2秒以下の遅延にできたらよいが クライアントのネイティブ化 Nuitkaのexeはでかすぎる VOICEBOXではONNX使ってネイティブで動くようになってる 34

Slide 35

Slide 35 text

元々の目標は達成した それどころか想定以上の高品質、低遅延、高圧縮率が実現される 自分がやった部分も多少あるが、周辺の技術の進歩が莫大だった 書いたものが巨人によって蹂躙されるのを体験 35

Slide 36

Slide 36 text

音声生成の個別技術の進化はほぼ完了した one-shot/few-shotでの生成 感情付き生成 楽曲生成 音声の生成に+αの研究やサービスが求められるステージに 36

Slide 37

Slide 37 text

書いているとすごい技術がでて捨てることになる HuBERTで音素抽出することで無学習変換可能に Whisperの文字起こしで音声からコーパスが作成可能に sovitsやRVCのような対抗OSSでの各種改善手法 f0抽出の高品質化 開発していると上記のようなことが起きて、書いてたものを何度か捨てた ディープラーニングやLLM系の開発では常にこの視点を持ってたほうが良い 37

Slide 38

Slide 38 text

中国チームの台頭 人材の厚さ 日本のアニメコンテンツへの愛 著作権に対しての意識がゆるい メインストリームは中国へ 日本もがんばってはいる 日本の学術でディープラーニングの音声系は強い分野 製品もボカロ文化もあって音声生成系は多め 38

Slide 39

Slide 39 text

ディープラーニング/AGIについての予想 過去の勉強会でこんな話をしていたことがあった 2018/5/26 NSEG 勉強会 #100 / 第 31 回フリーテーマプレゼン大会 - connpass https://nseg.connpass.com/event/86278/ 「シンギュラリティはくるの?」 2019/2/16 フリーテーマプレゼン大会 in GEEKLAB.NAGANO - connpass https://glnagano.connpass.com/event/111883/ 「ディープラーニングはブームで終わらなそう」 39

Slide 40

Slide 40 text

「ディープラーニングはブームじゃない話」から引用 2019-02-15 の勉強会で話をしたものから 40

Slide 41

Slide 41 text

2019-02-15 ※2014~2018の画像生成の進化であることに注意 この頃はまだ「顔」しか生成出来 なかったしプロンプトでの生成も出来なかった GANによる画像生成の進化 GAN(2014) 2015アニメ DCGAN(2016) Style(2018) 2018アニメ 41

Slide 42

Slide 42 text

2019-02-15 ※GPT-2では、同じネットワークを使っているのにプロンプトを変えると違うタスク が出来る!ということそのものに驚いていることに注意 言語タスク(文章生成) 同じネットワークで文章生成、QA、翻訳などできる 文章与えて「A:」とか「french sentence =」で 42

Slide 43

Slide 43 text

2019-02-15 ディープラーニングの進歩は続いてる 分野によりすでに人間を超えている 今も新しい手法が出続けている 進歩がものすごく速い 今は「おもちゃ」と思えるものも3年後は? 43

Slide 44

Slide 44 text

まとめ ディープラーニング系の開発はものすごい速さで進んでいる 常に巨人や対抗から新しい技術や進歩が出ることを見越す必要がある LLMの進化は GPT-2 -> GPT-3.5 -> GPT-4 と見ると想像が出来る GPT-2:幼稚園児 GPT-3.5:知ったかぶりな中2 GPT-4:超ものしりな大1 「Attention Is All You Need」(2017/6)から5年でGPT-4の地点 GPT-4から5年後では完全に自分は抜かれてるはず 44

Slide 45

Slide 45 text

おまけ 「音声変換と生成AI:開発者視点からの1.5年の振り返り」 このタイトルはChatGPTさんと話し合って決めました https://chat.openai.com/share/1a2559b3-c1c3-46bf-811c-2fa6ef2c03f9 45