自力でTTSモデルを作った話

Slide 1

Slide 1 text

 自力で TTS（用モデル）を作った話東海道らぐ2025 Tokyo Spring

Slide 2

Slide 2 text

 お前誰よ ▪ ・安藤と申します ▪ ・openSUSEユーザー会名古屋ドメイン ▪ ・体調の都合でしばらくお休みしてました

Slide 3

Slide 3 text

 最近はAI関係でよく遊んでます ▪ ・画像生成AIで遊んだりとか ▪ ・ローカルでLLM建てたりとか ▪ ・ついに音声合成にも手を出して（今回はここの話）

Slide 4

Slide 4 text

 Zonosという音声生成システム ▪ ・2月頭に登場したバリバリの新星 ▪ ・いわゆるワンショットTTS/ボイスクローナー ▪ ・同種のいろいろよりもかなり高いクローン性能

Slide 5

Slide 5 text

 いいことばかりでもない ▪ ・出力がかなりガチャで良い時は良いが、ひどい時もある ▪ ・そもそも一部日本語を読ませると出力が破綻する ▪ ・ただ、それで見切ってしまうにはあまりにも惜しいクローン性能

Slide 6

Slide 6 text

 よろしい、ならば ▪ ・まっとうに日本語が読める学習系TTSの素材吐かせればよくね？

Slide 7

Slide 7 text

 Style-Bert-VITS2 ▪ ・最近人気の日本語TTS ▪ ・中国生まれのTTS、Bert-VITSの日本語特化fork ▪ ・元テキストの文脈から、ある程度感情分析しながら発音 ▪ ・読みのbackendにpyopenjtalkを使っており、読めない日本語があったりとかはさすがにない ▪ ・学習させるには延べ10～30分ぐらいの音声素材が必要 ▪ ・↑この素材をZonosに作らせたらええやん！

Slide 8

Slide 8 text

 ITAコーパス ▪ https://github.com/mmorise/ita-corpus ▪ ・日本語に登場する音素を網羅した読み上げ用テキスト ▪ ・100個の短い文章で構成されている ▪ ・テキストそのものはCC0 ▪ ・Style-Bert-VITS2の学習元作成ではスタンダード ▪ ・Zonosにこれを読ませよう

Slide 9

Slide 9 text

 ダメでした ▪ ・Zonosの日本語の音素化が不完全なため、半分ぐらいの文章で出力が破綻する ▪ ・そもそもITAコーパスがTTS苛めといっても良いぐらい意地悪な内容 ▪ 「どーすんの、このお店。完ッ全に閑古鳥が鳴いちゃってるじゃない。」 ▪ 「ひぇーん。びぇーん。ぴぇーん。」 ▪ 「ラーテャン。」 ▪ ↑↑テスト用データとしては極めて正しい

Slide 10

Slide 10 text

 なんで破綻するのか ▪ ・Zonosの音素化バックエンドはespeak-ng ▪ ・かなーり昔からある多言語対応TTS ▪ ・日本語サポートを一応しているがめっちゃ不完全 ▪ ・不完全なサポートのまま日本語辞書は3年前から未更新 ▪ ・「とても恐ろしい集団真理である...そう、誰もメンテをしていないのである」 ▪ ・対策...するか

Slide 11

Slide 11 text

 いろいろ考えた、いろいろ試した ▪ ・backendをpyopenjtalkにする？ →そもそもZonosがespeak-ngの不完全な音素で学習してるので pyopenjtalkが吐いた音素からうまく推論できない ▪ ・espeak-ngをメンテする？ →そもそもZonosがespeak-ngの不完全な音素で学習（略） ▪ ・espeak-ngが破綻した音素を吐いたら後処理で補正する？ →そもそもZonosがespeak-ngの不（略）

Slide 12

Slide 12 text

 超絶雑ハック注意 ▪ ・espeak-ngはカタカナしか読めないのでZonosではSudachiを使ってカタカナ化して渡している ▪ ・この時点でespeak-ngが破綻するカタカナパターンをフィルタする（「ティ」を「チ」に、「ヴィ」を「ビ」にetc..） ▪ ・多少滑舌が怪しくなるけどエラーで破綻するよりはましやろがい！

Slide 13

Slide 13 text

 というわけでパッチ当てた ▪ https://github.com/zgock999/Zonos-Ja ▪ ・日本語対策雑パッチ適用 ▪ ・ついでにうちのQuadro RTX5000で動くようにfp16で動くモードを追加。（デフォルトはbfloat16なのでRTX30xx以降専用）

Slide 14

Slide 14 text

 さあ、データ作るべ ▪ ・openGameArtからCC0の英語ボイスを調達 ▪ ・バッチ処理でITAコーパスを一括で出すpythonコードを記述 ▪ ・数回の生成ガチャで出来の良い音声を抽出 ▪ ・Style-Bert-VITS2で学習(RTX3060で3時間程度）

Slide 15

Slide 15 text

 できますた ▪ Zonoko Japansese Voice for Style-Bert-VITS2 ▪ https://huggingface.co/zgock/style-bert-vits2-zonoko-cc0 ▪ https://hub.aivis-project.com/aivm-models/7fc08a41-b64d-456d- 8b22-8e1284674775