Linuxで日本語の扱えるTTS(Text-to-speech)を試す

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Kenichiro Matohara(matoken) https://matoken.org/ 鹿児島から参加 ADSL回線下りは案外どうにかなるけど登り辛い Rakuten mobile(mini)申込みから2ヶ月以上経過…… お仕事募集 mailto:work@matohara.org

Slide 3

Slide 3 text

鹿児島らぐ前回07/26(日) オンライン開催 Discord(音声+text+画面共有) + Eterpad(Note) 参加地域は鹿児島県x3，東京都x1，静岡県x1，岐阜県x1，愛知県x2 「Photon OSを使ってみた話」「ssh login時の通知を簡単に設定できないか?の相談」「ArchiveBoxで自分用WebArchive(django版)」「5月のYoctoLTSの続報」「ArchLinuxのインストールがうまく行かない相談」「m3u8のプレイリストからダウンロード」「Free RADIUSサーバーの構築についての相談」次回08/23(日) オンライン開催

Slide 4

Slide 4 text

前前回の補足 Linux環境で(低解像度の)画面共有を行うTips Xephyr等でXをウィンドウで起動すると便利ウェブブラウザやElectronはOKだけどZoom.us clientでは何故か共有画面に出てこない Zoom.usをウェブブラウザで利用(高負荷時に音が死ぬ) Zoom.us clientで画面共有時に「画面の部分」を選びXephyr部分を共有 New!

Slide 5

Slide 5 text

Linuxで日本語の扱えるTTS(Text-to-speech)を試す

Slide 6

Slide 6 text

TTS(Text-to-speech) テキストからコンピュータに喋ってもらう「こんにちは」スマートスピーカー，テキスト読み上げ今回は自分が声を出せない時に代わりに喋って貰いたいと思って試した

Slide 7

Slide 7 text

Confirmed: Raspberry Pi & PC Raspberry Pi OS buster amd64(β) Debian sid amd64

Slide 8

Slide 8 text

最近試したLinuxで使えるもの eSpeak Festival N2 Linux無償版 Open JTalk Svox Pico translate-cli

Slide 9

Slide 9 text

日本語標準対応 N2 Linux無償版 Open JTalk translate-cli

Slide 10

Slide 10 text

Slide 11

Slide 11 text

translate-cli コマンドラインでいろいろな翻訳リモートのウェブサービスを無理やり利用(Google/bing/Yandex等) -> 回線必須翻訳の読み上げ機能を流用してTTSが可能日本語TTSは試した限りGoogleのみ沢山叩いたりサービス変更で動かなくなるグレーな感じのツール

Slide 12

Slide 12 text

導入 $ sudo apt install translate-shell

Slide 13

Slide 13 text

翻訳例(日->英) $ trans -s ja -t en こんにちはこんにちは (Kon'nichiwa) Hello 「こんにちは」の翻訳 [ 日本語 -> English ] こんにちは Hello, Hi there, good afternoon, Hi

Slide 14

Slide 14 text

translate-cliをTTSとして使う例 -b で一番関連性の高いものだけ -p でTTS $ trans -b -p こんにちは

Slide 15

Slide 15 text

N2 KDDIのN2 端末単体で動作 Linuxの他にAndroid/iOS/Windows/マイコン版もあるカスタム辞書も利用可能(未確認)

Slide 16

Slide 16 text

N2 Linux無償版動作環境 Debian 7 以降 (対応アーキテクチャ：amd64, armel, armhf, i386) Ubuntu 14.04 LTS以降 (amd64, arm64, armhf, i386) Raspbian (wheezy以降)

Slide 17

Slide 17 text

N2 利用規約第2条使用権の許諾、使用期間本契約によって本ソフトウェアを使用することができるのはお客様本人のみで、本ソフトウェアを１台のLinux機器にインストールして、インストール後30日間に限り使用することができます。

Slide 18

Slide 18 text

N2 利用規約第5条禁止事項より（６）本規約で弊社が別途許諾している場合以外に、営利・非営利に拘らず、本ソフトウェア、又は本ソフトウェアの使用により作成された音声データを、複製、頒布、貸与、譲渡、公衆送信、送信可能化若しくは上映すること（家庭内や少数の友人間など限られた範囲内で使うために行う本音声データの複製については除く。）

Slide 19

Slide 19 text

一般公開は無理そう? しかし，デモ映像ページには以下のような記述がある無償版で作成したプロトタイプ（作ってみた）をYoutubeにアップしてTwitterなどでお知らせいただければ、こちらでもご紹介させていただきます。

Slide 20

Slide 20 text

導入 $ tar xf ./n2-linux-foc-*.tar.gz $ sudo dpkg -i ./n2-linux-foc-*/*.deb

Slide 21

Slide 21 text

n2ttsコマンド $ n2tts -o - こんにちは | aplay

Slide 22

Slide 22 text

声質モデルデータ指定(-m) $ ls /usr/share/n2tts/voice/ fa001.dat fa003.dat fa005.dat fb002.dat fb004.dat ma001.dat ma003.dat ma005.dat mb002.dat mb004.dat fa002.dat fa004.dat fb001.dat fb003.dat fb005.dat ma002.dat ma004.dat mb001.dat mb003.dat mb005.dat $ ls -1 /usr/share/n2tts/voice/ | xargs -n1 -I{} sh -c "n2tts -m {} -o - こんにちは | aplay"

Slide 23

Slide 23 text

音声パラメータ設定(-p key=value) SPEECHRATE 64…1024(default 256) 小さいほうが早口 PITCH -1536…1536(default 0) 小さいほうが低い PITCHRANGE 0…1024(default 256)

Slide 24

Slide 24 text

早口でしゃべる $ n2tts -p SPEECHRATE=176 -o - -- こんにちは

Slide 25

Slide 25 text

N2で青空文庫読み上げ UTF8に変換して1行毎にTTSに掛ける 132892文字問題なく最後まで読み上げられた $ wget -O - https://www.aozora.gr.jp/cards/001090/files/42307_txt_24297.zip | \ zcat | nkf -w | xargs -I{} -n1 sh -c "echo {}; n2tts -o - -- {} | aplay 2>/dev/null "

Slide 26

Slide 26 text

Open JTalk 端末単体で動作日本語対応だと一番メジャー? 今回はDebian packageのものを利用 open-jtalk TTSシステム hts-voice-nitech-jp-atr503-m001 音声データ open-jtalk-mecab-naist-jdic NAISTの辞書データ

Slide 27

Slide 27 text

幾つかのOpen JTalk向け音響モデル Open JTalk - Browse /HTS voice at SourceForge.net MMDAgent - Browse /MMDAgent_Example at SourceForge.net icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}

Slide 28

Slide 28 text

とりあえずしゃべる $ echo こんにちは | open_jtalk \ -m /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/stdout | aplay

Slide 29

Slide 29 text

青空文庫読み上げ $ wget -O - https://www.aozora.gr.jp/cards/001090/files/42307_txt_24297.zip | \ zcat | nkf -w | xargs -I{} -n1 sh -c "echo {}; echo {} | open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/stdout | aplay" 最後まで読み上げたけどN2に比べ変換に時間がかかるようで空白時間が発生して気になる

Slide 30

Slide 30 text

N2/Open JTalkの変換時間比較約400バイトのテキストを読み上げて /dev/null に $ wc -c text 398 text $ \time -f "real %e" sh -c "cat text|open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/null" real 2.80 $ \time -f "real %e" n2tts -o /dev/null `cat text` real 0.71 Open JTalk 2.8s N2 0.71s ※Intel(R) Core(TM) i5-3320M CPU @ 2.60GHz すぐに声を出したい場合は文を短くするなどの工夫をしたほうが良さそう

Slide 31

Slide 31 text

TTS活用 Twitter hashtag読み上げイベントのサブチャンネルで読み上げたり? 声を出せない環境でビデオチャットやボイスチャットに音声参加

Slide 32

Slide 32 text

Twitter読み上げ…… 以前作った物かmikutterを流用しようとしたらBANされたアカウントのTwitterAPI IDだったので今のアカウントで再取得 Twitter API IDの取得に失敗 unable to approve your developer application at this time. 新しく申請も出来ない……

Slide 33

Slide 33 text

sayakaちゃん twitter クライアント sayaka ちゃんターミナル特化Twitter client．SIXELに対応していれば画像も表示できる．OSCで x68000などで動かして展示されている．

Slide 34

Slide 34 text

sayakaちゃんを利用してTwitter読み上げ Tweetをファイルに保存 $ sayaka --record-all koedolug.json '#koedolug' ファイルからtweetを抜き出してTTS $ stdbuf -oL tail -f koedolug.json |stdbuf -i0 -oL jq -r .text | stdbuf -i0 -oL \ xargs -I{} -n1 sh -c "echo {}; stdbuf -i0 -oL n2tts -o - -- {} | aplay 2>/dev/null" 副音声や距離の概念のあるサービスなどに?(Second Life, Remo, Hubs Cloud, Online Town, SpatialChat……)

Slide 35

Slide 35 text

TTSでしゃべる深夜，外出先，など声を出しづらいときなどに? テキスト入力時間が必要なので実用度は?

Slide 36

Slide 36 text

TTSの音声をマイクに入れる Zoom.us画面共有時 -> 「コンピュータの音声を共有」その他 -> ソフトウェアミキサーでマイクと合成

Slide 37

Slide 37 text

PulseAudio環境でオーディオをマイクとミックスしてビデオ会議に参加できるようにするscript これを実行後PCのオーディオもマイクの音声と一緒に流れていくようになる $ git clone https://github.com/toadjaune/pulseaudio-config $ cd pulseaudio-config $ ./pulse_setup.sh toadjaune/pulseaudio-config: Scripts and notes for custom pulseaudio configuration

Slide 38

Slide 38 text

音が小さい一人で試してるときは気づかなかった Volume Controle(pavucontrol)で最大にしても聞こえない? aplayでボリューム上げ方わからなかったので sox の play を利用 play -v 10

Slide 39

Slide 39 text

次世代のTTS? 自然な人間に近いTTS 今の所UK/US DeepMindのGANを利用したTTS [1909.11646] High Fidelity Speech Synthesis with Adversarial Networks Amazon Pollyのニューラルネットワークを利用したTTS Amazon Polly Introduces Neural Text-To-Speech and Newscaster Style | AWS News Blog 日本語も出てくるのを期待

Slide 40

Slide 40 text

まとめぎごちないながらもLinux端末だけで日本語のTTSが出来るテキストを読み上げてもらいながら作業事等に聞くのに便利リアルタイムの音声チャットでの実用度は? 発言の多いTwitterやChatを副音声などで読み上げるのはありかも?

Slide 41

Slide 41 text

おまけ先月，先々月と画面共有に失敗していたのでテキストベースのプレゼンを用意 ttyd で端末をhttpで共有，ウェブブラウザで閲覧可能にしておく Markdownで記述したスライドを mdp を使い端末で表示(ほぼMarp Nextで利用できる形式でokだった) その他，ttvでウェブカメラ表示，mapsciiで地図表示発表してみて ttyd を操作可能にしていたのでウェブブラウザで開かれるたびに画面リサイズが発生してしまうという問題が発生今回は表示だけで良いので -R オプションを付けるべきだった表示されているテキストをそのままコピーできるのは便利 (しかし今月は画面共有もうまく行ったので必要なかった)

Slide 42

Slide 42 text

奥付発表: 「小江戸らぐ 8月のオフな集まり(第217回)」発表者: Kenichiro Matohara mailto:matoken@kagolug.org license: CC-BY-NC-SA 4.0 powered by VSCodium + mdp + Marp-CLI 参考URL: https://wiki.matoken.org/linux/tts