Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Linuxで日本語の扱えるTTS(Text-to-speech)を試す

 Linuxで日本語の扱えるTTS(Text-to-speech)を試す

Kenichiro MATOHARA

August 08, 2020
Tweet

More Decks by Kenichiro MATOHARA

Other Decks in Technology

Transcript

  1. 鹿児島らぐ 前回07/26(日) オンライン開催 Discord(音声+text+画面共有) + Eterpad(Note) 参加地域は鹿児島県x3,東京都x1,静岡県x1,岐阜県x1,愛知県x2 「Photon OSを使ってみた話」 「ssh

    login時の通知を簡単に設定できないか?の相談」 「ArchiveBoxで自分用WebArchive(django版)」 「5月のYoctoLTSの続報」 「ArchLinuxのインストールがうまく行かない相談」 「m3u8のプレイリストからダウンロード」 「Free RADIUSサーバーの構築についての相談」 次回08/23(日) オンライン開催
  2. 日本語非対応エンジンで日本語 無理やり日本語を喋らせることも(ゴノレゴ的な) mecab で開いてカナに, ucinv でローマ字に $ echo "こんにちは" |

    mecab -Oyomi | uconv -x latin | espeak $ echo 'こんにちは' | mecab -Oyomi | uconv -x latin | festival --tts $ WAVE="`mktemp`.wav" && pico2wave -w $WAVE "`echo "こんにちは" | \ mecab -Oyomi | uconv -x latin`" && aplay $WAVE ; rm $WAVE
  3. 翻訳例(日->英) $ trans -s ja -t en こんにちは こんにちは (Kon'nichiwa)

    Hello 「こんにちは」の翻訳 [ 日本語 -> English ] こんにちは Hello, Hi there, good afternoon, Hi
  4. N2 Linux無償版 動作環境 Debian 7 以降 (対応アーキテクチャ:amd64, armel, armhf, i386)

    Ubuntu 14.04 LTS以降 (amd64, arm64, armhf, i386) Raspbian (wheezy以降)
  5. 声質モデルデータ指定(-m) $ ls /usr/share/n2tts/voice/ fa001.dat fa003.dat fa005.dat fb002.dat fb004.dat ma001.dat

    ma003.dat ma005.dat mb002.dat mb004.dat fa002.dat fa004.dat fb001.dat fb003.dat fb005.dat ma002.dat ma004.dat mb001.dat mb003.dat mb005.dat $ ls -1 /usr/share/n2tts/voice/ | xargs -n1 -I{} sh -c "n2tts -m {} -o - こんにちは | aplay"
  6. 幾つかのOpen JTalk向け音響モデル Open JTalk - Browse /HTS voice at SourceForge.net

    MMDAgent - Browse /MMDAgent_Example at SourceForge.net icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}
  7. 青空文庫読み上げ $ wget -O - https://www.aozora.gr.jp/cards/001090/files/42307_txt_24297.zip | \ zcat |

    nkf -w | xargs -I{} -n1 sh -c "echo {}; echo {} | open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/stdout | aplay" 最後まで読み上げたけどN2に比べ変換に時間がかかるようで空白時間が発生して気に なる
  8. N2/Open JTalkの変換時間比較 約400バイトのテキストを読み上げて /dev/null に $ wc -c text 398

    text $ \time -f "real %e" sh -c "cat text|open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/null" real 2.80 $ \time -f "real %e" n2tts -o /dev/null `cat text` real 0.71 Open JTalk 2.8s N2 0.71s ※Intel(R) Core(TM) i5-3320M CPU @ 2.60GHz すぐに声を出したい場合は文を短くするなどの工夫をしたほうが良さそう
  9. sayakaちゃんを利用してTwitter読み上げ Tweetをファイルに保存 $ sayaka --record-all koedolug.json '#koedolug' ファイルからtweetを抜き出してTTS $ stdbuf

    -oL tail -f koedolug.json |stdbuf -i0 -oL jq -r .text | stdbuf -i0 -oL \ xargs -I{} -n1 sh -c "echo {}; stdbuf -i0 -oL n2tts -o - -- {} | aplay 2>/dev/null" 副音声や距離の概念のあるサービスなどに?(Second Life, Remo, Hubs Cloud, Online Town, SpatialChat……)
  10. 次世代のTTS? 自然な人間に近いTTS 今の所UK/US DeepMindのGANを利用したTTS [1909.11646] High Fidelity Speech Synthesis with

    Adversarial Networks Amazon Pollyのニューラルネットワークを利用したTTS Amazon Polly Introduces Neural Text-To-Speech and Newscaster Style | AWS News Blog 日本語も出てくるのを期待
  11. おまけ 先月,先々月と画面共有に失敗していたのでテキストベースのプレゼンを用意 ttyd で端末をhttpで共有,ウェブブラウザで閲覧可能にしておく Markdownで記述したスライドを mdp を使い端末で表示(ほぼMarp Nextで利用で きる形式でokだった) その他,ttvでウェブカメラ表示,mapsciiで地図表示

    発表してみて ttyd を操作可能にしていたのでウェブブラウザで開かれるたびに画面リサイズ が発生してしまうという問題が発生 今回は表示だけで良いので -R オプションを付けるべきだった 表示されているテキストをそのままコピーできるのは便利 (しかし今月は画面共有もうまく行ったので必要なかった)