Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Linuxで日本語の扱えるTTS(Text-to-speech)を試す
Search
Kenichiro MATOHARA
August 08, 2020
Technology
0
2.5k
Linuxで日本語の扱えるTTS(Text-to-speech)を試す
Kenichiro MATOHARA
August 08, 2020
Tweet
Share
More Decks by Kenichiro MATOHARA
See All by Kenichiro MATOHARA
最近試したLinuxのOCRツール(NDL古典籍OCR-Lite/YomiToku)
matoken
0
20
LibreOfficeで日本語Linterが使いたい
matoken
0
8
KSMBDでSMB共有
matoken
0
7
asciinema playerで大きな端末録画を共有する
matoken
0
18
ターミナルを共有するいろいろ
matoken
0
14
textlintで日本語をまともに(Neovim/VS Code)
matoken
0
31
TUI Bluetooth マネージャーの bluetuith
matoken
0
37
Galene用SpeachToTextのgalene-sttを試す
matoken
0
21
ターミナルでプレゼンテーション その3-presentermを試す-
matoken
0
75
Other Decks in Technology
See All in Technology
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
27
23k
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
180
事業貢献を考えるための技術改善の目標設計と改善実績 / Targeted design of technical improvements to consider business contribution and improvement performance
oomatomo
0
150
1等無人航空機操縦士一発試験 合格までの道のり ドローンミートアップ@大阪 2024/12/18
excdinc
0
180
生成AIをより賢く エンジニアのための RAG入門 - Oracle AI Jam Session #20
kutsushitaneko
4
290
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
300
.NET 9 のパフォーマンス改善
nenonaninu
0
1.3k
PHPerのための計算量入門/Complexity101 for PHPer
hanhan1978
5
660
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
2
120
Yahoo! ズバトクにおけるフロントエンド開発
lycorptech_jp
PRO
0
100
クレカ・銀行連携機能における “状態”との向き合い方 / SmartBank Engineer LT Event
smartbank
2
100
能動的ドメイン名ライフサイクル管理のすゝめ / Practice on Active Domain Name Lifecycle Management
nttcom
0
240
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
GraphQLとの向き合い方2022年版
quramy
44
13k
Designing for Performance
lara
604
68k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Facilitating Awesome Meetings
lara
50
6.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Building Adaptive Systems
keathley
38
2.3k
The Cult of Friendly URLs
andyhume
78
6.1k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Transcript
Linuxで日本語の扱えるTTS(Text-to-speech)を試す
Kenichiro Matohara(matoken) https://matoken.org/ 鹿児島から参加 ADSL回線下りは案外どうにかなるけど登り辛い Rakuten mobile(mini)申込みから2ヶ月以上経過…… お仕事募集 mailto:
[email protected]
鹿児島らぐ 前回07/26(日) オンライン開催 Discord(音声+text+画面共有) + Eterpad(Note) 参加地域は鹿児島県x3,東京都x1,静岡県x1,岐阜県x1,愛知県x2 「Photon OSを使ってみた話」 「ssh
login時の通知を簡単に設定できないか?の相談」 「ArchiveBoxで自分用WebArchive(django版)」 「5月のYoctoLTSの続報」 「ArchLinuxのインストールがうまく行かない相談」 「m3u8のプレイリストからダウンロード」 「Free RADIUSサーバーの構築についての相談」 次回08/23(日) オンライン開催
前前回の補足 Linux環境で(低解像度の)画面共有を行うTips Xephyr等でXをウィンドウで起動すると便利 ウェブブラウザやElectronはOKだけどZoom.us clientでは何故か共有画面に出 てこない Zoom.usをウェブブラウザで利用(高負荷時に音が死ぬ) Zoom.us clientで画面共有時に「画面の部分」を選びXephyr部分を共有 New!
Linuxで日本語の扱えるTTS(Text-to-speech)を試す
TTS(Text-to-speech) テキストからコンピュータに喋ってもらう 「こんにちは」 スマートスピーカー,テキスト読み上げ 今回は自分が声を出せない時に代わりに喋って貰いたいと思って試した
Confirmed: Raspberry Pi & PC Raspberry Pi OS buster amd64(β)
Debian sid amd64
最近試したLinuxで使えるもの eSpeak Festival N2 Linux無償版 Open JTalk Svox Pico translate-cli
日本語標準対応 N2 Linux無償版 Open JTalk translate-cli
日本語非対応エンジンで日本語 無理やり日本語を喋らせることも(ゴノレゴ的な) mecab で開いてカナに, ucinv でローマ字に $ echo "こんにちは" |
mecab -Oyomi | uconv -x latin | espeak $ echo 'こんにちは' | mecab -Oyomi | uconv -x latin | festival --tts $ WAVE="`mktemp`.wav" && pico2wave -w $WAVE "`echo "こんにちは" | \ mecab -Oyomi | uconv -x latin`" && aplay $WAVE ; rm $WAVE
translate-cli コマンドラインでいろいろな翻訳 リモートのウェブサービスを無理やり利用(Google/bing/Yandex等) -> 回線必須 翻訳の読み上げ機能を流用してTTSが可能 日本語TTSは試した限りGoogleのみ 沢山叩いたりサービス変更で動かなくなる グレーな感じのツール
導入 $ sudo apt install translate-shell
翻訳例(日->英) $ trans -s ja -t en こんにちは こんにちは (Kon'nichiwa)
Hello 「こんにちは」の翻訳 [ 日本語 -> English ] こんにちは Hello, Hi there, good afternoon, Hi
translate-cliをTTSとして使う例 -b で一番関連性の高いものだけ -p でTTS $ trans -b -p こんにちは
N2 KDDIのN2 端末単体で動作 Linuxの他にAndroid/iOS/Windows/マイコン版もある カスタム辞書も利用可能(未確認)
N2 Linux無償版 動作環境 Debian 7 以降 (対応アーキテクチャ:amd64, armel, armhf, i386)
Ubuntu 14.04 LTS以降 (amd64, arm64, armhf, i386) Raspbian (wheezy以降)
N2 利用規約 第2条 使用権の許諾、使用期間 本契約によって本ソフトウェアを使用することができるのはお客様本人のみで、 本ソフトウェアを1台のLinux機器にインストールして、インストール後30日間 に限り使用することができます。
N2 利用規約 第5条 禁止事項 より (6)本規約で弊社が別途許諾している場合以外に、営利・非営利に拘らず、本 ソフトウェア、 又は本ソフトウェアの使用により作成された音声データを、複製、頒布、貸与、 譲渡、公衆送信、 送信可能化若しくは上映すること(家庭内や少数の友人間など限られた範囲内で
使うために 行う本音声データの複製については除く。)
一般公開は無理そう? しかし,デモ映像ページには以下のような記述がある 無償版で作成したプロトタイプ(作ってみた)をYoutubeにアップしてTwitterな どでお知らせいただければ、こちらでもご紹介させていただきます。
導入 $ tar xf ./n2-linux-foc-*.tar.gz $ sudo dpkg -i ./n2-linux-foc-*/*.deb
n2ttsコマンド $ n2tts -o - こんにちは | aplay
声質モデルデータ指定(-m) $ ls /usr/share/n2tts/voice/ fa001.dat fa003.dat fa005.dat fb002.dat fb004.dat ma001.dat
ma003.dat ma005.dat mb002.dat mb004.dat fa002.dat fa004.dat fb001.dat fb003.dat fb005.dat ma002.dat ma004.dat mb001.dat mb003.dat mb005.dat $ ls -1 /usr/share/n2tts/voice/ | xargs -n1 -I{} sh -c "n2tts -m {} -o - こんにちは | aplay"
音声パラメータ設定(-p key=value) SPEECHRATE 64…1024(default 256) 小さいほうが早口 PITCH -1536…1536(default 0) 小さいほうが低い
PITCHRANGE 0…1024(default 256)
早口でしゃべる $ n2tts -p SPEECHRATE=176 -o - -- こんにちは
N2で青空文庫読み上げ UTF8に変換して1行毎にTTSに掛ける 132892文字問題なく最後まで読み上げられた $ wget -O - https://www.aozora.gr.jp/cards/001090/files/42307_txt_24297.zip | \
zcat | nkf -w | xargs -I{} -n1 sh -c "echo {}; n2tts -o - -- {} | aplay 2>/dev/null "
Open JTalk 端末単体で動作 日本語対応だと一番メジャー? 今回はDebian packageのものを利用 open-jtalk TTSシステム hts-voice-nitech-jp-atr503-m001 音声データ
open-jtalk-mecab-naist-jdic NAISTの辞書データ
幾つかのOpen JTalk向け音響モデル Open JTalk - Browse /HTS voice at SourceForge.net
MMDAgent - Browse /MMDAgent_Example at SourceForge.net icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}
とりあえずしゃべる $ echo こんにちは | open_jtalk \ -m /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \
-x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/stdout | aplay
青空文庫読み上げ $ wget -O - https://www.aozora.gr.jp/cards/001090/files/42307_txt_24297.zip | \ zcat |
nkf -w | xargs -I{} -n1 sh -c "echo {}; echo {} | open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/stdout | aplay" 最後まで読み上げたけどN2に比べ変換に時間がかかるようで空白時間が発生して気に なる
N2/Open JTalkの変換時間比較 約400バイトのテキストを読み上げて /dev/null に $ wc -c text 398
text $ \time -f "real %e" sh -c "cat text|open_jtalk -m \ /usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice \ -x /var/lib/mecab/dic/open-jtalk/naist-jdic -ow /dev/null" real 2.80 $ \time -f "real %e" n2tts -o /dev/null `cat text` real 0.71 Open JTalk 2.8s N2 0.71s ※Intel(R) Core(TM) i5-3320M CPU @ 2.60GHz すぐに声を出したい場合は文を短くするなどの工夫をしたほうが良さそう
TTS活用 Twitter hashtag読み上げ イベントのサブチャンネルで読み上げたり? 声を出せない環境でビデオチャットやボイスチャットに音声参加
Twitter読み上げ…… 以前作った物かmikutterを流用しようとしたらBANされたアカウントのTwitterAPI IDだ ったので今のアカウントで再取得 Twitter API IDの取得に失敗 unable to approve
your developer application at this time. 新しく申請も出来ない……
sayakaちゃん twitter クライアント sayaka ちゃん ターミナル特化Twitter client.SIXELに対応していれば画像も表示できる.OSCで x68000などで動かして展示されている.
sayakaちゃんを利用してTwitter読み上げ Tweetをファイルに保存 $ sayaka --record-all koedolug.json '#koedolug' ファイルからtweetを抜き出してTTS $ stdbuf
-oL tail -f koedolug.json |stdbuf -i0 -oL jq -r .text | stdbuf -i0 -oL \ xargs -I{} -n1 sh -c "echo {}; stdbuf -i0 -oL n2tts -o - -- {} | aplay 2>/dev/null" 副音声や距離の概念のあるサービスなどに?(Second Life, Remo, Hubs Cloud, Online Town, SpatialChat……)
TTSでしゃべる 深夜,外出先,など声を出しづらいときなどに? テキスト入力時間が必要なので実用度は?
TTSの音声をマイクに入れる Zoom.us画面共有時 -> 「 コンピュータの音声を共有」 その他 -> ソフトウェアミキサーでマイクと合成
PulseAudio環境でオーディオをマイクとミックスしてビデオ会議に参加でき るようにするscript これを実行後PCのオーディオもマイクの音声と一緒に流れていくようになる $ git clone https://github.com/toadjaune/pulseaudio-config $ cd pulseaudio-config
$ ./pulse_setup.sh toadjaune/pulseaudio-config: Scripts and notes for custom pulseaudio configuration
音が小さい 一人で試してるときは気づかなかった Volume Controle(pavucontrol)で最大にしても聞こえない? aplayでボリューム上げ方わからなかったので sox の play を利用 play
-v 10
次世代のTTS? 自然な人間に近いTTS 今の所UK/US DeepMindのGANを利用したTTS [1909.11646] High Fidelity Speech Synthesis with
Adversarial Networks Amazon Pollyのニューラルネットワークを利用したTTS Amazon Polly Introduces Neural Text-To-Speech and Newscaster Style | AWS News Blog 日本語も出てくるのを期待
まとめ ぎごちないながらもLinux端末だけで日本語のTTSが出来る テキストを読み上げてもらいながら作業事等に聞くのに便利 リアルタイムの音声チャットでの実用度は? 発言の多いTwitterやChatを副音声などで読み上げるのはありかも?
おまけ 先月,先々月と画面共有に失敗していたのでテキストベースのプレゼンを用意 ttyd で端末をhttpで共有,ウェブブラウザで閲覧可能にしておく Markdownで記述したスライドを mdp を使い端末で表示(ほぼMarp Nextで利用で きる形式でokだった) その他,ttvでウェブカメラ表示,mapsciiで地図表示
発表してみて ttyd を操作可能にしていたのでウェブブラウザで開かれるたびに画面リサイズ が発生してしまうという問題が発生 今回は表示だけで良いので -R オプションを付けるべきだった 表示されているテキストをそのままコピーできるのは便利 (しかし今月は画面共有もうまく行ったので必要なかった)
奥付 発表: 「小江戸らぐ 8月のオフな集まり(第217回)」 発表者: Kenichiro Matohara mailto:
[email protected]
license: CC-BY-NC-SA
4.0 powered by VSCodium + mdp + Marp-CLI 参考URL: https://wiki.matoken.org/linux/tts