Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声合成してみよう
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
xztaityozx
February 25, 2023
Programming
1.9k
2
Share
音声合成してみよう
第63回シェル芸勉強会のLTで使った資料です
xztaityozx
February 25, 2023
More Decks by xztaityozx
See All by xztaityozx
呪符式高速詠唱シェル芸 3
xztaityozx
0
790
Other Decks in Programming
See All in Programming
LLM Plugin for Node-REDの利用方法と開発について
404background
0
140
AIとRubyの静的型付け
ukin0k0
0
450
横断組織出身のQAEがインプロセスQAEでつまずいたこと・活かせたこと
ty89
0
460
Modding RubyKaigi for Myself
yui_knk
0
800
Java × distroless で 軽量なコンテナイメージを / Java on Distroless
contour_gara
0
420
AI 時代のソフトウェア設計の学び方
masuda220
PRO
28
11k
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.2k
Augmenting AI with the Power of Jakarta EE
ivargrimstad
0
360
次世代リンターで探る、tsgo 時代における型認識カスタムルールの現実解
ytakahashii
3
1.3k
Lemonade + Foundry Toolkit でお手軽アプリ開発
seosoft
1
230
分析エージェント精度向上における データアナリストの役割
oura_shoya
0
140
oxlintはeslint/typescript-eslintを置き換えられるのか
shomafujita
2
290
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Believing is Seeing
oripsolob
1
130
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
830
30 Presentation Tips
portentint
PRO
1
310
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
180
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
390
Un-Boring Meetings
codingconduct
0
300
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
560
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
Transcript
音声合成してみよう たいちょー
みなさん#!/bin/bash(こんにちはの意) たいちょーです twitter: @xztaityozx_001 GitHub: xztaityozx 好きな言語: C#, Go 職業:
お嬢様系難読化シェル芸人
今回の話 自分の音声で単純な音声合成をしてみる話
筋トレしてますか 私はやってます めちゃくちゃ追い込む感じではなく、ゆるく自宅トレーニングしてます ちょっっっとだけ育ってきてちょっとうれしい これからも頑張ります でも…
回数数えるのが面倒
回数数えるのが面倒 どの動きをN回、という感じ。回数を数えておく必要がある でも運動の方に集中したいので、回数が分からなくなりがち 回数を電子音で知らせるアプリもあるけど、今何回目かがわかりにくくてむずい トレーナーがいれば楽ですが…家にはいない…!
トレーナー作ればいい じゃん
音声合成を使ってトレーナーを作ろう 音声合成 テキストから音声を人工的に生成するやつ そんな感じのソフトウェアが割とある Open JTalk N2 TTS A.I VOICE
まだまだたくさん 回数を数える文章を書いて音声を合成すればトレーナーが作れる!
音声合成してみる 今回はA.I VOICE 紲星あかりを使 ってみます 理由 API用のDLLが配られて て、プログラムから音 声を合成しやすい かわいい
cute... いい感じですね APIを使って簡単にメニューを音声合成できるようにしたいですね! なんなら、WebサーバーにしてLAN内に公開したいですね! スマホから操作できてうれしいからですね! ちなみに、APIを使ったサーバーをインターネットに公開するのは規約で 禁止されてます でも 名前付きパイプを使う都合、.NET6ではできないですね とはいえ.NET
FrameworkではWebサーバーを書くのがめんどくさいですね
なんかこう…もっと手軽に合成したい… したいですね
自分の声合成すればい いじゃん そうかな…そうかも…
自分の音声合成ソフトを作ってみよう 手法 i. 50音を録音 ii. 文字列を1文字ずつ分割 iii. 対応する音声ファイルを ffmpeg で連結
iv. 完成 すごく簡単ですね!
録音 以下のコマンドで生成した文字を一つずつ録音していきます echo {ァ..ン} | fmt -1 | grep -v
'[ァ|ィ|ゥ|ェ|ォ|ヮ|ャ|ュ|ョ|ヰ|ヱ|ッ]'
None
分割 Audacityの機能を使って録音ファイルをから一文字ずつ分割していきます。 分割後のファイルはシェル芸で名前を付けておきます $ echo {あ..ん} | fmt -1 |
grep -v '[ぁぃぅぇぉゃっゅょゎゑゐ]' | paste - <(ls) | rargs mv {2} {1}.mp3 あ.mp3 , い.mp3 という感じのデータができます。
合成 ffmpeg で音声を合成します。 「こんにちは」だとすると、以下のコマンドで生成できます $ ffmpeg -i "concat:こ.mp3|ん.mp3|に.mp3|ち.mp3|は.mp3" out.mp3
聞いてみよう!
こわい! そして全然かわいくない
なぜ怖いのか いろいろあると思いますが、一番は抑揚がないからですね
UniDicでアクセントを知らべてみる UniDic UniDicとは、国立国語研究所の規定した斉一(せいいつ)な言語単位(短単位) と、 階層的見出し構造に基づく電子化辞書の ① 設計方針 および、その実装としてのリレーショナルデータベース ② UniDicデータベース
と、そのデータベースからエクスポートされた短単位をエントリ(見出し語)と する、形態素解析器MeCab用の解析用辞書 ③ 解析用UniDic の総称です。
UniDicでアクセントを調べてみる 25番目のフィールド(= aType )がアクセント位置です 26,27番目のフィールドも使ってアクセントを修飾しますが、今回は単純化のため に位置だけを見ます こんにちは の場合は5文字目 $ echo
こんにちは | mecab -d /var/lib/mecab/dic/unidic こんにちは 感動詞,...省略...,コンニチハ,5,,,37963946107478528,138112 EOS
アクセント位置用の音声を用意する ピッチを調整した音声を用意します ffmpeg を使います 1.01倍にします $ ls *.mp3 | rargs
-p '(.+)\.mp3' ffmpeg -y -i {} -af 'asetrate=44100*101/100,atempo=100/101' {1}_accent.mp3
アクセントを考慮した音声を合成してみる アクセントの効果をわかりやすくするために、ここでは「よろしくお願いいたしま す」を使います $ ffmpeg -i concat:$(echo よろしくお願いいたします|\ mecab -d
/var/lib/mecab/dic/unidic | \ awk 'NF>1{print $2}' | \ sel -d, 21 25 | \ awk '{for(i=1;i<=length($1);i++) if(i==$2) { print substr($1, i, 1)"_accent.mp3" } else print substr($1, i, 1)".mp3"}' | \ paste -sd\|) \ ./output.mp3
聞いてみよう!
こわい!! かなしいね
APIサーバーを建ててみました… いい感じにできたらWebサービスとして公開してみるかと思ってました いい感じになってないですが公開しました。ただしAPIだけ… https://[サ終しました].ap-northeast-1.awsapprunner.com/api/Generate {"Text": "こんにちは"} といった感じのJSONをPOSTしてやると、音声フ ァイルへのURLが返ってきます AWS App
Runnerの素振りがしたかったのがほとんどのモチベです 今日中にサーバーは落とすので試すなら今!! # httpie の例 $ http --json POST https://[サ終しました].ap-northeast-1.awsapprunner.com/api/Generate Text=こんにちは
まとめ 1. 筋トレのトレーナーのかわりに音声合成を使おうと思った 2. なんかもっとサッとやりたかったので、自分の音声を使った音声合成をやってみ た 3. こわかった 4. アクセントをつけてみた
5. こわかった App Runnerめちゃ簡単で良かったのでおススメです
$ owari kan -g -a xztaityozx | ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄| | 終 |
| 制作・著作 | |  ̄ ̄ ̄ ̄ ̄ ̄ ̄ | | xztaityozx | |_________| ∧∧ || ( ゚д゚)|| / づΦ