Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声認識と音声合成の超入門
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Akira Tamamori
June 16, 2023
Technology
0
500
音声認識と音声合成の超入門
音響学入門ペディアを参考に
Akira Tamamori
June 16, 2023
Tweet
Share
More Decks by Akira Tamamori
See All by Akira Tamamori
音声情報処理に便利な (Python) パッケージやソフトウェア
tam17aki
3
940
Tokyo BISH Bash #02 音声情報処理と音声変換技術入門
tam17aki
2
2.3k
[ICASSP2020音響音声読み会] State-Space Gaussian Process for Drift Estimation in Stochastic Differential Equations
tam17aki
0
580
Other Decks in Technology
See All in Technology
SRE NEXT 2026 CfP レビュアーが語る聞きたくなるプロポーザルとは?
yutakawasaki0911
0
230
EMからVPoEを経てCTOへ:マネジメントキャリアパスにおける葛藤と成長
kakehashi
PRO
9
1.6k
Kaggleの経験が実務にどう活きているか / kaggle_findy
sansan_randd
7
1.4k
8万デプロイ
iwamot
PRO
2
230
情シスのための生成AI実践ガイド2026 / Generative AI Practical Guide for Business Technology 2026
glidenote
0
190
[JAWSDAYS2026][D8]その起票、愛が足りてますか?AWSサポートを味方につける、技術的「ラブレター」の書き方
hirosys_
3
120
JAWS FESTA 2025でリリースしたほぼリアルタイム文字起こし/翻訳機能の構成について
naoki8408
1
280
2026-03-11 JAWS-UG 茨城 #12 改めてALBを便利に使う
masasuzu
2
340
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
12
5.4k
kintone開発のプラットフォームエンジニアの紹介
cybozuinsideout
PRO
0
860
20260311 技術SWG活動報告(デジタルアイデンティティ人材育成推進WG Ph2 活動報告会)
oidfj
0
280
When an innocent-looking ListOffsets Call Took Down Our Kafka Cluster
lycorptech_jp
PRO
0
120
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
300
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
100
エンジニアに許された特別な時間の終わり
watany
106
240k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
How to train your dragon (web standard)
notwaldorf
97
6.5k
The Pragmatic Product Professional
lauravandoore
37
7.2k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
760
Designing for Performance
lara
611
70k
30 Presentation Tips
portentint
PRO
1
250
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
250
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Transcript
音声認識
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい
天気は例 「天気は晴れ」 コンピュータくん
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」 ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる
音声合成
音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、
イントネーション
超簡易版 音声合成の歴史 • ルールベース(職人芸):フォルマント合成(1990年以前) ◦ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ◦ e.g., AquesTalk(いわゆる「ゆっくりボイス」) • コーパスベース:波形接続型音声合成(1990年〜)
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース:統計的パラメトリック音声合成(1995年〜) ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf
統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)