Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声認識と音声合成の超入門
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Akira Tamamori
June 16, 2023
Technology
530
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
音声認識と音声合成の超入門
音響学入門ペディアを参考に
Akira Tamamori
June 16, 2023
More Decks by Akira Tamamori
See All by Akira Tamamori
音声情報処理に便利な (Python) パッケージやソフトウェア
tam17aki
3
960
Tokyo BISH Bash #02 音声情報処理と音声変換技術入門
tam17aki
2
2.3k
[ICASSP2020音響音声読み会] State-Space Gaussian Process for Drift Estimation in Stochastic Differential Equations
tam17aki
0
590
Other Decks in Technology
See All in Technology
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
5
900
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
420
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
260
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
300
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
550
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
0
170
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
ザ・データベース、MySQL ~ OSC 2026 Sendai ~
sakaik
0
130
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.3k
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
170
手塩にかけりゃいいってもんじゃない
ming_ayami
0
610
Kiro Ambassador を目指す話
k_adachi_01
0
110
Featured
See All Featured
Done Done
chrislema
186
16k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
400
Large-scale JavaScript Application Architecture
addyosmani
515
110k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
WENDY [Excerpt]
tessaabrams
11
38k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
390
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
Navigating Team Friction
lara
192
16k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
180
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
音声認識
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい
天気は例 「天気は晴れ」 コンピュータくん
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」 ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる
音声合成
音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、
イントネーション
超簡易版 音声合成の歴史 • ルールベース(職人芸):フォルマント合成(1990年以前) ◦ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ◦ e.g., AquesTalk(いわゆる「ゆっくりボイス」) • コーパスベース:波形接続型音声合成(1990年〜)
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース:統計的パラメトリック音声合成(1995年〜) ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf
統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)