Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声認識と音声合成の超入門
Search
Akira Tamamori
June 16, 2023
Technology
0
490
音声認識と音声合成の超入門
音響学入門ペディアを参考に
Akira Tamamori
June 16, 2023
Tweet
Share
More Decks by Akira Tamamori
See All by Akira Tamamori
音声情報処理に便利な (Python) パッケージやソフトウェア
tam17aki
3
930
Tokyo BISH Bash #02 音声情報処理と音声変換技術入門
tam17aki
2
2.2k
[ICASSP2020音響音声読み会] State-Space Gaussian Process for Drift Estimation in Stochastic Differential Equations
tam17aki
0
580
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
6.4k
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
形式手法特論:コンパイラの「正しさ」は証明できるか? #burikaigi / BuriKaigi 2026
ytaka23
16
4.8k
旬のブリと旬の技術で楽しむ AI エージェント設計開発レシピ
chack411
1
160
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
12k
Everything As Code
yosuke_ai
0
500
松尾研LLM講座2025 応用編Day3「軽量化」 講義資料
aratako
15
4.9k
モノタロウ x クリエーションラインで実現する チームトポロジーにおける プラットフォームチーム・ ストリームアラインドチームの 効果的なコラボレーション
creationline
0
610
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
4
1.4k
スクラムを一度諦めたチームにアジャイルコーチが入ってどう変化したか / A Team's Second Try at Scrum with an Agile Coach
kaonavi
0
130
_第4回__AIxIoTビジネス共創ラボ紹介資料_20251203.pdf
iotcomjpadmin
0
180
2025年の医用画像AI/AI×medical_imaging_in_2025_generated_by_AI
tdys13
0
320
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
225
10k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
250
Building Applications with DynamoDB
mza
96
6.9k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
40
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
58
41k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
420
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
A Tale of Four Properties
chriscoyier
162
24k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
1
340
Marketing to machines
jonoalderson
1
4.5k
Transcript
音声認識
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい
天気は例 「天気は晴れ」 コンピュータくん
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」 ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる
音声合成
音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、
イントネーション
超簡易版 音声合成の歴史 • ルールベース(職人芸):フォルマント合成(1990年以前) ◦ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ◦ e.g., AquesTalk(いわゆる「ゆっくりボイス」) • コーパスベース:波形接続型音声合成(1990年〜)
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース:統計的パラメトリック音声合成(1995年〜) ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf
統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)