Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声認識と音声合成の超入門
Search
Akira Tamamori
June 16, 2023
Technology
520
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
音声認識と音声合成の超入門
音響学入門ペディアを参考に
Akira Tamamori
June 16, 2023
More Decks by Akira Tamamori
See All by Akira Tamamori
音声情報処理に便利な (Python) パッケージやソフトウェア
tam17aki
3
960
Tokyo BISH Bash #02 音声情報処理と音声変換技術入門
tam17aki
2
2.3k
[ICASSP2020音響音声読み会] State-Space Gaussian Process for Drift Estimation in Stochastic Differential Equations
tam17aki
0
590
Other Decks in Technology
See All in Technology
MCP Appsを作ってみよう
iwamot
PRO
4
430
AI活用を推進するために ファインディが下した、一つの小さな決断
starfish719
0
300
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
2
1.3k
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.9k
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
380
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.8k
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
200
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
160
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
440
Android の公式 Skill / Android skills
yanzm
0
110
Chainlitで作るお手軽チャットUI
ynt0485
0
110
Featured
See All Featured
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
570
Leo the Paperboy
mayatellez
7
1.8k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Testing 201, or: Great Expectations
jmmastey
46
8.2k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
Facilitating Awesome Meetings
lara
57
7k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
440
Six Lessons from altMBA
skipperchong
29
4.3k
Transcript
音声認識
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい
天気は例 「天気は晴れ」 コンピュータくん
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 音の知識のイメージ ◦ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ◦ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている
音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 • 言語の知識のイメージ ◦ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」 ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか
らこそ、自然かどうかを判断できる
音声合成
音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、
イントネーション
超簡易版 音声合成の歴史 • ルールベース(職人芸):フォルマント合成(1990年以前) ◦ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ◦ e.g., AquesTalk(いわゆる「ゆっくりボイス」) • コーパスベース:波形接続型音声合成(1990年〜)
◦ 音声データベースから音声素片を接続し合成 ◦ e.g., ボーカロイド • コーパスベース:統計的パラメトリック音声合成(1995年〜) ◦ 音声データベースから統計的に音声を予測し合成 ◦ 隠れマルコフモデル/深層学習による音声合成 ◦ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf
統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)