音声認識と音声合成の超入門

Slide 1

Slide 1 text

音声認識

Slide 2

Slide 2 text

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」てんきははれ天気は晴れてんきわはれ点際晴れてんきはれい天気は例「天気は晴れ」コンピュータくん

Slide 3

Slide 3 text

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」 ● 音の知識のイメージ ○ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ○ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている

Slide 4

Slide 4 text

音声認識「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、音声を自動でテキスト化する技術」 ● 言語の知識のイメージ ○ 文字や単語の並びが自然かどうかを判断する知識「彼は晩ごはんに焼き肉を食べました」　　⇐自然「彼は晩ごはんにサッカーを食べました」　⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているからこそ、自然かどうかを判断できる

Slide 5

Slide 5 text

音声合成

Slide 6

Slide 6 text

音声合成「コンピュータが、自身の脳の中にある音の知識と言語の知識を駆使して、テキストから音声を合成する技術」動詞、名詞、形容詞… コンピュータくん「天気は晴れ」てんきははれ ten-ki-wa-hare アクセント、イントネーション

Slide 7

Slide 7 text

超簡易版　音声合成の歴史 ● ルールベース（職人芸）：フォルマント合成（1990年以前） ○ 手動ルールによる各音素（/a/や/k/など）の素片を構築 ○ e.g., AquesTalk（いわゆる「ゆっくりボイス」） ● コーパスベース：波形接続型音声合成（1990年〜） ○ 音声データベースから音声素片を接続し合成 ○ e.g., ボーカロイド ● コーパスベース：統計的パラメトリック音声合成（1995年〜） ○ 音声データベースから統計的に音声を予測し合成 ○ 隠れマルコフモデル/深層学習による音声合成 ○ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

Slide 8

Slide 8 text

統計的音声合成の概要出典『音響学入門ペディア』（コロナ社）