Slide 1

Slide 1 text

音声認識

Slide 2

Slide 2 text

音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 てんきははれ 天気は晴れ てんきわはれ 点 際 晴れ てんきはれい 天気は例 「天気は晴れ」 コンピュータくん

Slide 3

Slide 3 text

音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 ● 音の知識のイメージ ○ 「あ」の音はこんな波形、「サッカー」という音はこんな波形、、、 ○ 人間は「あ」という音を聞いたら、「これは”あ”という音だな」と分かる ⇒人間は「あ」という音がどんな波形であるかの知識を持っている

Slide 4

Slide 4 text

音声認識 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、音声を自動でテキスト化する技術」 ● 言語の知識のイメージ ○ 文字や単語の並びが自然かどうかを判断する知識 「彼は晩ごはんに焼き肉を食べました」  ⇐自然 「彼は晩ごはんにサッカーを食べました」 ⇐不自然 →焼き肉が食べ物でサッカーが食べ物ではない、という知識を人間が持っているか らこそ、自然かどうかを判断できる

Slide 5

Slide 5 text

音声合成

Slide 6

Slide 6 text

音声合成 「コンピュータが、自身の脳の中にある音の知識と 言語の知識を駆使して、テキストから音声を合成する技術」 動詞、名詞、形 容詞… コンピュータくん 「天気は晴れ」 てんきははれ ten-ki-wa-hare アクセント、 イントネーション

Slide 7

Slide 7 text

超簡易版 音声合成の歴史 ● ルールベース(職人芸):フォルマント合成(1990年以前) ○ 手動ルールによる各音素(/a/や/k/など)の素片を構築 ○ e.g., AquesTalk(いわゆる「ゆっくりボイス」) ● コーパスベース:波形接続型音声合成(1990年〜) ○ 音声データベースから音声素片を接続し合成 ○ e.g., ボーカロイド ● コーパスベース:統計的パラメトリック音声合成(1995年〜) ○ 音声データベースから統計的に音声を予測し合成 ○ 隠れマルコフモデル/深層学習による音声合成 ○ e.g. CeVIO 参考 https://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

Slide 8

Slide 8 text

統計的音声合成の概要 出典『音響学入門ペディア』(コロナ社)