音声合成の精度比較.pdf

音声合成の精度比較 Shino

簡単に言葉の説明 • TTS (Text to Speech)：音声合成 • ニューラルボコーダ：音声波形直接生成モデル • CNN
(Convolutional Neural Network)：畳み込みニューラルネットワーク

WaveNetとは • 音声認識・合成技術の代表的なアルゴリズム • 音声認識・合成のニューラルボコーダ(音声波形直接生成モデル)の先駆となった • Google傘下のDeepMindが開発 • 2016年にリリース •
サンプリングレート数が高く(≒音質がよい) 、音声合成や音声認識で幅広く使われるようになった • PixelCNN3をベースとした音声波形を生成するためのDNNのひとつ(後述) • 波形接続TTSではなくパラメトリックTTSモデルを利用 (後述)

WaveNet利用モデルについて

WaveNetとは費用音声生成速度音質流暢さ波形接続TTS 高い遅い良いない
パラメトリックTTS 安い早い悪いない？波形接続TTSとパラメトリックTTSの違い Wavenet導入前まで

WaveNetとは • 波形接続TTSについて従来の技法波形接続TTSとは１人の話者による短い音節のセットから必要なものを結合して合成する技術のこと。ねあのあ
のねあのね

WaveNetとは • パラメトリックTTSについてパラメトリックTTSとは話す内容や特徴(声、抑揚など)を入力によって操作できる技術のこと。文法や口の動きに関する一連のルールやパラメータを使用する例えば・ねえねえ・
ところで・前置きの言葉は文頭にアクセントあのね・あのね

WaveNetの処理について PixelCNNの導入により、従来以上の性能を発揮するパラメトリックTTSの利用が可能に

WaveNetとは • 音を点の集合とみなし、CNNで処理 44.1kHz／16bitであれば、 1秒間の空気振動を4万4100個の6万5536種類からなる点というデジタルデータとして認識

WaveNetとは • PixelCNN は、dilated convolutionという技法の使用 dilated convolution：フィルターとの積を取る相手の間隔をあける畳み込みのことこれにより大きい入力に対して短い時間で受容野を増やすことができる CNN

WaveNetとは拡張版

WaveNetとは費用処理速度音質流暢さ波形接続TTS 高い遅い良いない
パラメトリックTTS 安い早い良いある波形接続TTSとパラメトリックTTSの違い Wavenet導入後

論文について • ざっくり内容 WaveNetボコーダ含む３つのニューラルボコーダの性能比較調査するニューラルボコーダ： WaveNet，LPCNet，Parallel WaveGAN ボコーダ

ニューラルボコーダ WaveNet ：自己回帰機構を用いて波形を直接推定するニューラル生成モデル。生成速度が遅い、高品質な音声。8bit 信号を生成。 LPCNet ：再帰的ニューラルネットワークを用いた WaveRNNベースのニューラルボコーダ。
8bit 信号を生成。従来はサンプリング周波数 16 kHz の音声を合成可能なニューラルボコーダ。 Parallel WaveGAN ：Parallel WaveNet を Generator とするGANベースのニューラルボコーダ。 Generator である WaveNet が全てのサンプルを同時に生成。

ニューラルボコーダモデルベース出力信号特徴 WaveNet 自己回帰機構 - 8bit 信号
・高音質・生成速度が遅い LPCNet 再帰的ニューラルネットワーク WaveRNN 8bit 信号・生成速度は遅いが、手法次第でリアルタイム生成が可能 Parallel WaveGAN Parallel WaveNet GAN 16bit信号・生成速度が速い・リアルタイム生成が可能

論文_実験内容 • 実験内容：サンプリング周波数 24 kHz の音声を用いて分析合成・比較 • データ：日本人女性話者による 7697 文
(約 10 時間) の音声を使用そのうち、学習セットは以下。 LPCNet，Parallel WaveGAN ：9，5，3，1，1/2， 1/4，1/8 時間の 7 種類， WaveNet ： 9 時間と 1/8 時間の 2 種類を学習セットに使って評価

論文_実験結果① • 生成速度について１つのCPU/GPUを使って合成時間を測定時間は(処理時間/検証に用いた音声の長さ)にて算出 CPU(Intel Xeon6152) GPU(NVIDIA TeslaV100 )
①WaveNet - 196 ②LPCNet 1sの音声に対して0.24sで合成音声を生成できる 0.22 ③Parallel WaveGAN 2.38 0.02

論文_実験結果①’ • 生成速度について複数のCPUを使って合成時間を測定 CPU(Intel Xeon6152) WaveNet - LPCNet 0.24
Parallel WaveGAN 0.41(CPU16)

論文_実験結果② • 生成した音質について学習データ量を変化させる LPCNet Parallel WaveGAN 飛び地：WaveNet 0 0.5
1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 7 8 9 10 学習セットの時間音質（でかいほど良い）

まとめ精度を重視するのであればWaveNetだが、時間がかかりすぎるので、リアルタイム生成には向かない各ニューラルボコーダにそれぞれ有用な特徴があるので、組み合わせるのが一番良い

参考 • 論文 http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/pdf/2020/0104_1-2-3.pdf • その他 https://deepmind.com/blog/article/wavenet-generative-model-raw-audio https://qiita.com/takoroy/items/d21ae97d4df64f2918f9

音声合成の精度比較.pdf

音声合成の精度比較.pdf

Keio Computer Society

More Decks by Keio Computer Society

Featured

Transcript

音声合成の精度比較 Shino

簡単に言葉の説明 • TTS (Text to Speech)：音声合成 • ニューラルボコーダ：音声波形直接生成モデル • CNN

WaveNetとは • 音声認識・合成技術の代表的なアルゴリズム • 音声認識・合成のニューラルボコーダ(音声波形直接生成モデル)の先駆となった • Google傘下のDeepMindが開発 • 2016年にリリース •

WaveNet利用モデルについて

WaveNetとは費用音声生成速度音質流暢さ波形接続TTS 高い遅い良いない

WaveNetとは • 波形接続TTSについて従来の技法波形接続TTSとは１人の話者による短い音節のセットから必要なものを結合して合成する技術のこと。ねあのあ

WaveNetとは • パラメトリックTTSについてパラメトリックTTSとは話す内容や特徴(声、抑揚など)を入力によって操作できる技術のこと。文法や口の動きに関する一連のルールやパラメータを使用する例えば・ねえねえ・

WaveNetの処理について PixelCNNの導入により、従来以上の性能を発揮するパラメトリックTTSの利用が可能に

WaveNetとは • 音を点の集合とみなし、CNNで処理 44.1kHz／16bitであれば、 1秒間の空気振動を4万4100個の6万5536種類からなる点というデジタルデータとして認識

WaveNetとは • PixelCNN は、dilated convolutionという技法の使用 dilated convolution：フィルターとの積を取る相手の間隔をあける畳み込みのことこれにより大きい入力に対して短い時間で受容野を増やすことができる CNN

WaveNetとは拡張版

WaveNetとは費用処理速度音質流暢さ波形接続TTS 高い遅い良いない

論文について • ざっくり内容 WaveNetボコーダ含む３つのニューラルボコーダの性能比較調査するニューラルボコーダ： WaveNet，LPCNet，Parallel WaveGAN ボコーダ

ニューラルボコーダモデルベース出力信号特徴 WaveNet 自己回帰機構 - 8bit 信号

論文_実験内容 • 実験内容：サンプリング周波数 24 kHz の音声を用いて分析合成・比較 • データ：日本人女性話者による 7697 文

論文_実験結果① • 生成速度について１つのCPU/GPUを使って合成時間を測定時間は(処理時間/検証に用いた音声の長さ)にて算出 CPU(Intel Xeon6152) GPU(NVIDIA TeslaV100 )

論文_実験結果①’ • 生成速度について複数のCPUを使って合成時間を測定 CPU(Intel Xeon6152) WaveNet - LPCNet 0.24

論文_実験結果② • 生成した音質について学習データ量を変化させる LPCNet Parallel WaveGAN 飛び地：WaveNet 0 0.5

まとめ精度を重視するのであればWaveNetだが、時間がかかりすぎるので、リアルタイム生成には向かない各ニューラルボコーダにそれぞれ有用な特徴があるので、組み合わせるのが一番良い

参考 • 論文 http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/pdf/2020/0104_1-2-3.pdf • その他 https://deepmind.com/blog/article/wavenet-generative-model-raw-audio https://qiita.com/takoroy/items/d21ae97d4df64f2918f9