Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声合成の精度比較.pdf
Search
Keio Computer Society
November 10, 2021
0
150
音声合成の精度比較.pdf
WaveNetと論文(
http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/pdf/2020/0104_1-2-3.pdf
)を浅くまとめたものです。
Keio Computer Society
November 10, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
20211208.pdf
kcs
0
12
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
120
Graph Neural Network
kcs
0
27
Kaggle上位者解法紹介.pdf
kcs
0
42
Scaling Laws for NL Models
kcs
0
44
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
The Language of Interfaces
destraynor
158
25k
Raft: Consensus for Rubyists
vanstee
140
7k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Designing Experiences People Love
moore
142
24k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Done Done
chrislema
184
16k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
690
Adopting Sorbet at Scale
ufuk
77
9.5k
Gamification - CAS2011
davidbonilla
81
5.4k
Building Adaptive Systems
keathley
43
2.7k
Designing for Performance
lara
610
69k
Transcript
音声合成の精度比較 Shino
簡単に言葉の説明 • TTS (Text to Speech):音声合成 • ニューラルボコーダ:音声波形直接生成モデル • CNN
(Convolutional Neural Network):畳み込みニューラルネットワーク
WaveNetとは • 音声認識・合成技術の代表的なアルゴリズム • 音声認識・合成のニューラルボコーダ(音声波形直接生成モデル)の先駆となった • Google傘下のDeepMindが開発 • 2016年にリリース •
サンプリングレート数が高く(≒音質がよい) 、音声合成や音声認識で幅広く使われる ようになった • PixelCNN3をベースとした音声波形を生成するためのDNNのひとつ(後述) • 波形接続TTSではなくパラメトリックTTSモデルを利用 (後述)
WaveNet利用モデルについて
WaveNetとは 費用 音声生成速度 音質 流暢さ 波形接続TTS 高い 遅い 良い ない
パラメトリックTTS 安い 早い 悪い ない? 波形接続TTSとパラメトリックTTSの違い Wavenet導入前まで
WaveNetとは • 波形接続TTSについて 従来の技法 波形接続TTSとは1人の話者による短い音節のセットから必要なものを結合して合成す る技術のこと。 ね あ の あ
の ね あのね
WaveNetとは • パラメトリックTTSについて パラメトリックTTSとは話す内容や特徴(声、抑揚など)を入力によって操作できる技術 のこと。 文法や口の動きに関する一連のルールやパラメータを使用する 例えば ・ ねえねえ ・
ところで ・ 前置きの言葉は 文頭にアクセント あのね ・ あのね
WaveNetの処理について PixelCNNの導入により、従来以上の性能を発揮するパラメトリックTTSの利用が可能に
WaveNetとは • 音を点の集合とみなし、CNNで処理 44.1kHz/16bitであれば、 1秒間の空気振動を4万4100個の6万5536種類からなる点と いうデジタルデータとして認識
WaveNetとは • PixelCNN は、dilated convolutionという技法の使用 dilated convolution:フィルターとの積を取る相手の間隔をあける畳み込みのこと これにより大きい入力に対して短い時間で受容野を増やすことができる CNN
WaveNetとは 拡張版
WaveNetとは 費用 処理速度 音質 流暢さ 波形接続TTS 高い 遅い 良い ない
パラメトリックTTS 安い 早い 良い ある 波形接続TTSとパラメトリックTTSの違い Wavenet導入後
論文について • ざっくり内容 WaveNetボコーダ含む3つのニューラルボコーダの性能比較 調査するニューラルボコーダ: WaveNet,LPCNet,Parallel WaveGAN ボコーダ
ニューラルボコーダ WaveNet :自己回帰機構を用いて波形を直接推定 するニューラル生成モデル。生成速 度が遅い、高品質な音声。8bit 信号を生成。 LPCNet :再帰的ニューラルネットワークを用いた WaveRNNベースのニューラルボ コーダ。
8bit 信号を生成。従来はサンプリング周波数 16 kHz の音声 を合成可能な ニューラルボコーダ。 Parallel WaveGAN :Parallel WaveNet を Generator とするGANベースのニュー ラル ボコーダ。 Generator である WaveNet が全てのサ ンプルを同時に生成。
ニューラルボコーダ モデル ベース 出力信号 特徴 WaveNet 自己回帰機構 - 8bit 信号
・高音質 ・生成速度が遅い LPCNet 再帰的ニューラル ネットワーク WaveRNN 8bit 信号 ・生成速度は遅い が、手法次第でリ アルタイム生成が 可能 Parallel WaveGAN Parallel WaveNet GAN 16bit信号 ・生成速度が速い ・リアルタイム生 成が可能
論文_実験内容 • 実験内容:サンプリング周波数 24 kHz の音声を用いて分析合成・比較 • データ:日本人女性話者による 7697 文
(約 10 時間) の音声を使用 そのうち、学習セットは以下。 LPCNet,Parallel WaveGAN :9,5,3,1,1/2, 1/4,1/8 時間の 7 種類, WaveNet : 9 時間と 1/8 時 間の 2 種類を学習セットに使って評価
論文_実験結果① • 生成速度について 1つのCPU/GPUを使って合成時間を測定 時間は(処理時間/検証に用いた音声の長さ)にて算出 CPU(Intel Xeon6152) GPU(NVIDIA TeslaV100 )
①WaveNet - 196 ②LPCNet 1sの音声に対して0.24sで合 成音声を生成できる 0.22 ③Parallel WaveGAN 2.38 0.02
論文_実験結果①’ • 生成速度について 複数のCPUを使って合成時間を測定 CPU(Intel Xeon6152) WaveNet - LPCNet 0.24
Parallel WaveGAN 0.41(CPU16)
論文_実験結果② • 生成した音質について 学習データ量を変化させる LPCNet Parallel WaveGAN 飛び地:WaveNet 0 0.5
1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 7 8 9 10 学習セットの時間 音 質 ( で か い ほ ど 良 い )
まとめ 精度を重視するのであればWaveNetだが、時間がかかりすぎるので、リアルタイム生成 には向かない 各ニューラルボコーダにそれぞれ有用な特徴があるので、組み合わせるのが一番良い
参考 • 論文 http://www.me.cs.scitec.kobe-u.ac.jp/~takigu/pdf/2020/0104_1-2-3.pdf • その他 https://deepmind.com/blog/article/wavenet-generative-model-raw-audio https://qiita.com/takoroy/items/d21ae97d4df64f2918f9