Generative Models for Audio Signal Modeling

Generative models for audio signal modeling 升山義紀 1 早稲田大学及川研究室

自己紹介 2 • 升山義紀 @ymas0315 – 経歴 • 2015.04-2019.03 早稲田大学
基幹理工学部 • 2019.03-現在同大学院 • 2019.02-2019.09 インターン/アルバイト@LINE • 2019.08-2019.10 インターン＠AIST – 研究テーマ • 音響信号処理 (音声強調・分離，位相復元) – 興味のある分野 • クロスモーダル (2.5D Visual Sound, サーベイ発表)

本スライドの内容は個人の解釈であり，誤りの可能性があります．紹介中の論文および著者ページから図を引用する場合，引用元の記載を省略します． 3

発表内容 4 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較
2. スペクトログラムの生成モデル • 高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換

音響信号の表現 5 • 時間領域と時間周波数領域 “The Phase Vocoder – Part I,"
URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/ 波形スペクトログラムなど線形(or非線形)変換例：短時間フーリエ変換

2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換

波形のモデルリング 7 • 音声信号の特徴を捉えるための課題 – 長期に渡る依存関係 – 隣接したサンプル間の強い相関 "WaveNet: A
generative model for raw audio," URL: https://deepmind.com/blog/article/wavenet-generative- model-raw-audio

変遷 8 • WaveNet以降の主な手法 – 自己回帰生成モデルを避け推論を高速化 WaveNet (2016) Parallel WaveNet
(2017) WaveRNN (2018) ClariNet (2018) FloWaveNet (2018) WaveGlow (2018) Real NVP (2016) Glow (2018) IAF (2016) PixelＲNN (2016) PixelCNN (2016) PixelCNN++ (2017) Autoregressive IAF Direct flow

WaveNet (1/3) 9 • Wavenet: A generative model for raw
audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現

WaveNet (1/3) 10 • Wavenet: A generative model for raw
audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現 Pixel Recurrent Neural Networks (ICML2016) PixelRNN・CNN • 画像生成：256クラスのクラス分類×3 • 自己回帰モデルにもとづいた画像生成

WaveNet (2/3) 11 • 高次マルコフモデルをDNNで置き換え – Dilated convolution • 受容野を効率的に拡大
(長期にわたる依存関係を考慮) – Causal convolution • 生成なので将来のサンプルは利用不可能

WaveNet (3/3) 12 • Conditional WaveNets – 条件付き確率をモデル化 • 話者ラベルなどの大域的な特徴，言語特徴量などの
局所的な特徴の両方を条件付けとして利用可能 • = ς=1 ( |1 , … , −1 , ) この部分に特徴量を畳み込んだものを追加 = tanh , ∗ + , ⋅ , ∗ + ,

WaveRNN 13 • Efficient Neural Audio Synthesis (ICLR2019) – WaveNetの課題：ネットワークが巨大
– WaveRNN：GRU+2Denseという小規模モデル (特徴づけがあれば小規模DNNで十分？) 他にも音質保持+高速化のテクニック多数 • Dual softmax (上位8bit・下位8bitをわける) • 重みのプルーニング (Sparse WaveRNN) • 生成方法の工夫 (Subscale WaveRNN)

Parallel WaveNet (1/3) 14 • Parallel WaveNet: Fast High-Fidelity Speech
Synthesis (ICML2018) – WaveNetの課題： • 自己回帰モデルのため推論が並列にできず生成が遅い – Parallel WaveNet： • Inverse Autoregressive flowを用いることで並列に推論可能 • 教師として利用するWaveNet自体の性能も改善 PixelCNN++ • PixelCNN：softmaxを利用 • PixelCNN++： • mixture of logisticsのパラメータを推定 ⇒ クラス数≠推定すべきパラメータ数

Parallel WaveNet (2/3) 15 • Inverse Autoregressive Flow (IAF) –
Flowの基本 • 確率変数を可逆変換： = () • このときの確率密度関数：logp = logp − log – Inverse Autoregressive Flow • 変数変換を以下のように定義 = ∙ < , + < , • AutoregressiveNNだとが効率的に可能 (ヤコビアンの対角要素の積になり(3) → ())

Flowの基本 • 確率変数を可逆変換： = () • このときの確率密度関数：logp = logp − log – Inverse Autoregressive Flow Improved variational inference with inverse autoregressive flow (NIPS2016)

Flowの基本 • 確率変数を可逆変換： = () • このときの確率密度関数：logp = logp − log – Inverse Autoregressive Flow • サンプリング：並列に行うことができるため高速 • 学習：尤度の計算が遅い

Parallel WaveNet (3/3) 18 • Probability Density Distillation loss –
WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet：( |1 , … , −1 , ) • 生徒Parallel WaveNet：( |1 , … , , ) • ロス関数： ( | = ( , ) − ( )

WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet：( |1 , … , −1 , ) • 生徒Parallel WaveNet：( |1 , … , , ) • ロス関数： ( | = ( , ) − ( ) 変数変換をしただけなので容易に計算可能

WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet：( |1 , … , −1 , ) • 生徒Parallel WaveNet：( |1 , … , , ) • ロス関数： ( | = ( , ) − ( ) はLogistic分布，は教師自体の性能改善のために混合Logstic分布 ⇒ 解析的に計算できない ⇒ 生徒Parallel WaveNetからのサンプリングが必要

ClariNet 21 • ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech
(ICLR2019) – 基本的なアイデアはPralell WaveNetと同じ – ClariNet： • 教師・生徒ともにガウシアンにすることでKL疑距離最小化が解析的に計算可能 ⇒ サンプリングを回避することで学習が安定 ( | = log + 2 − 2 + − 2 2 • 分散の対数値の二乗誤差をによる正則化を追加

WaveGlow (1/2) 22 • WaveGlow: A Flow-based Generative Network for
Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに，並列に推論可能なモデルを獲得したい – Non-causal WaveNet + Glow • 推論： = (, , )，学習： = −1(, , )

WaveGlow (2/2) 23 • WaveGlow: A Flow-based Generative Network for
Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに，並列に推論可能なモデルを獲得したい – Non-causal WaveNet + Glow • 推論： = (, , )，学習： = −1(, , ) 1×1 invertible convolution • Affine coupling layer のみではチャンネル間の情報はお互いに影響されない • Glowでは1×1 convolutionでチャンネル間の情報を混合

FloWaveNet 24 • FloWaveNet: A Generative Flow for Raw Audio
(ICML2019) – 基本的なアイデアはWaveGlowと同じ – WaveGlow: Glow (1×1 invertible convolution) – FloWaveNet: 配列の並び替え

スペクトログラムのモデリング 26 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase
Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/

スペクトログラムのモデリング 27 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase
Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/

Low/multi-resolution GAN 28 • Vocoder-free text-to-speech synthesis incorporating generative adversarial
networks using low-/multi- frequency STFT amplitude spectra (CSL2019) – 複数解像度での生成スペクトログラムの評価 • MSE + Low-res. GAN loss (+ Ori.-res. GAN loss) Φは周波数方向のダウンサンプリング

MelNet (1/2) 29 • MelNet: A Generative Model for Audio
in the Frequency Domain (arXiv2019) – より高精度なスペクトログラムのモデリング • 従来より冗長な時間周波数解像度 • スムージングを避けたい ⇒ 自己回帰モデルを適用 • 局所・大域的構造 ⇒ Coarse-to-fine (多段の生成) 4つのRNNでコンテキストをエンコード

MelNet (2/2) 30 • Multiscale Modelling – 解像度方向の自己回帰モデリング ; =
ෑ (|<; )

GANSynth 31 • GANSynth: Adversarial Neural Audio Synthesis (ICLR2019) –
GANによる時間周波数領域楽器音合成 – 振幅+瞬時周波数をモデリング • 位相そのものよりも構造が明確 • 時間方向に数値積分して位相を計算

複素スペクトログラムの生成モデル 32 • A Deep Generative Model of Speech Complex
Spectrograms (ICASSP2019) – 振幅と位相の生成モデルをVAEで表現 • 共通の潜在変数利用+振幅を位相の条件付けに利用 • 対数振幅：ガウス分布，位相：von Mises 分布

生成モデルの応用 34 • 合成以外の応用における生成モデル – 音声強調・分離 • 音声の事前分布をVAEでモデル化 • モノラル/マルチチャネルの両方に応用
– 声質変換 • 話者性(条件)をどう利用するか

音声強調への応用 (1/2) 35 • Statistical speech enhancement based on probabilistic
integration of variational autoencoder and non-negative matrix factorization (ICASSP2018) – 音声の生成モデル：クリーン音声から学習(VAE) – 雑音の生成モデル：NMF ⇒ クリーンな音声のみで学習可能

音声強調への応用 (2/2) 36 • VAEを用いた音声強調 – 音声の事前分布： • 分散時変な零平均の複素ガウス分布 ~
(0, ( )) • VAEで分散をモデル化 – 雑音の事前分布： • 分散はNMFでモデル化 ~ (0, σ ℎ ) – 音声強調 • パラメータの事後分布(, , ℎ|)をMCMCで近似 • 事後確率(|, , ℎ, )が最大となるが強調結果

音源分離への応用 (1/3) 37 • Supervised Determined Source Separation with Multichannel
Variational Autoencoder (MIT Press2019) – 複数話者の発話を複数マイクを利用し分離 – Conditional VAE • 話者ラベルで条件づけられた音声の生成モデルをcVAE のデコーダー表現 – 従来の多チャンネル信号処理+DNNのモデリング • 独立成分分析：元信号の独立性を仮定+事前分布が必要 ⇒ 事前分布のところにDNNを適用

音源分離への応用 (2/3) 38 • 独立成分分析 – 目的：混合音から元信号1 , 2 を復元
• 混合行列は未知 (, = , ) • 分離はその逆行列をかけることで可能 ( が可逆) – モデル • 元音源：各音源独立(, は対角行列) , ~ (0, , ) • 混合音：分離行列を使用すると以下の通り , ~ (0, −1, −) • 分離フィルタを最尤推定

音源分離への応用 (3/3) 39 • MVAE – 分散のモデリング • 時変分散,, の部分をVAEで用いてモデリング
,, = ∙ diag( 2(, )) • 潜在変数, 話者ラベル, スケールパラメータを推定とは尤度が大きくなるように誤差逆伝播法で更新

声質変換への応用 (1/2) 40 • StarGAN-VC: Non-parallel many-to-many voice conversion using
star generative adversarial networks (SLT2019) – Non-parallelな多対多の声質変換 • Adv. loss + Dom. loss + Cons. loss CycleGAN-VC StarGAN-VC

声質変換への応用 (2/2) 41 • Blow: a single-scale hyperconditioned flow for
non- parallel raw-audio voice conversion (NeurIPS2019) – Flowを使った多対多の波形領域の声質変換 • Forward-backward conversion ：潜在空間を話者非依存 • HyperConditioning：条件付けする埋め込みから畳み込み層のカーネルとバイアスを計算

Crossmodal Voice Conversion 42 • Crossmodal Voice Conversion (arXiv2019) –
クロスモーダルな生成 • 入力顔画像に合った声質に入力音声を変換 • 入力音声の声質に適合した顔画像を生成 Speech2Face(CVPR2019)は声→顔のみ

まとめ 43 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • Auto regressive modelからFlowへ
2. スペクトログラムの生成モデル • 高精度なモデリングへ(GANやAuto regressive model) 3. 応用分野 • 音声強調・分離(複素ガウス分布の分散の生成モデル) • 声質変換

Interspeech2019 44

Generative Models for Audio Signal Modeling

Generative Models for Audio Signal Modeling

More Decks by Yoshiki Masuyama

Other Decks in Research

Featured

Transcript