Generative Models for Audio Signal Modeling

Generative Models for Audio Signal Modeling

0e20ab5db11ca70d818a4f10bfea9c9c?s=128

Yoshiki Masuyama

June 25, 2020
Tweet

Transcript

  1. 2.

    自己紹介 2 • 升山義紀 @ymas0315 – 経歴 • 2015.04-2019.03 早稲田大学

    基幹理工学部 • 2019.03-現在 同大学院 • 2019.02-2019.09 インターン/アルバイト@LINE • 2019.08-2019.10 インターン@AIST – 研究テーマ • 音響信号処理 (音声強調・分離,位相復元) – 興味のある分野 • クロスモーダル (2.5D Visual Sound, サーベイ発表)
  2. 4.

    発表内容 4 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較

    2. スペクトログラムの生成モデル • 高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
  3. 5.

    音響信号の表現 5 • 時間領域と時間周波数領域 “The Phase Vocoder – Part I,"

    URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/ 波形 スペクトログラムなど 線形(or非線形)変換 例:短時間フーリエ変換
  4. 6.

    発表内容 6 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較

    2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
  5. 8.

    変遷 8 • WaveNet以降の主な手法 – 自己回帰生成モデルを避け推論を高速化 WaveNet (2016) Parallel WaveNet

    (2017) WaveRNN (2018) ClariNet (2018) FloWaveNet (2018) WaveGlow (2018) Real NVP (2016) Glow (2018) IAF (2016) PixelRNN (2016) PixelCNN (2016) PixelCNN++ (2017) Autoregressive IAF Direct flow
  6. 9.

    WaveNet (1/3) 9 • Wavenet: A generative model for raw

    audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現
  7. 10.

    WaveNet (1/3) 10 • Wavenet: A generative model for raw

    audio (arXiv2016) – 音声波形を離散化し記号系列へ – 高次マルコフモデルにより出力確率を表現 Pixel Recurrent Neural Networks (ICML2016) PixelRNN・CNN • 画像生成:256クラスのクラス分類×3 • 自己回帰モデルにもとづいた画像生成
  8. 11.

    WaveNet (2/3) 11 • 高次マルコフモデルをDNNで置き換え – Dilated convolution • 受容野を効率的に拡大

    (長期にわたる依存関係を考慮) – Causal convolution • 生成なので将来のサンプルは利用不可能
  9. 12.

    WaveNet (3/3) 12 • Conditional WaveNets – 条件付き確率をモデル化 • 話者ラベルなどの大域的な特徴,言語特徴量などの

    局所的な特徴の両方を条件付けとして利用可能 • = ς=1 ( |1 , … , −1 , ) この部分に特徴量を畳み込んだものを追加 = tanh , ∗ + , ⋅ , ∗ + ,
  10. 13.

    WaveRNN 13 • Efficient Neural Audio Synthesis (ICLR2019) – WaveNetの課題:ネットワークが巨大

    – WaveRNN:GRU+2Denseという小規模モデル (特徴づけがあれば小規模DNNで十分?) 他にも音質保持+高速化のテクニック多数 • Dual softmax (上位8bit・下位8bitをわける) • 重みのプルーニング (Sparse WaveRNN) • 生成方法の工夫 (Subscale WaveRNN)
  11. 14.

    Parallel WaveNet (1/3) 14 • Parallel WaveNet: Fast High-Fidelity Speech

    Synthesis (ICML2018) – WaveNetの課題: • 自己回帰モデルのため推論が並列にできず生成が遅い – Parallel WaveNet: • Inverse Autoregressive flowを用いることで並列に 推論可能 • 教師として利用するWaveNet自体の性能も改善 PixelCNN++ • PixelCNN:softmaxを利用 • PixelCNN++: • mixture of logisticsのパラメータを推定 ⇒ クラス数≠推定すべきパラメータ数
  12. 15.

    Parallel WaveNet (2/3) 15 • Inverse Autoregressive Flow (IAF) –

    Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow • 変数変換を以下のように定義 = ∙ < , + < , • AutoregressiveNNだと が効率的に可能 (ヤコビアンの対角要素の積になり(3) → ())
  13. 16.

    Parallel WaveNet (2/3) 16 • Inverse Autoregressive Flow (IAF) –

    Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow Improved variational inference with inverse autoregressive flow (NIPS2016)
  14. 17.

    Parallel WaveNet (2/3) 17 • Inverse Autoregressive Flow (IAF) –

    Flowの基本 • 確率変数を可逆変換: = () • このときの確率密度関数:logp = logp − log – Inverse Autoregressive Flow • サンプリング:並列に行うことができるため高速 • 学習:尤度の計算が遅い
  15. 18.

    Parallel WaveNet (3/3) 18 • Probability Density Distillation loss –

    WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( )
  16. 19.

    Parallel WaveNet (3/3) 19 • Probability Density Distillation loss –

    WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( ) 変数変換をしただけなので容易に計算可能
  17. 20.

    Parallel WaveNet (3/3) 20 • Probability Density Distillation loss –

    WaveNetとParallel WaveNetの出力を近づける • 教師WaveNet:( |1 , … , −1 , ) • 生徒Parallel WaveNet:( |1 , … , , ) • ロス関数: ( | = ( , ) − ( ) はLogistic分布, は教師自体の性能改善のために 混合Logstic分布 ⇒ 解析的に計算できない ⇒ 生徒Parallel WaveNetからのサンプリングが必要
  18. 21.

    ClariNet 21 • ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

    (ICLR2019) – 基本的なアイデアはPralell WaveNetと同じ – ClariNet: • 教師・生徒ともにガウシアンにすることでKL疑距離 最小化が解析的に計算可能 ⇒ サンプリングを回避することで学習が安定 ( | = log + 2 − 2 + − 2 2 • 分散の対数値の二乗誤差をによる正則化を追加
  19. 22.

    WaveGlow (1/2) 22 • WaveGlow: A Flow-based Generative Network for

    Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに,並列に推論可能な モデルを獲得したい – Non-causal WaveNet + Glow • 推論: = (, , ),学習: = −1(, , )
  20. 23.

    WaveGlow (2/2) 23 • WaveGlow: A Flow-based Generative Network for

    Speech Synthesis (ICASSP) – 教師WaveNetを利用せずに,並列に推論可能な モデルを獲得したい – Non-causal WaveNet + Glow • 推論: = (, , ),学習: = −1(, , ) 1×1 invertible convolution • Affine coupling layer のみではチャンネル間の情報は お互いに影響されない • Glowでは1×1 convolutionでチャンネル間の情報を混合
  21. 24.

    FloWaveNet 24 • FloWaveNet: A Generative Flow for Raw Audio

    (ICML2019) – 基本的なアイデアはWaveGlowと同じ – WaveGlow: Glow (1×1 invertible convolution) – FloWaveNet: 配列の並び替え
  22. 25.

    発表内容 25 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較

    2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
  23. 26.

    スペクトログラムのモデリング 26 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase

    Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
  24. 27.

    スペクトログラムのモデリング 27 • 時間周波数領域でのモデリング課題 – 微細な構造のモデリング – 位相(or複素数)の取り扱い “The Phase

    Vocoder – Part I," URL: https://cycling74.com/tutorials/the-phase-vocoder-%E2%80%93-part-i “MelNet,” URL: https://sjvasquez.github.io/blog/melnet/
  25. 28.

    Low/multi-resolution GAN 28 • Vocoder-free text-to-speech synthesis incorporating generative adversarial

    networks using low-/multi- frequency STFT amplitude spectra (CSL2019) – 複数解像度での生成スペクトログラムの評価 • MSE + Low-res. GAN loss (+ Ori.-res. GAN loss) Φは周波数方向の ダウンサンプリング
  26. 29.

    MelNet (1/2) 29 • MelNet: A Generative Model for Audio

    in the Frequency Domain (arXiv2019) – より高精度なスペクトログラムのモデリング • 従来より冗長な時間周波数解像度 • スムージングを避けたい ⇒ 自己回帰モデルを適用 • 局所・大域的構造 ⇒ Coarse-to-fine (多段の生成) 4つのRNNでコンテキストをエンコード
  27. 31.

    GANSynth 31 • GANSynth: Adversarial Neural Audio Synthesis (ICLR2019) –

    GANによる時間周波数領域楽器音合成 – 振幅+瞬時周波数をモデリング • 位相そのものよりも構造が明確 • 時間方向に数値積分して位相を計算
  28. 32.

    複素スペクトログラムの生成モデル 32 • A Deep Generative Model of Speech Complex

    Spectrograms (ICASSP2019) – 振幅と位相の生成モデルをVAEで表現 • 共通の潜在変数利用+振幅を位相の条件付けに利用 • 対数振幅:ガウス分布,位相:von Mises 分布
  29. 33.

    発表内容 33 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • WaveNet以降の発展 • 画像分野での関連研究との比較

    2. スペクトログラムの生成モデル • より高精度なモデリングへ 3. 応用分野 • 音声強調・分離 • 声質変換
  30. 35.

    音声強調への応用 (1/2) 35 • Statistical speech enhancement based on probabilistic

    integration of variational autoencoder and non-negative matrix factorization (ICASSP2018) – 音声の生成モデル:クリーン音声から学習(VAE) – 雑音の生成モデル:NMF ⇒ クリーンな音声のみで学習可能
  31. 36.

    音声強調への応用 (2/2) 36 • VAEを用いた音声強調 – 音声の事前分布: • 分散時変な零平均の複素ガウス分布 ~

    (0, ( )) • VAEで分散をモデル化 – 雑音の事前分布: • 分散はNMFでモデル化 ~ (0, σ ℎ ) – 音声強調 • パラメータの事後分布(, , ℎ|)をMCMCで近似 • 事後確率(|, , ℎ, )が最大となるが強調結果
  32. 37.

    音源分離への応用 (1/3) 37 • Supervised Determined Source Separation with Multichannel

    Variational Autoencoder (MIT Press2019) – 複数話者の発話を複数マイクを利用し分離 – Conditional VAE • 話者ラベルで条件づけられた音声の生成モデルをcVAE のデコーダー表現 – 従来の多チャンネル信号処理+DNNのモデリング • 独立成分分析:元信号の独立性を仮定+事前分布が必要 ⇒ 事前分布のところにDNNを適用
  33. 38.

    音源分離への応用 (2/3) 38 • 独立成分分析 – 目的:混合音から元信号1 , 2 を復元

    • 混合行列 は未知 (, = , ) • 分離はその逆行列 をかけることで可能 ( が可逆) – モデル • 元音源:各音源独立(, は対角行列) , ~ (0, , ) • 混合音:分離行列を使用すると以下の通り , ~ (0, −1, −) • 分離フィルタを最尤推定
  34. 39.

    音源分離への応用 (3/3) 39 • MVAE – 分散のモデリング • 時変分散,, の部分をVAEで用いてモデリング

    ,, = ∙ diag( 2(, )) • 潜在変数, 話者ラベル, スケールパラメータを推定 とは尤度が大きくなるように誤差逆伝播法 で更新
  35. 40.

    声質変換への応用 (1/2) 40 • StarGAN-VC: Non-parallel many-to-many voice conversion using

    star generative adversarial networks (SLT2019) – Non-parallelな多対多の声質変換 • Adv. loss + Dom. loss + Cons. loss CycleGAN-VC StarGAN-VC
  36. 41.

    声質変換への応用 (2/2) 41 • Blow: a single-scale hyperconditioned flow for

    non- parallel raw-audio voice conversion (NeurIPS2019) – Flowを使った多対多の波形領域の声質変換 • Forward-backward conversion : 潜 在 空 間 を 話 者 非依存 • HyperConditioning:条件付けする埋め込みから畳み 込み層のカーネルとバイアスを計算
  37. 42.

    Crossmodal Voice Conversion 42 • Crossmodal Voice Conversion (arXiv2019) –

    クロスモーダルな生成 • 入力顔画像に合った声質に入力音声を変換 • 入力音声の声質に適合した顔画像を生成 Speech2Face(CVPR2019)は声→顔のみ
  38. 43.

    まとめ 43 • 音響信号の生成モデルとその応用 1. 波形の生成モデル • Auto regressive modelからFlowへ

    2. スペクトログラムの生成モデル • 高精度なモデリングへ(GANやAuto regressive model) 3. 応用分野 • 音声強調・分離(複素ガウス分布の分散の生成モデル) • 声質変換