Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Phase reconstruction by integrating deep learni...

Yoshiki Masuyama
December 11, 2022

Phase reconstruction by integrating deep learning and signal processing

Yoshiki Masuyama

December 11, 2022
Tweet

More Decks by Yoshiki Masuyama

Other Decks in Science

Transcript

  1. 略歴  学部・修士: DNNおよび最適化による音響信号の位相復元 ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法  博士:

    多チャネル音声強調の低遅延化・分散処理 ◦ 東京都立大学情報科学専攻 (2021/04~): アレイ信号処理の実社会応用  インターンシップ ◦ LINE (2019/04~2019/09): DNNを用いた多チャネル音声強調 ◦ AIST (2019/08~2021/03): 多チャネル信号と画像に基づく教師なし学習 ◦ CMU (2022/03~2022/06): DNN音声強調と音声認識の統合 ◦ AWS (2022/10~2023/01) 2 には として滞在 ※ CMU visiting scholar
  2. 従来手法: 信号処理による位相復元  Griffin–Lim algorithm (GLA) [Griffin+1984] ◦ 振幅を維持する処理と,STFTの冗長性に基づく雑音除去を反復 ◦

    信号の性質を考慮しておらず,高品質な信号の復元は困難  STFTの振幅と位相の関係に基づいた手法 [Prusa+2017] ◦ 位相の偏微分を振幅から計算し,積分することで位相を推定 ◦ 離散信号に適用する際には近似誤差が発生 STFT係数 6
  3. 従来手法: DNNによる位相復元  GANによる複素STFT係数生成 [Oyamada+2018] ◦ 複素STFT係数を扱うことで周期性の問題を回避 ◦ 推論時は生成されたSTFT係数の位相を利用 

    方向統計に基づく位相推定 [Takamichi+2018] ◦ 周期変数の評価に適した特別なロス関数を方向統計に基づき設計 ◦ 2πの不定性を含んだ連続値の位相を推定 Re Im GLA Generator Discriminator DNN 振幅 7
  4. 従来手法のまとめ  信号処理による位相復元 ◦ Pros: 理論的に導出されており任意の信号に適用可能 ◦ Cons: 得られる音声の品質が不十分 

    DNNによる位相復元 ◦ Pros: 学習データを活用して高品質な音声を生成可能 ◦ Cons: 位相の性質により複雑な写像のモデル化が必要 信号処理による位相復元の枠組みへDNNを組み込むことで • 理論的に導出された信号処理の効率性を生かしつつ • データドリブンな処理で高品質な音声の復元を実現 8
  5. Deep Griffin–Lim iteration: Trainable iterative phase reconstruction using neural network

    IEEE J. Sel. Top. Signal Process., 2021 Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada 9
  6. STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去

    ⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ ◦ 収束するまで多くの反復が必要 ◦ 音声の性質を考慮していないため,最終的な音声の品質が不十分 11
  7. Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 複素STFT係数を反復的に処理するという GLAの枠組みを踏襲 13
  8. Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの1反復に対応 ⇒ 振幅を維持・STFTの冗長性を陽に考慮 14
  9. Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの出力に含まれる雑音をDNNでさらに除去 ⇒ 音声の性質を考慮できるため品質が向上 15
  10. 客観評価実験  反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC) ◦ 位相の初期化法

    (実線・点線)によらずDeGLIは高品質な音声を復元 ◦ 位相の初期値をDNNで求めても (RPU+GLA),GLAの最終的な性能に 大きな改善なし ⇒ DeGLIにおいて反復の中にDNNを組み込むことが重要 16
  11. 主観評価実験  音声の自然性に関するスコア付け ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響 ◦

    WaveGlow (WG) [Prenger+2019]: WaveNetと同等以上の品質・高速 ◦ DeGLIは少ないパラメータでWGと同等の品質を実現 パラメータ数は WaveGlowの 約0.5% 18 ・ と ・ で復元もとの振幅の周波数解像度に差あり ※ GLA DeGLI WN WG
  12. Online Phase Reconstruction via DNN- based Phase Differences Estimation IEEE/ACM

    Trans. Audio Speech Lang. Process., 2022 Y. Masuyama, K. Yatabe, K. Nagatomo, and Y. Oikawa 19
  13. 連続STFTの性質に基づく従来手法  Phase gradient heap integration (PGHI) [Prusa+2017] ◦ いくつかの仮定のもと,連続信号の振幅と位相に以下の関係が成立

    ⇒ 対数振幅から位相の偏微分を求めることが可能 ◦ 実装する際には,偏微分を中央差分で近似 ◦ 時間・周波数方向の位相の偏微分を積分していくことで位相を復元  Online PGHI [Prusa+2016] ◦ 現在のフレームまでの振幅からフレームごと位相を逐次推定 ◦ 時間方向の偏微分を中央差分ではなく後方差分で近似 ◦ 位相の積分パスを因果的なものに制限 20
  14. 連続STFTの性質に基づく従来手法  対数振幅と位相の例 ◦ 振幅からは調波構造が容易に視認可能 ◦ 位相そのものから音声の構造を読み取るのは困難 ◦ 位相の周波数差分 (FPD)

    と修正時間差分 (BPD) には振幅に類似した 調波構造あり ⇒ 離散信号においても位相の差分を振幅から求めることは可能そう 21
  15. 2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

    シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 22
  16. 2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

    シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 位相差の真値も2𝜋𝜋の不定性を 持つため,周期変数のための ロス関数を援用 23
  17. 2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

    シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 推定された位相差を複素STFT 係数の比に変換し,隣接した STFT係数の比が所望の比に近 くなるようSTFT係数を最適化 24
  18. まとめ  Deep Griffin-Lim iteration ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入 ◦

    音声の特徴を考慮することで復元音声の品質を大幅に改善  DNNを利用した二段階のオンライン位相復元 ◦ STFTの振幅と位相の関係性をモチベーションにDNNで位相差を推定 ◦ DNNの出力に基づいた最適化問題を解くことで位相を復元 ◦ オンラインでありながら既存のオフライン手法を上回る性能を実現 信号処理で培われてきた枠組み・コンセプトにDNNを 統合することで効率的・安定したシステムを実現 27