Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Phase reconstruction by integrating deep learning and signal processing

Yoshiki Masuyama
December 11, 2022

Phase reconstruction by integrating deep learning and signal processing

Yoshiki Masuyama

December 11, 2022
Tweet

More Decks by Yoshiki Masuyama

Other Decks in Science

Transcript

  1. 深層学習と信号処理の統合による
    音響信号の位相復元
    東京都立大学 博士2年 升山義紀
    Japanese Academic Seminar Stanford
    2022/12/10
    1

    View Slide

  2. 略歴
     学部・修士: DNNおよび最適化による音響信号の位相復元
    ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法
     博士: 多チャネル音声強調の低遅延化・分散処理
    ◦ 東京都立大学情報科学専攻 (2021/04~): アレイ信号処理の実社会応用
     インターンシップ
    ◦ LINE (2019/04~2019/09): DNNを用いた多チャネル音声強調
    ◦ AIST (2019/08~2021/03): 多チャネル信号と画像に基づく教師なし学習
    ◦ CMU (2022/03~2022/06): DNN音声強調と音声認識の統合
    ◦ AWS (2022/10~2023/01)
    2
    には として滞在
    ※ CMU visiting scholar

    View Slide

  3. 音響信号処理における位相とは
     短時間フーリエ変換 (STFT)
    ◦ 音声波形を短い区間ごと切り出し,窓関数をかけフーリエ変換
    ◦ 音声の特徴は振幅に明瞭に表れるため振幅に関する研究が多数
     位相も音声の品質に大きく影響
    ◦ 音声のSTFT係数の位相を欠落させると自然性が大幅に低下
    振幅 位相
    振幅 位相 振幅
    3

    View Slide

  4.  音声強調: 目的音の振幅と位相を推定 [Gerkmann+2014]
     音声合成: 合成された振幅に位相を付与 [Wang+2017]
    研究背景: 位相復元の様々な応用
    目的音の振幅を推定
    iSTFT
    STFT
    目的音の位相を推定
    振幅
    合成
    文章
    位相
    復元 iSTFT 波形
    4

    View Slide

  5. 研究背景: 位相復元の難しさ
     位相復元 (振幅から位相を推定) を難しくする位相の性質
    ◦ 振幅に比べて構造が読み取りづらく,全体としては一様分布
    ◦ 位相は複素スペクトルの偏角であり,−π~πの周期変数
    ◦ 振幅は波形のシフトの影響を受けにくいが,位相はシフトに鋭敏
    5

    View Slide

  6. 従来手法: 信号処理による位相復元
     Griffin–Lim algorithm (GLA) [Griffin+1984]
    ◦ 振幅を維持する処理と,STFTの冗長性に基づく雑音除去を反復
    ◦ 信号の性質を考慮しておらず,高品質な信号の復元は困難
     STFTの振幅と位相の関係に基づいた手法 [Prusa+2017]
    ◦ 位相の偏微分を振幅から計算し,積分することで位相を推定
    ◦ 離散信号に適用する際には近似誤差が発生
    STFT係数
    6

    View Slide

  7. 従来手法: DNNによる位相復元
     GANによる複素STFT係数生成 [Oyamada+2018]
    ◦ 複素STFT係数を扱うことで周期性の問題を回避
    ◦ 推論時は生成されたSTFT係数の位相を利用
     方向統計に基づく位相推定 [Takamichi+2018]
    ◦ 周期変数の評価に適した特別なロス関数を方向統計に基づき設計
    ◦ 2πの不定性を含んだ連続値の位相を推定
    Re
    Im
    GLA Generator Discriminator
    DNN
    振幅
    7

    View Slide

  8. 従来手法のまとめ
     信号処理による位相復元
    ◦ Pros: 理論的に導出されており任意の信号に適用可能
    ◦ Cons: 得られる音声の品質が不十分
     DNNによる位相復元
    ◦ Pros: 学習データを活用して高品質な音声を生成可能
    ◦ Cons: 位相の性質により複雑な写像のモデル化が必要
    信号処理による位相復元の枠組みへDNNを組み込むことで
    • 理論的に導出された信号処理の効率性を生かしつつ
    • データドリブンな処理で高品質な音声の復元を実現
    8

    View Slide

  9. Deep Griffin–Lim iteration:
    Trainable iterative phase reconstruction
    using neural network
    IEEE J. Sel. Top. Signal Process., 2021
    Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada
    9

    View Slide

  10. STFTの冗長性に基づく従来手法
     Griffin–Lim Algorithm (GLA) [Griffin+1984]
    ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換
    ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去
    ⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ
    10

    View Slide

  11. STFTの冗長性に基づく従来手法
     Griffin–Lim Algorithm (GLA) [Griffin+1984]
    ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換
    ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去
    ⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ
    ◦ 収束するまで多くの反復が必要
    ◦ 音声の性質を考慮していないため,最終的な音声の品質が不十分
    11

    View Slide

  12. Deep Griffin–Lim Iteration (DeGLI)
     DNNによるデータドリブンな雑音除去をGLAに追加
    ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習
    12

    View Slide

  13. Deep Griffin–Lim Iteration (DeGLI)
     DNNによるデータドリブンな雑音除去をGLAに追加
    ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習
    複素STFT係数を反復的に処理するという
    GLAの枠組みを踏襲
    13

    View Slide

  14. Deep Griffin–Lim Iteration (DeGLI)
     DNNによるデータドリブンな雑音除去をGLAに追加
    ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習
    GLAの1反復に対応
    ⇒ 振幅を維持・STFTの冗長性を陽に考慮
    14

    View Slide

  15. Deep Griffin–Lim Iteration (DeGLI)
     DNNによるデータドリブンな雑音除去をGLAに追加
    ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
    ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習
    GLAの出力に含まれる雑音をDNNでさらに除去
    ⇒ 音声の性質を考慮できるため品質が向上
    15

    View Slide

  16. 客観評価実験
     反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC)
    ◦ 位相の初期化法 (実線・点線)によらずDeGLIは高品質な音声を復元
    ◦ 位相の初期値をDNNで求めても (RPU+GLA),GLAの最終的な性能に
    大きな改善なし
    ⇒ DeGLIにおいて反復の中にDNNを組み込むことが重要
    16

    View Slide

  17. 雑音除去の具体例
     GLAの出力とDNNによる雑音除去後のSTFT係数
    ◦ GLAにおけるSTFTの冗長性に基づく雑音除去では調波構造が劣化
    ◦ DNNによる雑音除去で調波構造が明瞭に
    17

    View Slide

  18. 主観評価実験
     音声の自然性に関するスコア付け
    ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響
    ◦ WaveGlow (WG) [Prenger+2019]: WaveNetと同等以上の品質・高速
    ◦ DeGLIは少ないパラメータでWGと同等の品質を実現
    パラメータ数は
    WaveGlowの
    約0.5%
    18
    ・ と ・ で復元もとの振幅の周波数解像度に差あり
    ※ GLA DeGLI WN WG

    View Slide

  19. Online Phase Reconstruction via DNN-
    based Phase Differences Estimation
    IEEE/ACM Trans. Audio Speech Lang. Process., 2022
    Y. Masuyama, K. Yatabe, K. Nagatomo, and Y. Oikawa
    19

    View Slide

  20. 連続STFTの性質に基づく従来手法
     Phase gradient heap integration (PGHI) [Prusa+2017]
    ◦ いくつかの仮定のもと,連続信号の振幅と位相に以下の関係が成立
    ⇒ 対数振幅から位相の偏微分を求めることが可能
    ◦ 実装する際には,偏微分を中央差分で近似
    ◦ 時間・周波数方向の位相の偏微分を積分していくことで位相を復元
     Online PGHI [Prusa+2016]
    ◦ 現在のフレームまでの振幅からフレームごと位相を逐次推定
    ◦ 時間方向の偏微分を中央差分ではなく後方差分で近似
    ◦ 位相の積分パスを因果的なものに制限
    20

    View Slide

  21. 連続STFTの性質に基づく従来手法
     対数振幅と位相の例
    ◦ 振幅からは調波構造が容易に視認可能
    ◦ 位相そのものから音声の構造を読み取るのは困難
    ◦ 位相の周波数差分 (FPD) と修正時間差分 (BPD) には振幅に類似した
    調波構造あり
    ⇒ 離散信号においても位相の差分を振幅から求めることは可能そう
    21

    View Slide

  22. 2-stage Phase Reconstruction with DNN
     DNNによる位相差推定 + 最小二乗法による推定結果マージ
    ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定
    ⇒ 位相そのものを推定するよりDNNの学習が容易
    ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化
    ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避
    22

    View Slide

  23. 2-stage Phase Reconstruction with DNN
     DNNによる位相差推定 + 最小二乗法による推定結果マージ
    ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定
    ⇒ 位相そのものを推定するよりDNNの学習が容易
    ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化
    ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避
    位相差の真値も2𝜋𝜋の不定性を
    持つため,周期変数のための
    ロス関数を援用
    23

    View Slide

  24. 2-stage Phase Reconstruction with DNN
     DNNによる位相差推定 + 最小二乗法による推定結果マージ
    ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定
    ⇒ 位相そのものを推定するよりDNNの学習が容易
    ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化
    ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避
    推定された位相差を複素STFT
    係数の比に変換し,隣接した
    STFT係数の比が所望の比に近
    くなるようSTFT係数を最適化
    24

    View Slide

  25.  位相差から複素STFT係数の比へ変換
    ◦ 推定された位相差には2πの不定性があり,そのまま扱うのは困難
    ⇒ 複素領域へ変換し不定性を回避,重み付き最小二乗による推定
    2-stage Phase Reconstruction with DNN
    25
    過去の複素STFT係数
    現在の複素
    STFT係数

    View Slide

  26.  音声の自然性 (PESQ) と明瞭性 (ESTOI) と誤差 (LSC)
    ◦ 提案手法は信号処理に基づくオンライン手法から大幅に性能を実現
    客観評価実験
    音声を正弦波
    の和でモデル化 GLAの
    オンライン版
    26

    View Slide

  27. まとめ
     Deep Griffin-Lim iteration
    ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入
    ◦ 音声の特徴を考慮することで復元音声の品質を大幅に改善
     DNNを利用した二段階のオンライン位相復元
    ◦ STFTの振幅と位相の関係性をモチベーションにDNNで位相差を推定
    ◦ DNNの出力に基づいた最適化問題を解くことで位相を復元
    ◦ オンラインでありながら既存のオフライン手法を上回る性能を実現
    信号処理で培われてきた枠組み・コンセプトにDNNを
    統合することで効率的・安定したシステムを実現
    27

    View Slide