Phase reconstruction by integrating deep learning and signal processing

深層学習と信号処理の統合による音響信号の位相復元東京都立大学博士2年升山義紀 Japanese Academic Seminar Stanford 2022/12/10
1

略歴  学部・修士: DNNおよび最適化による音響信号の位相復元 ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法  博士:
多チャネル音声強調の低遅延化・分散処理 ◦ 東京都立大学情報科学専攻 (2021/04~): アレイ信号処理の実社会応用  インターンシップ ◦ LINE (2019/04~2019/09): DNNを用いた多チャネル音声強調 ◦ AIST (2019/08~2021/03): 多チャネル信号と画像に基づく教師なし学習 ◦ CMU (2022/03~2022/06): DNN音声強調と音声認識の統合 ◦ AWS (2022/10~2023/01) 2 にはとして滞在 ※ CMU visiting scholar

音響信号処理における位相とは  短時間フーリエ変換 (STFT) ◦ 音声波形を短い区間ごと切り出し，窓関数をかけフーリエ変換 ◦ 音声の特徴は振幅に明瞭に表れるため振幅に関する研究が多数  位相も音声の品質に大きく影響
◦ 音声のSTFT係数の位相を欠落させると自然性が大幅に低下振幅位相振幅位相振幅 3

 音声強調: 目的音の振幅と位相を推定 [Gerkmann+2014]  音声合成: 合成された振幅に位相を付与 [Wang+2017] 研究背景: 位相復元の様々な応用
目的音の振幅を推定 iSTFT STFT 目的音の位相を推定振幅合成文章位相復元 iSTFT 波形 4

研究背景: 位相復元の難しさ  位相復元 (振幅から位相を推定) を難しくする位相の性質 ◦ 振幅に比べて構造が読み取りづらく，全体としては一様分布 ◦ 位相は複素スペクトルの偏角であり，−π~πの周期変数
◦ 振幅は波形のシフトの影響を受けにくいが，位相はシフトに鋭敏 5

従来手法: 信号処理による位相復元  Griffin–Lim algorithm (GLA) [Griffin+1984] ◦ 振幅を維持する処理と，STFTの冗長性に基づく雑音除去を反復 ◦
信号の性質を考慮しておらず，高品質な信号の復元は困難  STFTの振幅と位相の関係に基づいた手法 [Prusa+2017] ◦ 位相の偏微分を振幅から計算し，積分することで位相を推定 ◦ 離散信号に適用する際には近似誤差が発生 STFT係数 6

従来手法: DNNによる位相復元  GANによる複素STFT係数生成 [Oyamada+2018] ◦ 複素STFT係数を扱うことで周期性の問題を回避 ◦ 推論時は生成されたSTFT係数の位相を利用 
方向統計に基づく位相推定 [Takamichi+2018] ◦ 周期変数の評価に適した特別なロス関数を方向統計に基づき設計 ◦ 2πの不定性を含んだ連続値の位相を推定 Re Im GLA Generator Discriminator DNN 振幅 7

従来手法のまとめ  信号処理による位相復元 ◦ Pros: 理論的に導出されており任意の信号に適用可能 ◦ Cons: 得られる音声の品質が不十分 
DNNによる位相復元 ◦ Pros: 学習データを活用して高品質な音声を生成可能 ◦ Cons: 位相の性質により複雑な写像のモデル化が必要信号処理による位相復元の枠組みへDNNを組み込むことで • 理論的に導出された信号処理の効率性を生かしつつ • データドリブンな処理で高品質な音声の復元を実現 8

Deep Griffin–Lim iteration: Trainable iterative phase reconstruction using neural network
IEEE J. Sel. Top. Signal Process., 2021 Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada 9

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき，複素STFT係数から雑音を除去
⇒ 交互に繰り替えすことで，所望の振幅を持つ複素STFT係数へ 10

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき，複素STFT係数から雑音を除去
⇒ 交互に繰り替えすことで，所望の振幅を持つ複素STFT係数へ ◦ 収束するまで多くの反復が必要 ◦ 音声の性質を考慮していないため，最終的な音声の品質が不十分 11

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 12

◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習複素STFT係数を反復的に処理するという GLAの枠組みを踏襲 13

◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの1反復に対応 ⇒ 振幅を維持・STFTの冗長性を陽に考慮 14

◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの出力に含まれる雑音をDNNでさらに除去 ⇒ 音声の性質を考慮できるため品質が向上 15

客観評価実験  反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC) ◦ 位相の初期化法
(実線・点線)によらずDeGLIは高品質な音声を復元 ◦ 位相の初期値をDNNで求めても (RPU+GLA)，GLAの最終的な性能に大きな改善なし ⇒ DeGLIにおいて反復の中にDNNを組み込むことが重要 16

雑音除去の具体例  GLAの出力とDNNによる雑音除去後のSTFT係数 ◦ GLAにおけるSTFTの冗長性に基づく雑音除去では調波構造が劣化 ◦ DNNによる雑音除去で調波構造が明瞭に 17

主観評価実験  音声の自然性に関するスコア付け ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響 ◦
WaveGlow (WG) [Prenger+2019]: WaveNetと同等以上の品質・高速 ◦ DeGLIは少ないパラメータでWGと同等の品質を実現パラメータ数は WaveGlowの約0.5% 18 ・と・で復元もとの振幅の周波数解像度に差あり ※ GLA DeGLI WN WG

Online Phase Reconstruction via DNN- based Phase Differences Estimation IEEE/ACM
Trans. Audio Speech Lang. Process., 2022 Y. Masuyama, K. Yatabe, K. Nagatomo, and Y. Oikawa 19

連続STFTの性質に基づく従来手法  Phase gradient heap integration (PGHI) [Prusa+2017] ◦ いくつかの仮定のもと，連続信号の振幅と位相に以下の関係が成立
⇒ 対数振幅から位相の偏微分を求めることが可能 ◦ 実装する際には，偏微分を中央差分で近似 ◦ 時間・周波数方向の位相の偏微分を積分していくことで位相を復元  Online PGHI [Prusa+2016] ◦ 現在のフレームまでの振幅からフレームごと位相を逐次推定 ◦ 時間方向の偏微分を中央差分ではなく後方差分で近似 ◦ 位相の積分パスを因果的なものに制限 20

連続STFTの性質に基づく従来手法  対数振幅と位相の例 ◦ 振幅からは調波構造が容易に視認可能 ◦ 位相そのものから音声の構造を読み取るのは困難 ◦ 位相の周波数差分 (FPD)
と修正時間差分 (BPD) には振幅に類似した調波構造あり ⇒ 離散信号においても位相の差分を振幅から求めることは可能そう 21

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦
シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え，不連続性の問題を回避 22

シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え，不連続性の問題を回避位相差の真値も2𝜋𝜋の不定性を持つため，周期変数のためのロス関数を援用 23

シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え，不連続性の問題を回避推定された位相差を複素STFT 係数の比に変換し，隣接した STFT係数の比が所望の比に近くなるようSTFT係数を最適化 24

 位相差から複素STFT係数の比へ変換 ◦ 推定された位相差には2πの不定性があり，そのまま扱うのは困難 ⇒ 複素領域へ変換し不定性を回避，重み付き最小二乗による推定 2-stage Phase Reconstruction with
DNN 25 過去の複素STFT係数現在の複素 STFT係数

 音声の自然性 (PESQ) と明瞭性 (ESTOI) と誤差 (LSC) ◦ 提案手法は信号処理に基づくオンライン手法から大幅に性能を実現客観評価実験
音声を正弦波の和でモデル化 GLAのオンライン版 26

まとめ  Deep Griffin-Lim iteration ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入 ◦
音声の特徴を考慮することで復元音声の品質を大幅に改善  DNNを利用した二段階のオンライン位相復元 ◦ STFTの振幅と位相の関係性をモチベーションにDNNで位相差を推定 ◦ DNNの出力に基づいた最適化問題を解くことで位相を復元 ◦ オンラインでありながら既存のオフライン手法を上回る性能を実現信号処理で培われてきた枠組み・コンセプトにDNNを統合することで効率的・安定したシステムを実現 27

Phase reconstruction by integrating deep learni...

Phase reconstruction by integrating deep learning and signal processing

Yoshiki Masuyama

More Decks by Yoshiki Masuyama

Other Decks in Science

Featured

Transcript

深層学習と信号処理の統合による音響信号の位相復元東京都立大学博士2年升山義紀 Japanese Academic Seminar Stanford 2022/12/10

略歴  学部・修士: DNNおよび最適化による音響信号の位相復元 ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法  博士:

 音声強調: 目的音の振幅と位相を推定 [Gerkmann+2014]  音声合成: 合成された振幅に位相を付与 [Wang+2017] 研究背景: 位相復元の様々な応用

研究背景: 位相復元の難しさ  位相復元 (振幅から位相を推定) を難しくする位相の性質 ◦ 振幅に比べて構造が読み取りづらく，全体としては一様分布 ◦ 位相は複素スペクトルの偏角であり，−π~πの周期変数

従来手法: 信号処理による位相復元  Griffin–Lim algorithm (GLA) [Griffin+1984] ◦ 振幅を維持する処理と，STFTの冗長性に基づく雑音除去を反復 ◦

従来手法: DNNによる位相復元  GANによる複素STFT係数生成 [Oyamada+2018] ◦ 複素STFT係数を扱うことで周期性の問題を回避 ◦ 推論時は生成されたSTFT係数の位相を利用 

従来手法のまとめ  信号処理による位相復元 ◦ Pros: 理論的に導出されており任意の信号に適用可能 ◦ Cons: 得られる音声の品質が不十分 

Deep Griffin–Lim iteration: Trainable iterative phase reconstruction using neural network

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき，複素STFT係数から雑音を除去

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき，複素STFT係数から雑音を除去

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復

客観評価実験  反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC) ◦ 位相の初期化法

雑音除去の具体例  GLAの出力とDNNによる雑音除去後のSTFT係数 ◦ GLAにおけるSTFTの冗長性に基づく雑音除去では調波構造が劣化 ◦ DNNによる雑音除去で調波構造が明瞭に 17

主観評価実験  音声の自然性に関するスコア付け ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響 ◦

Online Phase Reconstruction via DNN- based Phase Differences Estimation IEEE/ACM

連続STFTの性質に基づく従来手法  Phase gradient heap integration (PGHI) [Prusa+2017] ◦ いくつかの仮定のもと，連続信号の振幅と位相に以下の関係が成立

連続STFTの性質に基づく従来手法  対数振幅と位相の例 ◦ 振幅からは調波構造が容易に視認可能 ◦ 位相そのものから音声の構造を読み取るのは困難 ◦ 位相の周波数差分 (FPD)

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦

 位相差から複素STFT係数の比へ変換 ◦ 推定された位相差には2πの不定性があり，そのまま扱うのは困難 ⇒ 複素領域へ変換し不定性を回避，重み付き最小二乗による推定 2-stage Phase Reconstruction with

 音声の自然性 (PESQ) と明瞭性 (ESTOI) と誤差 (LSC) ◦ 提案手法は信号処理に基づくオンライン手法から大幅に性能を実現客観評価実験

まとめ  Deep Griffin-Lim iteration ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入 ◦