Slide 1

Slide 1 text

深層学習と信号処理の統合による 音響信号の位相復元 東京都立大学 博士2年 升山義紀 Japanese Academic Seminar Stanford 2022/12/10 1

Slide 2

Slide 2 text

略歴  学部・修士: DNNおよび最適化による音響信号の位相復元 ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法  博士: 多チャネル音声強調の低遅延化・分散処理 ◦ 東京都立大学情報科学専攻 (2021/04~): アレイ信号処理の実社会応用  インターンシップ ◦ LINE (2019/04~2019/09): DNNを用いた多チャネル音声強調 ◦ AIST (2019/08~2021/03): 多チャネル信号と画像に基づく教師なし学習 ◦ CMU (2022/03~2022/06): DNN音声強調と音声認識の統合 ◦ AWS (2022/10~2023/01) 2 には として滞在 ※ CMU visiting scholar

Slide 3

Slide 3 text

音響信号処理における位相とは  短時間フーリエ変換 (STFT) ◦ 音声波形を短い区間ごと切り出し,窓関数をかけフーリエ変換 ◦ 音声の特徴は振幅に明瞭に表れるため振幅に関する研究が多数  位相も音声の品質に大きく影響 ◦ 音声のSTFT係数の位相を欠落させると自然性が大幅に低下 振幅 位相 振幅 位相 振幅 3

Slide 4

Slide 4 text

 音声強調: 目的音の振幅と位相を推定 [Gerkmann+2014]  音声合成: 合成された振幅に位相を付与 [Wang+2017] 研究背景: 位相復元の様々な応用 目的音の振幅を推定 iSTFT STFT 目的音の位相を推定 振幅 合成 文章 位相 復元 iSTFT 波形 4

Slide 5

Slide 5 text

研究背景: 位相復元の難しさ  位相復元 (振幅から位相を推定) を難しくする位相の性質 ◦ 振幅に比べて構造が読み取りづらく,全体としては一様分布 ◦ 位相は複素スペクトルの偏角であり,−π~πの周期変数 ◦ 振幅は波形のシフトの影響を受けにくいが,位相はシフトに鋭敏 5

Slide 6

Slide 6 text

従来手法: 信号処理による位相復元  Griffin–Lim algorithm (GLA) [Griffin+1984] ◦ 振幅を維持する処理と,STFTの冗長性に基づく雑音除去を反復 ◦ 信号の性質を考慮しておらず,高品質な信号の復元は困難  STFTの振幅と位相の関係に基づいた手法 [Prusa+2017] ◦ 位相の偏微分を振幅から計算し,積分することで位相を推定 ◦ 離散信号に適用する際には近似誤差が発生 STFT係数 6

Slide 7

Slide 7 text

従来手法: DNNによる位相復元  GANによる複素STFT係数生成 [Oyamada+2018] ◦ 複素STFT係数を扱うことで周期性の問題を回避 ◦ 推論時は生成されたSTFT係数の位相を利用  方向統計に基づく位相推定 [Takamichi+2018] ◦ 周期変数の評価に適した特別なロス関数を方向統計に基づき設計 ◦ 2πの不定性を含んだ連続値の位相を推定 Re Im GLA Generator Discriminator DNN 振幅 7

Slide 8

Slide 8 text

従来手法のまとめ  信号処理による位相復元 ◦ Pros: 理論的に導出されており任意の信号に適用可能 ◦ Cons: 得られる音声の品質が不十分  DNNによる位相復元 ◦ Pros: 学習データを活用して高品質な音声を生成可能 ◦ Cons: 位相の性質により複雑な写像のモデル化が必要 信号処理による位相復元の枠組みへDNNを組み込むことで • 理論的に導出された信号処理の効率性を生かしつつ • データドリブンな処理で高品質な音声の復元を実現 8

Slide 9

Slide 9 text

Deep Griffin–Lim iteration: Trainable iterative phase reconstruction using neural network IEEE J. Sel. Top. Signal Process., 2021 Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada 9

Slide 10

Slide 10 text

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去 ⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ 10

Slide 11

Slide 11 text

STFTの冗長性に基づく従来手法  Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去 ⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ ◦ 収束するまで多くの反復が必要 ◦ 音声の性質を考慮していないため,最終的な音声の品質が不十分 11

Slide 12

Slide 12 text

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復 ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 12

Slide 13

Slide 13 text

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復 ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 複素STFT係数を反復的に処理するという GLAの枠組みを踏襲 13

Slide 14

Slide 14 text

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復 ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの1反復に対応 ⇒ 振幅を維持・STFTの冗長性を陽に考慮 14

Slide 15

Slide 15 text

Deep Griffin–Lim Iteration (DeGLI)  DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復 ◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの出力に含まれる雑音をDNNでさらに除去 ⇒ 音声の性質を考慮できるため品質が向上 15

Slide 16

Slide 16 text

客観評価実験  反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC) ◦ 位相の初期化法 (実線・点線)によらずDeGLIは高品質な音声を復元 ◦ 位相の初期値をDNNで求めても (RPU+GLA),GLAの最終的な性能に 大きな改善なし ⇒ DeGLIにおいて反復の中にDNNを組み込むことが重要 16

Slide 17

Slide 17 text

雑音除去の具体例  GLAの出力とDNNによる雑音除去後のSTFT係数 ◦ GLAにおけるSTFTの冗長性に基づく雑音除去では調波構造が劣化 ◦ DNNによる雑音除去で調波構造が明瞭に 17

Slide 18

Slide 18 text

主観評価実験  音声の自然性に関するスコア付け ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響 ◦ WaveGlow (WG) [Prenger+2019]: WaveNetと同等以上の品質・高速 ◦ DeGLIは少ないパラメータでWGと同等の品質を実現 パラメータ数は WaveGlowの 約0.5% 18 ・ と ・ で復元もとの振幅の周波数解像度に差あり ※ GLA DeGLI WN WG

Slide 19

Slide 19 text

Online Phase Reconstruction via DNN- based Phase Differences Estimation IEEE/ACM Trans. Audio Speech Lang. Process., 2022 Y. Masuyama, K. Yatabe, K. Nagatomo, and Y. Oikawa 19

Slide 20

Slide 20 text

連続STFTの性質に基づく従来手法  Phase gradient heap integration (PGHI) [Prusa+2017] ◦ いくつかの仮定のもと,連続信号の振幅と位相に以下の関係が成立 ⇒ 対数振幅から位相の偏微分を求めることが可能 ◦ 実装する際には,偏微分を中央差分で近似 ◦ 時間・周波数方向の位相の偏微分を積分していくことで位相を復元  Online PGHI [Prusa+2016] ◦ 現在のフレームまでの振幅からフレームごと位相を逐次推定 ◦ 時間方向の偏微分を中央差分ではなく後方差分で近似 ◦ 位相の積分パスを因果的なものに制限 20

Slide 21

Slide 21 text

連続STFTの性質に基づく従来手法  対数振幅と位相の例 ◦ 振幅からは調波構造が容易に視認可能 ◦ 位相そのものから音声の構造を読み取るのは困難 ◦ 位相の周波数差分 (FPD) と修正時間差分 (BPD) には振幅に類似した 調波構造あり ⇒ 離散信号においても位相の差分を振幅から求めることは可能そう 21

Slide 22

Slide 22 text

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 22

Slide 23

Slide 23 text

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 位相差の真値も2𝜋𝜋の不定性を 持つため,周期変数のための ロス関数を援用 23

Slide 24

Slide 24 text

2-stage Phase Reconstruction with DNN  DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦ シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 推定された位相差を複素STFT 係数の比に変換し,隣接した STFT係数の比が所望の比に近 くなるようSTFT係数を最適化 24

Slide 25

Slide 25 text

 位相差から複素STFT係数の比へ変換 ◦ 推定された位相差には2πの不定性があり,そのまま扱うのは困難 ⇒ 複素領域へ変換し不定性を回避,重み付き最小二乗による推定 2-stage Phase Reconstruction with DNN 25 過去の複素STFT係数 現在の複素 STFT係数

Slide 26

Slide 26 text

 音声の自然性 (PESQ) と明瞭性 (ESTOI) と誤差 (LSC) ◦ 提案手法は信号処理に基づくオンライン手法から大幅に性能を実現 客観評価実験 音声を正弦波 の和でモデル化 GLAの オンライン版 26

Slide 27

Slide 27 text

まとめ  Deep Griffin-Lim iteration ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入 ◦ 音声の特徴を考慮することで復元音声の品質を大幅に改善  DNNを利用した二段階のオンライン位相復元 ◦ STFTの振幅と位相の関係性をモチベーションにDNNで位相差を推定 ◦ DNNの出力に基づいた最適化問題を解くことで位相を復元 ◦ オンラインでありながら既存のオフライン手法を上回る性能を実現 信号処理で培われてきた枠組み・コンセプトにDNNを 統合することで効率的・安定したシステムを実現 27