Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Phase reconstruction by integrating deep learni...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yoshiki Masuyama
December 11, 2022
Science
3.6k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Phase reconstruction by integrating deep learning and signal processing
Yoshiki Masuyama
December 11, 2022
More Decks by Yoshiki Masuyama
See All by Yoshiki Masuyama
Audio-Visual Learning in NeurIPS2020
ymas0315
0
730
Trends in Deep Generative model and Self-supervised Learning at NeurIPS2019
ymas0315
3
2.6k
Generative Models for Audio Signal Modeling
ymas0315
0
730
Other Decks in Science
See All in Science
KISHIMOTO Atsuo
genomethica
0
150
20260220 OpenIDファウンデーション・ジャパン ご紹介 / 20260220 OpenID Foundation Japan Intro
oidfj
0
360
あなたに水耕栽培を愛していないとは言わせない
mutsumix
1
340
チュートリアル:世界モデル
hf149
0
1.7k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
930
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
230
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.6k
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
180
力学系から見た現代的な機械学習
hanbao
4
4.2k
データベース02: データベースの概念
trycycle
PRO
2
1.2k
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.5k
[NLP2026 参加報告会] AI for Science まとめ / NLP2026
lychee1223
0
1.9k
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Docker and Python
trallard
47
3.9k
Test your architecture with Archunit
thirion
1
2.3k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Statistics for Hackers
jakevdp
799
230k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
HDC tutorial
michielstock
2
700
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Designing Powerful Visuals for Engaging Learning
tmiket
1
410
Transcript
深層学習と信号処理の統合による 音響信号の位相復元 東京都立大学 博士2年 升山義紀 Japanese Academic Seminar Stanford 2022/12/10
1
略歴 学部・修士: DNNおよび最適化による音響信号の位相復元 ◦ 早稲田大学表現工学専攻 (~2021/03): DNN+最適化による手法 博士:
多チャネル音声強調の低遅延化・分散処理 ◦ 東京都立大学情報科学専攻 (2021/04~): アレイ信号処理の実社会応用 インターンシップ ◦ LINE (2019/04~2019/09): DNNを用いた多チャネル音声強調 ◦ AIST (2019/08~2021/03): 多チャネル信号と画像に基づく教師なし学習 ◦ CMU (2022/03~2022/06): DNN音声強調と音声認識の統合 ◦ AWS (2022/10~2023/01) 2 には として滞在 ※ CMU visiting scholar
音響信号処理における位相とは 短時間フーリエ変換 (STFT) ◦ 音声波形を短い区間ごと切り出し,窓関数をかけフーリエ変換 ◦ 音声の特徴は振幅に明瞭に表れるため振幅に関する研究が多数 位相も音声の品質に大きく影響
◦ 音声のSTFT係数の位相を欠落させると自然性が大幅に低下 振幅 位相 振幅 位相 振幅 3
音声強調: 目的音の振幅と位相を推定 [Gerkmann+2014] 音声合成: 合成された振幅に位相を付与 [Wang+2017] 研究背景: 位相復元の様々な応用
目的音の振幅を推定 iSTFT STFT 目的音の位相を推定 振幅 合成 文章 位相 復元 iSTFT 波形 4
研究背景: 位相復元の難しさ 位相復元 (振幅から位相を推定) を難しくする位相の性質 ◦ 振幅に比べて構造が読み取りづらく,全体としては一様分布 ◦ 位相は複素スペクトルの偏角であり,−π~πの周期変数
◦ 振幅は波形のシフトの影響を受けにくいが,位相はシフトに鋭敏 5
従来手法: 信号処理による位相復元 Griffin–Lim algorithm (GLA) [Griffin+1984] ◦ 振幅を維持する処理と,STFTの冗長性に基づく雑音除去を反復 ◦
信号の性質を考慮しておらず,高品質な信号の復元は困難 STFTの振幅と位相の関係に基づいた手法 [Prusa+2017] ◦ 位相の偏微分を振幅から計算し,積分することで位相を推定 ◦ 離散信号に適用する際には近似誤差が発生 STFT係数 6
従来手法: DNNによる位相復元 GANによる複素STFT係数生成 [Oyamada+2018] ◦ 複素STFT係数を扱うことで周期性の問題を回避 ◦ 推論時は生成されたSTFT係数の位相を利用
方向統計に基づく位相推定 [Takamichi+2018] ◦ 周期変数の評価に適した特別なロス関数を方向統計に基づき設計 ◦ 2πの不定性を含んだ連続値の位相を推定 Re Im GLA Generator Discriminator DNN 振幅 7
従来手法のまとめ 信号処理による位相復元 ◦ Pros: 理論的に導出されており任意の信号に適用可能 ◦ Cons: 得られる音声の品質が不十分
DNNによる位相復元 ◦ Pros: 学習データを活用して高品質な音声を生成可能 ◦ Cons: 位相の性質により複雑な写像のモデル化が必要 信号処理による位相復元の枠組みへDNNを組み込むことで • 理論的に導出された信号処理の効率性を生かしつつ • データドリブンな処理で高品質な音声の復元を実現 8
Deep Griffin–Lim iteration: Trainable iterative phase reconstruction using neural network
IEEE J. Sel. Top. Signal Process., 2021 Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada 9
STFTの冗長性に基づく従来手法 Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去
⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ 10
STFTの冗長性に基づく従来手法 Griffin–Lim Algorithm (GLA) [Griffin+1984] ◦ 与えられた振幅を保つように複素STFT係数の振幅のみを変換 ◦ STFTの冗長性に基づき,複素STFT係数から雑音を除去
⇒ 交互に繰り替えすことで,所望の振幅を持つ複素STFT係数へ ◦ 収束するまで多くの反復が必要 ◦ 音声の性質を考慮していないため,最終的な音声の品質が不十分 11
Deep Griffin–Lim Iteration (DeGLI) DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 12
Deep Griffin–Lim Iteration (DeGLI) DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 複素STFT係数を反復的に処理するという GLAの枠組みを踏襲 13
Deep Griffin–Lim Iteration (DeGLI) DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの1反復に対応 ⇒ 振幅を維持・STFTの冗長性を陽に考慮 14
Deep Griffin–Lim Iteration (DeGLI) DNNによるデータドリブンな雑音除去をGLAに追加 ◦ GLAの2つの処理 + DNNを1つのブロックとして反復
◦ GLAの出力に含まれる雑音を推定し取り除くようにDNNを学習 GLAの出力に含まれる雑音をDNNでさらに除去 ⇒ 音声の性質を考慮できるため品質が向上 15
客観評価実験 反復回数毎の自然性 (PESQ) と明瞭性 (STOI) と誤差 (LSC) ◦ 位相の初期化法
(実線・点線)によらずDeGLIは高品質な音声を復元 ◦ 位相の初期値をDNNで求めても (RPU+GLA),GLAの最終的な性能に 大きな改善なし ⇒ DeGLIにおいて反復の中にDNNを組み込むことが重要 16
雑音除去の具体例 GLAの出力とDNNによる雑音除去後のSTFT係数 ◦ GLAにおけるSTFTの冗長性に基づく雑音除去では調波構造が劣化 ◦ DNNによる雑音除去で調波構造が明瞭に 17
主観評価実験 音声の自然性に関するスコア付け ◦ WaveNet vocoder (WN) [Oord+2016]: 音声合成分野に大きな影響 ◦
WaveGlow (WG) [Prenger+2019]: WaveNetと同等以上の品質・高速 ◦ DeGLIは少ないパラメータでWGと同等の品質を実現 パラメータ数は WaveGlowの 約0.5% 18 ・ と ・ で復元もとの振幅の周波数解像度に差あり ※ GLA DeGLI WN WG
Online Phase Reconstruction via DNN- based Phase Differences Estimation IEEE/ACM
Trans. Audio Speech Lang. Process., 2022 Y. Masuyama, K. Yatabe, K. Nagatomo, and Y. Oikawa 19
連続STFTの性質に基づく従来手法 Phase gradient heap integration (PGHI) [Prusa+2017] ◦ いくつかの仮定のもと,連続信号の振幅と位相に以下の関係が成立
⇒ 対数振幅から位相の偏微分を求めることが可能 ◦ 実装する際には,偏微分を中央差分で近似 ◦ 時間・周波数方向の位相の偏微分を積分していくことで位相を復元 Online PGHI [Prusa+2016] ◦ 現在のフレームまでの振幅からフレームごと位相を逐次推定 ◦ 時間方向の偏微分を中央差分ではなく後方差分で近似 ◦ 位相の積分パスを因果的なものに制限 20
連続STFTの性質に基づく従来手法 対数振幅と位相の例 ◦ 振幅からは調波構造が容易に視認可能 ◦ 位相そのものから音声の構造を読み取るのは困難 ◦ 位相の周波数差分 (FPD)
と修正時間差分 (BPD) には振幅に類似した 調波構造あり ⇒ 離散信号においても位相の差分を振幅から求めることは可能そう 21
2-stage Phase Reconstruction with DNN DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦
シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 22
2-stage Phase Reconstruction with DNN DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦
シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 位相差の真値も2𝜋𝜋の不定性を 持つため,周期変数のための ロス関数を援用 23
2-stage Phase Reconstruction with DNN DNNによる位相差推定 + 最小二乗法による推定結果マージ ◦
シフトにロバストで調波構造を持つFPDとBPDをDNNで推定 ⇒ 位相そのものを推定するよりDNNの学習が容易 ◦ 位相差からフレーム毎に複素STFT係数の最小二乗問題を定式化 ⇒ 位相そのものではなくSTFT係数を考え,不連続性の問題を回避 推定された位相差を複素STFT 係数の比に変換し,隣接した STFT係数の比が所望の比に近 くなるようSTFT係数を最適化 24
位相差から複素STFT係数の比へ変換 ◦ 推定された位相差には2πの不定性があり,そのまま扱うのは困難 ⇒ 複素領域へ変換し不定性を回避,重み付き最小二乗による推定 2-stage Phase Reconstruction with
DNN 25 過去の複素STFT係数 現在の複素 STFT係数
音声の自然性 (PESQ) と明瞭性 (ESTOI) と誤差 (LSC) ◦ 提案手法は信号処理に基づくオンライン手法から大幅に性能を実現 客観評価実験
音声を正弦波 の和でモデル化 GLAの オンライン版 26
まとめ Deep Griffin-Lim iteration ◦ STFTの冗長性に基づく位相復元 (GLA) に雑音除去DNNを導入 ◦
音声の特徴を考慮することで復元音声の品質を大幅に改善 DNNを利用した二段階のオンライン位相復元 ◦ STFTの振幅と位相の関係性をモチベーションにDNNで位相差を推定 ◦ DNNの出力に基づいた最適化問題を解くことで位相を復元 ◦ オンラインでありながら既存のオフライン手法を上回る性能を実現 信号処理で培われてきた枠組み・コンセプトにDNNを 統合することで効率的・安定したシステムを実現 27