Interspeech2020 Reading Workshop

Interspeech2020 Reading Workshop

以下のInterspeech 2020の論文の解説資料です.
Title: Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-channel Speech Recognition in the CHiME-6 Challenge
Authors: Yan-Hui Tu, Jun Du, Lei Sun, Feng Ma, Jia Pan, Chin-Hui Lee
URL: https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf

#interspeech2020jp https://connpass.com/event/190999/

32bc2790201d9301bbe5be830b03ff04?s=128

Yoshiaki Bando

November 20, 2020
Tweet

Transcript

  1. A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-channel Speech Recognition

    in the CHiME-6 Challenge 坂東 宜昭 産業技術総合研究所 人工知能研究センター 研究員 理化学研究所 革新知能統合研究センター 客員研究員 https://ybando.jp/ Yan-Hui Tu, Jun Du, Lei Sun, Feng Ma, Jia Pan, Chin-Hui Lee Interspeech2020 音声読み会
  2. 自己紹介|少ない教師データから聴覚的知能の獲得 深層学習に「統計的信号処理の知見を導入」し,効率的に学習・推論 視聴覚統合による教師なし音源定位 アレイ信号処理の確率モデルで学習 音と画像の対応関係を教師なしで学習 深層生成モデルに基づく音声強調 深層モデルと古典的統計モデルの融合 未知環境での頑健な音声強調を実現 推論 DNN

    確率 モデル 低ランク 雑音モデル 深層生成 音声モデル 観測信号 事前学習で 高品質 推論時学習で ロバスト [Bando+ IEEE ICASSP2018, Bando+ INTERSPEECH 2020] [Masuyama+ IEEE/RSJ IROS 2020, Bando+ IEEE MLSP 2019] Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 2
  3. 本日の目標・読む論文 本日の目標|CHiME-6最強システムで使用された技術を概観 • 以降では,主にフロントエンド (録音 ~ ASR手前まで) に関する技術を扱います • 本発表を聞けば「フロントエンドは一通りわかる!」くらいの網羅度が目標です

    • 私の解釈に基づいた内容なので,間違い等が含まれる可能性にご注意下さい [Tu+ Interspeech 2020, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf] USTC-NELSLIP System Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 3
  4. CHiME Challengeとは 遠隔音声認識 (DSR; distant speech recognition) の国際技術評価会 • 最新の研究成果に応じて定期的にタスクを更新

     DSR 技術の発展に大きく貢献 CHiME-1 (2011) / -2 (2013) • 音声コマンドの認識 • 実録雑音と音声の数値混合 CHiME-3 (2015) / -4 (2016) • 雑踏環境での大語彙読上音声 • タブレット端末で実際に収録 CHiME-5 (2018) / -6 (2020) • ディナーパーティの自由発話 • 複数台設置したKinectで収録 http://spandh.dcs.shef.ac.uk/chime_challenge/ CHiME1/introduction.html http://spandh.dcs.shef.ac.uk/chime_challenge /CHiME3/{overview, data}.html https://chimechallenge.github.io/chime6 /overview.html Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 4
  5. CHiME-6 Challenge ディナーパーティでの自由発話の遠隔音声認識タスク • “砕けた”口語音声の認識,オーバーラップ & 雑音あり • 収録にはMicrosoft Kinect

    V2 (4ch) x 6台 を使用 • CHiME-5との違いはKinectが時刻同期済み 利用できるデータの違いにより2つのTrackで評価 https://chimechallenge.github.io/chime6/overview.html Track 1 (5と同様)|ASR Only • セッション・場所ID • 同期の真値 • 各発話の開始・終了時刻 • スピーカID • Kinectの配置情報 Track 2|Diarization + ASR • セッションID • 同期の真値 • 各発話の開始・終了時刻 (Train / Devのみ) • スピーカID (Train / Devのみ) • Kinectの配置情報 Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 5
  6. USTC-NELSLIP System Track 1のRanking A (LM制約あり) / B (制約なし) 双方で最良WERを達成

    • Ranking A: 31.0% / Ranking B: 30.5% • CHiME-5の最高性能 (USTC-iFlytek:46.4% / 46.1%) から2年で15 pt 以上改善 (高精度な時刻同期スクリプトの提供・ベースラインシステムの改良など,様々な要因が重なった向上ではあるが…) https://chimechallenge.github.io/chime6/results.html Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 6
  7. USTCシステムのフロントエンド (本論文) 様々な要素技術を駆使して高性能を発揮  主要な要素技術 を解説 [Tu+ Interspeech 2020, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf]

    Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 7
  8. 音声強調|多チャネル音響信号の空間モデル 「平均0の複素ガウス分布」を用いて表現 . こんにちは! 早 遅 (簡単のため2軸のみ表示) 傾き ( )

     位相差 大きさ ( ) 音量 Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 8
  9. 音声強調|Generalized Eigenvalue (GEV) ビームフォーマ 目的音声と妨害音の空間相関行列からSNRを最大にするビームを形成 • 解が一般化固有値分解 (GEV)で得られるのでGEVビームフォーマ ビームフォーマでは空間相関行列 をどうやって得るかが重要

    • 何らかの手法で“TFマスク”を推定して を計算 (※マスク自身は歪が強く認識困難) [Warsitz+ 2007] 強調音声 観測信号 Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 9
  10. マスク推定をクラスタリングとして定式化 . CGMMの最尤推定 (EMアルゴリズム) はcACGMMと等価 マスク推定|Complex (Angular Central) GMM [Otsuka+

    2014, Ito+ 2016, Higuchi+ 2017, …] (簡単のため2軸のみ表示) 観測 音源マスク こんにちは! Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 10
  11. マスク推定|Space-and-Speaker-Aware (SSA) 音声分離 空間・話者情報を用いる教師あり学習  より精緻なマスクを推定 • 混合音からのマスク推定ではなく,妨害音が少ないビーム結果からマスク推定 • 学習は正解マスクとの2乗誤差最小化

    入力されたビームフォーミング結果から,より精緻なマスクを推定 2 x BiLSTM DNN 話者1のTFマスク 話者2のTFマスク 話者3のTFマスク 話者4のTFマスク 話者1の強調結果 話者4の強調結果 強調結果間の 位相差 x 3 ⋯ ⋯ Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 11
  12. 残響除去|Weighted Prediction Error (WPE) 自己回帰モデルを用いた後部残響の推定・除去技術 [Nakatani+ 2008] • CHiME-6は屋内なので長めの残響 (一般に0.5s前後)

    が存在  ビームフォーマに悪影響 • 観測 ∈ ℂ×× から,直接音 ,自己回帰係数 ,共分散 を最尤推定 H × 後部残響を予測 Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 12
  13. 事前学習|SSA音源分離モデルの学習 音声区間情報から単一話者区間を抽出  教師付き混合音を数値合成 • CHiME-5 / 6では混合音のみ & クリーン音声のデータセットは手に入らない!

    [Tu+ Interspeech 2020, Figure 2, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf] Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 13
  14. 推論|フロントエンド全体の構成 (再掲) ポイント|深層音源分離とビームフォーミングを交互反復 • CHiME-4から登場しているテクニック [Du+ 2016] [Tu+ Interspeech 2020,

    Figure 1 下部抜粋, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf] Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 14
  15. 比較実験|ベースライン・バックエンドでのWER 広く使われている最新の手法 (GSS) をも上回る性能を達成 • BeamformIt|良く比較される鉄板ベースライン [Anguera+ 2007] • GSS|音声区間情報でマスクを制御するCGMM型フロントエンド

    [Boeddeker+ 2018] [Tu+ Interspeech 2020, Table 1, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf] Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 15
  16. まとめ 本日の内容|CHiME-6最強システムで使用された技術を概観 • CHiME-6 Track1で最良WERとなったフロントエンドについて要素技術を解説 • これまでCHiME Challengeで培われてきた技術の集大成 [Tu+ Interspeech

    2020, https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2150.pdf] Interspeech2020 / CHiME-6 音声読み会 フロントエンド / 16 16