Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-...

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

LINE株式会社 木田祐介
「Tokyo BISH Bash #03 with IYS2020」での登壇資料です
https://tokyo-bish-bash.connpass.com/event/190178/

LINE Developers

October 14, 2020
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. • ⽊⽥ 祐介 • ⾳声認識の⼈(フロントエンドと⾳響モデルが中⼼) • プロダクト開発がメインだがたまに学会発表もする • ⿇婆⾖腐とコーヒー(サードウェーブ)が好き •

    略歴 • 2004.04-2006.03︓京⼤ 河原研究室 修⼠課程 • 2006.04-2017.04︓東芝 研究員 • 2017.05-2020.05︓ヤフー エンジニア/マネージャ • 2020.05- ︓LINE テックリード ⾃⼰紹介
  2. DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of

    lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス(CSJ)に対する認識誤り率 (%) DNN-HMM End-to-End
  3. ⾳声区間 検出 特徴 抽出 デコード 認識結果 DNN-HMM型⾳声認識 ⾳響 モデル ⾔語

    モデル 発⾳ 辞書 ⾳素の事後確率 を計算するDNN 時系列を表現 するHMM
  4. ⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End⾳声認識 End-to-End モデル 特徴量

    あ ア 亜 い .. ⾳声特徴量から 表記を直接予測するNN ⽂字or単語
  5. ⾳声区間 検出 特徴 抽出 デコード 認識結果 ⾔語モデルのFusion End-to-End モデル ⾔語

    モデル リスコア リング 実際には⾔語モデルを併⽤して精度を上げる (⽂字単位なので作るのは以前より楽) 仮説をN個に 絞り込む N個の順序を ⼊れ替える
  6. CTC: Connectionist Temporal Classification • 各出⼒の条件付独⽴性を仮定 (過去の出⼒を参考にせず次を予測)→精度が低い • フレームごとに⽂字を出⼒ •

    出⼒系列⻑が⼊⼒より少ない 例:「明⽇」→約100frame • “空”を意味する特殊記号 “_” (blank) を導⼊ _ ア 亜 い .. blank
  7. CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C

    _ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和 トレリス上の経路の 数だけパターンが存在!
  8. Attention • モデルの種類 • Attention based Encoder-Decoder • LAS •

    Transformer • ⾼い精度(DNN-HMMを凌駕) • シンボルを⼀つずつ出⼒ (blank不要)
  9. 課題1:応答速度 バッチ型⾳声認識 ストリーミング⾳声認識 認識⽅式 発話全体を⼀括処理 ⼊⼒⾳声を逐次処理 応⽤例 議事録書き起こし ⾳声検索、スマートスピーカー 応答時間の制約

    なし 数百ミリ秒以内 採⽤できるモデル 系列全体を使った処理 ・BLSTM ・Self-Attention ・Transformer 順⽅向に処理するモデル ・LSTM ・CNN ・CTC ・RNN-Transducer Transformerの⾼い精度を保ちつつ ストリーミング化する研究が盛ん!
  10. Hard Monotonic Attention (HMA) こ ん に ち は •

    ⽂字ごとにAttendする特徴を1つに限定 • Attendする特徴はLeft-to-Rightで遷移 • 逐次的にデコードできるため遅延が少ない • 精度劣化が⼤きい
  11. MoChA (Monotonic Chunkwise Attention) [Chui+17] こ ん に ち は

    • HMAでAttendする特徴を選択 • 選択した特徴を含む固定⻑の窓内で Self-Attentionを計算 • Attend対象を広げ、遅延が少ないメリット を残しつつ精度劣化を緩和
  12. NAT (Non-Autoregressive Transformer) [Chen+19] • 認識 1 iter 2 iter

    3 iter 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 全部マスクした状態 でスタート! 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 繰り返すことで 結果がRefine
  13. • End-to-Endモデルは計算量が多い︕ • 演算量削減の必要性 • ハードウェアコスト︓GPU >> CPU • デバイスでの認識処理

    • 応答時間(処理遅延) • ⼀般的な⼿法 • モデル量⼦化、単精度演算 • Distillation、SVD 課題2:演算量削減
  14. Back-Translation-Style Data Augmentation [Hayashi+17] ①ペアデータで E2Eモデルを学習 ②テキストと対応する ⾳声のEncode特徴を算出 ③テキストから Encode特徴を

    予測するモデルを学習 ④ペアのないテキストから Encode特徴を⽣成 ⑤⽣成したEncode特徴を 混ぜてE2Eモデルを再学習
  15. 研究活動 環境⾳識別技術 Weakly supervised training,コーデック⾮依存な環境⾳識別技術 DCASE2020 Task4で世界⼀位獲得(名古屋⼤学,JHUとの混合チーム) ブラインド ⾳源分離 IP法を超える超⾼速な⾳源分離の最適化法(Edge適⽤)

    残響除去・⾳源分離の統合的最適化 DNNベースの ⾳源分離 空間モデルの影響を考慮したDNNの学習法 教師無DNN学習 2019: ICASSP (3), Interspeech (2), WASPAA (1) 2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)