End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

LINE株式会社 木田祐介
「Tokyo BISH Bash #03 with IYS2020」での登壇資料です
https://tokyo-bish-bash.connpass.com/event/190178/

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers

October 14, 2020
Tweet

Transcript

  1. End-to-End音声認識の概要と プロダクト化への課題 LINE Speech Team 木田祐介

  2. • ⽊⽥ 祐介 • ⾳声認識の⼈(フロントエンドと⾳響モデルが中⼼) • プロダクト開発がメインだがたまに学会発表もする • ⿇婆⾖腐とコーヒー(サードウェーブ)が好き •

    略歴 • 2004.04-2006.03︓京⼤ 河原研究室 修⼠課程 • 2006.04-2017.04︓東芝 研究員 • 2017.05-2020.05︓ヤフー エンジニア/マネージャ • 2020.05- ︓LINE テックリード ⾃⼰紹介
  3. • End-to-End⾳声認識技術の概要(15分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

  4. ⾳声認識技術の変遷 GMM-HMM DNN-HMM (2011-) End-to-End (2016-)

  5. End-to-End⾳声認識はなぜ注⽬? A. シンプルな構造ながら⾼い精度が得られる

  6. DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of

    lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス(CSJ)に対する認識誤り率 (%) DNN-HMM End-to-End
  7. End-to-End⾳声認識はなぜ注⽬? A. シンプルな構造ながら⾼い精度が得られる

  8. ⾳声区間 検出 特徴 抽出 デコード 認識結果 DNN-HMM型⾳声認識 ⾳響 モデル ⾔語

    モデル 発⾳ 辞書 ⾳素の事後確率 を計算するDNN 時系列を表現 するHMM
  9. ⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End⾳声認識 End-to-End モデル ⾔語モデルも発⾳辞書も

    いらない!
  10. ⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End⾳声認識 End-to-End モデル 特徴量

    あ ア 亜 い .. ⾳声特徴量から 表記を直接予測するNN ⽂字or単語
  11. ⾳声区間 検出 特徴 抽出 デコード 認識結果 ⾔語モデルのFusion End-to-End モデル ⾔語

    モデル リスコア リング 実際には⾔語モデルを併⽤して精度を上げる (⽂字単位なので作るのは以前より楽) 仮説をN個に 絞り込む N個の順序を ⼊れ替える
  12. CTC: Connectionist Temporal Classification • 各出⼒の条件付独⽴性を仮定 (過去の出⼒を参考にせず次を予測)→精度が低い • フレームごとに⽂字を出⼒ •

    出⼒系列⻑が⼊⼒より少ない 例:「明⽇」→約100frame • “空”を意味する特殊記号 “_” (blank) を導⼊ _ ア 亜 い .. blank
  13. CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C

    _ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和 トレリス上の経路の 数だけパターンが存在!
  14. RNN-Transducer 特徴量 前の出⼒⽂字 • 前出⼒⽂字を⼊⼒に加えることで条件付独⽴性を排除 • ⾳響モデル・⾔語モデルの役割を分担した構造 ⾔語モデル の役割 ⾳響モデル

    の役割
  15. Attention • モデルの種類 • Attention based Encoder-Decoder • LAS •

    Transformer • ⾼い精度(DNN-HMMを凌駕) • シンボルを⼀つずつ出⼒ (blank不要)
  16. • End-to-End⾳声認識技術の概要(10分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

  17. プロダクト化の阻害要因 ԋࢉྔ͕ଟ͍ Ԡ౴଎౓͕ ஗͍ ΧελϚΠζ ͕೉͍͠

  18. 課題1:応答速度 バッチ型⾳声認識 ストリーミング⾳声認識 認識⽅式 発話全体を⼀括処理 ⼊⼒⾳声を逐次処理 応⽤例 議事録書き起こし ⾳声検索、スマートスピーカー 応答時間の制約

    なし 数百ミリ秒以内 採⽤できるモデル 系列全体を使った処理 ・BLSTM ・Self-Attention ・Transformer 順⽅向に処理するモデル ・LSTM ・CNN ・CTC ・RNN-Transducer Transformerの⾼い精度を保ちつつ ストリーミング化する研究が盛ん!
  19. Transformerの応答時間が遅い理由 • 理由①︓系列全体でSelf-Attentionを計算 • 系列全体を⼊⼒した後に計算を開始するため遅延が多い • 解決策 • ブロック単位で計算︓Neural Transducer

    • Attend範囲を適応的に変動︓MoChA
  20. 通常のSelf-Attention こ ん に ち は ある⽂字を出⼒する際、どの特徴に どれぐらい注⽬したかを表す (⾊が濃いほど注⽬度が⾼い) ⾳声はLeft-to-Rightなので、

    注⽬度が⾼い特徴は右に遷移
  21. Hard Monotonic Attention (HMA) こ ん に ち は •

    ⽂字ごとにAttendする特徴を1つに限定 • Attendする特徴はLeft-to-Rightで遷移 • 逐次的にデコードできるため遅延が少ない • 精度劣化が⼤きい
  22. MoChA (Monotonic Chunkwise Attention) [Chui+17] こ ん に ち は

    • HMAでAttendする特徴を選択 • 選択した特徴を含む固定⻑の窓内で Self-Attentionを計算 • Attend対象を広げ、遅延が少ないメリット を残しつつ精度劣化を緩和
  23. Transformerの応答時間が遅い理由 • 理由②︓前出⼒⽂字を使って(⾃⼰回帰)逐次デコード • 並列化できないため処理遅延が多い • 解決策 • Non-Autoregressive Transformer

    ⾃⼰回帰を廃し、全ての⽂字を並列予測することで⾼速化
  24. NAT (Non-Autoregressive Transformer) [Chen+19] • 学習 ランダムにマスクした 正解系列を与えて マスクした⽂字を予測 ランダムにマスクした

    正解系列を与えて マスクした⽂字を予測
  25. NAT (Non-Autoregressive Transformer) [Chen+19] • 認識 1 iter 2 iter

    3 iter 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 全部マスクした状態 でスタート! 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 繰り返すことで 結果がRefine
  26. • End-to-Endモデルは計算量が多い︕ • 演算量削減の必要性 • ハードウェアコスト︓GPU >> CPU • デバイスでの認識処理

    • 応答時間(処理遅延) • ⼀般的な⼿法 • モデル量⼦化、単精度演算 • Distillation、SVD 課題2:演算量削減
  27. • 2つのE2Eモデルをデバイス上でストリーミング動作 • RNN-Tが仮説を⽣成し、LASがリスコアリング • 演算量を削減するための様々な⼯夫 • 計算頻度の削減、計算結果の共有など • PFN益⼦さんが詳細を解説

    (https://www.slideshare.net/TakashiMasuko3/icassp2019/1) Googleのデバイス向けモデル [Sainath+20]
  28. 課題3:モデルのカスタマイズ • BtoB事業では、顧客特有の語彙への対応が必要 • DNN-HMMでのアプローチ • ⾔語モデル︓顧客テキストを使ったN-gramスムージング • 発⾳辞書︓特有語彙の登録 ⾳声区間

    検出 特徴 抽出 デコード 認識結果 ⾳響 モデル ⾔語 モデル 発⾳ 辞書
  29. 課題3:モデルのカスタマイズ • End-to-Endでのアプローチ • ⾔語モデルだけ対応しても効果は限定的 • End-to-Endモデルのファインチューニングが最も効果的だが、 ⾳声とテキストのペアデータが必要・・ • テキストデータだけでEnd-to-Endモデルを改善できれば最善

    上位N個の仮説に 正解がないと復活できない ⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End モデル ⾔語 モデル リスコア リング
  30. ⾳声合成を利⽤したアプローチ • ⾳声合成を利⽤したデータ増強 • ⼀定の効果はあるが、認識に不必要な⾮⾔語情報を含む • Back-Translation-Style Data Augmentation [Hayashi+17]

    • テキストからEnd-to-EndモデルのEncoder出⼒を直接予測 • Tacotron 2を利⽤
  31. Back-Translation-Style Data Augmentation [Hayashi+17] ①ペアデータで E2Eモデルを学習 ②テキストと対応する ⾳声のEncode特徴を算出 ③テキストから Encode特徴を

    予測するモデルを学習 ④ペアのないテキストから Encode特徴を⽣成 ⑤⽣成したEncode特徴を 混ぜてE2Eモデルを再学習
  32. • End-to-End⾳声認識技術の概要(10分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

  33. •End-to-End⾳声認識技術の概要(10分) •プロダクト化に向けての課題と取り組み(15分) •LINEの⾳声認識について(5分) •質疑(5分) Agenda

  34. None
  35. None
  36. None
  37. None
  38. × Speechチーム 開発体制 Ϧαʔνϟ ΤϯδχΞ

  39. 研究活動 環境⾳識別技術 Weakly supervised training,コーデック⾮依存な環境⾳識別技術 DCASE2020 Task4で世界⼀位獲得(名古屋⼤学,JHUとの混合チーム) ブラインド ⾳源分離 IP法を超える超⾼速な⾳源分離の最適化法(Edge適⽤)

    残響除去・⾳源分離の統合的最適化 DNNベースの ⾳源分離 空間モデルの影響を考慮したDNNの学習法 教師無DNN学習 2019: ICASSP (3), Interspeech (2), WASPAA (1) 2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)
  40. • DNN-HMM⾳声認識システムの改善 • 要素技術の改良、顧客向けカスタマイズ • End-to-End⾳声認識技術の開発 • 新技術の適⽤、プロダクト化に向けた開発 • プロトタイプシステムの開発

    • 新規プロダクト創出に向けたボトムアップ活動 ⾳声認識エンジニアの活動
  41. ⾳声リサーチャー・エンジニア募集中! カジュアル⾯談随時受け付けます!

  42. THANK YOU