End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

by LINE Developers

Slide 1

Slide 1 text

End-to-End音声認識の概要とプロダクト化への課題 LINE Speech Team 木田祐介

Slide 2

Slide 2 text

• ⽊⽥祐介 • ⾳声認識の⼈（フロントエンドと⾳響モデルが中⼼） • プロダクト開発がメインだがたまに学会発表もする • ⿇婆⾖腐とコーヒー（サードウェーブ）が好き • 略歴 • 2004.04-2006.03︓京⼤河原研究室修⼠課程 • 2006.04-2017.04︓東芝研究員 • 2017.05-2020.05︓ヤフーエンジニア/マネージャ • 2020.05- ︓LINE テックリード⾃⼰紹介

Slide 3

Slide 3 text

• End-to-End⾳声認識技術の概要（15分） • プロダクト化に向けての課題と取り組み（15分） • LINEの⾳声認識について（5分） • 質疑（5分） Agenda

Slide 4

Slide 4 text

⾳声認識技術の変遷 GMM-HMM DNN-HMM (2011-) End-to-End (2016-)

Slide 5

Slide 5 text

End-to-End⾳声認識はなぜ注⽬？ A. シンプルな構造ながら⾼い精度が得られる

Slide 6

Slide 6 text

DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス（CSJ）に対する認識誤り率 (%) DNN-HMM End-to-End

Slide 7

Slide 7 text

End-to-End⾳声認識はなぜ注⽬？ A. シンプルな構造ながら⾼い精度が得られる

Slide 8

Slide 8 text

⾳声区間検出特徴抽出デコード認識結果 DNN-HMM型⾳声認識⾳響モデル⾔語モデル発⾳辞書⾳素の事後確率を計算するDNN 時系列を表現するHMM

Slide 9

Slide 9 text

⾳声区間検出特徴抽出デコード認識結果 End-to-End⾳声認識 End-to-End モデル⾔語モデルも発⾳辞書もいらない！

Slide 10

Slide 10 text

⾳声区間検出特徴抽出デコード認識結果 End-to-End⾳声認識 End-to-End モデル特徴量あア亜い .. ⾳声特徴量から表記を直接予測するNN ⽂字or単語

Slide 11

Slide 11 text

⾳声区間検出特徴抽出デコード認識結果⾔語モデルのFusion End-to-End モデル⾔語モデルリスコアリング実際には⾔語モデルを併⽤して精度を上げる（⽂字単位なので作るのは以前より楽）仮説をN個に絞り込む N個の順序を⼊れ替える

Slide 12

Slide 12 text

CTC: Connectionist Temporal Classification • 各出⼒の条件付独⽴性を仮定（過去の出⼒を参考にせず次を予測）→精度が低い • フレームごとに⽂字を出⼒ • 出⼒系列⻑が⼊⼒より少ない例:「明⽇」→約100frame • “空”を意味する特殊記号 “_” (blank) を導⼊ _ ア亜い .. blank

Slide 13

Slide 13 text

CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C _ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和トレリス上の経路の数だけパターンが存在！

Slide 14

Slide 14 text

RNN-Transducer 特徴量前の出⼒⽂字 • 前出⼒⽂字を⼊⼒に加えることで条件付独⽴性を排除 • ⾳響モデル・⾔語モデルの役割を分担した構造⾔語モデルの役割⾳響モデルの役割

Slide 15

Slide 15 text

Attention • モデルの種類 • Attention based Encoder-Decoder • LAS • Transformer • ⾼い精度（DNN-HMMを凌駕） • シンボルを⼀つずつ出⼒（blank不要）

Slide 16

Slide 16 text

• End-to-End⾳声認識技術の概要（10分） • プロダクト化に向けての課題と取り組み（15分） • LINEの⾳声認識について（5分） • 質疑（5分） Agenda

Slide 17

Slide 17 text

プロダクト化の阻害要因 ԋࢉྔ͕ଟ͍ Ԡ౴଎౓͕ ஗͍ ΧελϚΠζ ͕೉͍͠

Slide 18

Slide 18 text

課題１：応答速度バッチ型⾳声認識ストリーミング⾳声認識認識⽅式発話全体を⼀括処理⼊⼒⾳声を逐次処理応⽤例議事録書き起こし⾳声検索、スマートスピーカー応答時間の制約なし数百ミリ秒以内採⽤できるモデル系列全体を使った処理・BLSTM ・Self-Attention ・Transformer 順⽅向に処理するモデル・LSTM ・CNN ・CTC ・RNN-Transducer Transformerの⾼い精度を保ちつつストリーミング化する研究が盛ん！

Slide 19

Slide 19 text

Transformerの応答時間が遅い理由 • 理由①︓系列全体でSelf-Attentionを計算 • 系列全体を⼊⼒した後に計算を開始するため遅延が多い • 解決策 • ブロック単位で計算︓Neural Transducer • Attend範囲を適応的に変動︓MoChA

Slide 20

Slide 20 text

通常のSelf-Attention こんにちはある⽂字を出⼒する際、どの特徴にどれぐらい注⽬したかを表す（⾊が濃いほど注⽬度が⾼い）⾳声はLeft-to-Rightなので、注⽬度が⾼い特徴は右に遷移

Slide 21

Slide 21 text

Hard Monotonic Attention (HMA) こんにちは • ⽂字ごとにAttendする特徴を１つに限定 • Attendする特徴はLeft-to-Rightで遷移 • 逐次的にデコードできるため遅延が少ない • 精度劣化が⼤きい

Slide 22

Slide 22 text

MoChA (Monotonic Chunkwise Attention) [Chui+17] こんにちは • HMAでAttendする特徴を選択 • 選択した特徴を含む固定⻑の窓内で Self-Attentionを計算 • Attend対象を広げ、遅延が少ないメリットを残しつつ精度劣化を緩和

Slide 23

Slide 23 text

Transformerの応答時間が遅い理由 • 理由②︓前出⼒⽂字を使って（⾃⼰回帰）逐次デコード • 並列化できないため処理遅延が多い • 解決策 • Non-Autoregressive Transformer ⾃⼰回帰を廃し、全ての⽂字を並列予測することで⾼速化

Slide 24

Slide 24 text

NAT (Non-Autoregressive Transformer) [Chen+19] • 学習ランダムにマスクした正解系列を与えてマスクした⽂字を予測ランダムにマスクした正解系列を与えてマスクした⽂字を予測

Slide 25

Slide 25 text

NAT (Non-Autoregressive Transformer) [Chen+19] • 認識 1 iter 2 iter 3 iter 信頼性の⾼い⽂字を正解として利⽤（⽂字の濃さ＝信頼性）全部マスクした状態でスタート！信頼性の⾼い⽂字を正解として利⽤（⽂字の濃さ＝信頼性）繰り返すことで結果がRefine

Slide 26

Slide 26 text

• End-to-Endモデルは計算量が多い︕ • 演算量削減の必要性 • ハードウェアコスト︓GPU >> CPU • デバイスでの認識処理 • 応答時間（処理遅延） • ⼀般的な⼿法 • モデル量⼦化、単精度演算 • Distillation、SVD 課題２：演算量削減

Slide 27

Slide 27 text

• ２つのE2Eモデルをデバイス上でストリーミング動作 • RNN-Tが仮説を⽣成し、LASがリスコアリング • 演算量を削減するための様々な⼯夫 • 計算頻度の削減、計算結果の共有など • PFN益⼦さんが詳細を解説 (https://www.slideshare.net/TakashiMasuko3/icassp2019/1) Googleのデバイス向けモデル [Sainath+20]

Slide 28

Slide 28 text

課題３：モデルのカスタマイズ • BtoB事業では、顧客特有の語彙への対応が必要 • DNN-HMMでのアプローチ • ⾔語モデル︓顧客テキストを使ったN-gramスムージング • 発⾳辞書︓特有語彙の登録⾳声区間検出特徴抽出デコード認識結果⾳響モデル⾔語モデル発⾳辞書

Slide 29

Slide 29 text

課題３：モデルのカスタマイズ • End-to-Endでのアプローチ • ⾔語モデルだけ対応しても効果は限定的 • End-to-Endモデルのファインチューニングが最も効果的だが、⾳声とテキストのペアデータが必要・・ • テキストデータだけでEnd-to-Endモデルを改善できれば最善上位N個の仮説に正解がないと復活できない⾳声区間検出特徴抽出デコード認識結果 End-to-End モデル⾔語モデルリスコアリング

Slide 30

Slide 30 text

⾳声合成を利⽤したアプローチ • ⾳声合成を利⽤したデータ増強 • ⼀定の効果はあるが、認識に不必要な⾮⾔語情報を含む • Back-Translation-Style Data Augmentation [Hayashi+17] • テキストからEnd-to-EndモデルのEncoder出⼒を直接予測 • Tacotron 2を利⽤

Slide 31

Slide 31 text

Back-Translation-Style Data Augmentation [Hayashi+17] ①ペアデータで E2Eモデルを学習 ②テキストと対応する⾳声のEncode特徴を算出 ③テキストから Encode特徴を予測するモデルを学習 ④ペアのないテキストから Encode特徴を⽣成 ⑤⽣成したEncode特徴を混ぜてE2Eモデルを再学習

Slide 32

Slide 32 text

• End-to-End⾳声認識技術の概要（10分） • プロダクト化に向けての課題と取り組み（15分） • LINEの⾳声認識について（5分） • 質疑（5分） Agenda

Slide 33

Slide 33 text

•End-to-End⾳声認識技術の概要（10分） •プロダクト化に向けての課題と取り組み（15分） •LINEの⾳声認識について（5分） •質疑（5分） Agenda

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

No content

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

× Speechチーム開発体制 Ϧαʔνϟ ΤϯδχΞ

Slide 39

Slide 39 text

研究活動環境⾳識別技術 Weakly supervised training，コーデック⾮依存な環境⾳識別技術 DCASE2020 Task4で世界⼀位獲得（名古屋⼤学，JHUとの混合チーム）ブラインド⾳源分離 IP法を超える超⾼速な⾳源分離の最適化法（Edge適⽤）残響除去・⾳源分離の統合的最適化 DNNベースの⾳源分離空間モデルの影響を考慮したDNNの学習法教師無DNN学習 2019: ICASSP (3), Interspeech (2), WASPAA (1） 2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)

Slide 40

Slide 40 text

• DNN-HMM⾳声認識システムの改善 • 要素技術の改良、顧客向けカスタマイズ • End-to-End⾳声認識技術の開発 • 新技術の適⽤、プロダクト化に向けた開発 • プロトタイプシステムの開発 • 新規プロダクト創出に向けたボトムアップ活動⾳声認識エンジニアの活動

Slide 41

Slide 41 text

⾳声リサーチャー・エンジニア募集中！カジュアル⾯談随時受け付けます！

Slide 42

Slide 42 text

THANK YOU