End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

End-to-End音声認識の概要とプロダクト化への課題 LINE Speech Team 木田祐介

• ⽊⽥祐介 • ⾳声認識の⼈（フロントエンドと⾳響モデルが中⼼） • プロダクト開発がメインだがたまに学会発表もする • ⿇婆⾖腐とコーヒー（サードウェーブ）が好き •
略歴 • 2004.04-2006.03︓京⼤河原研究室修⼠課程 • 2006.04-2017.04︓東芝研究員 • 2017.05-2020.05︓ヤフーエンジニア/マネージャ • 2020.05- ︓LINE テックリード⾃⼰紹介

• End-to-End⾳声認識技術の概要（15分） • プロダクト化に向けての課題と取り組み（15分） • LINEの⾳声認識について（5分） • 質疑（5分） Agenda

⾳声認識技術の変遷 GMM-HMM DNN-HMM (2011-) End-to-End (2016-)

End-to-End⾳声認識はなぜ注⽬？ A. シンプルな構造ながら⾼い精度が得られる

DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of
lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス（CSJ）に対する認識誤り率 (%) DNN-HMM End-to-End

End-to-End⾳声認識はなぜ注⽬？ A. シンプルな構造ながら⾼い精度が得られる

⾳声区間検出特徴抽出デコード認識結果 DNN-HMM型⾳声認識⾳響モデル⾔語
モデル発⾳辞書⾳素の事後確率を計算するDNN 時系列を表現するHMM

⾳声区間検出特徴抽出デコード認識結果 End-to-End⾳声認識 End-to-End モデル⾔語モデルも発⾳辞書も
いらない！

⾳声区間検出特徴抽出デコード認識結果 End-to-End⾳声認識 End-to-End モデル特徴量
あア亜い .. ⾳声特徴量から表記を直接予測するNN ⽂字or単語

⾳声区間検出特徴抽出デコード認識結果⾔語モデルのFusion End-to-End モデル⾔語
モデルリスコアリング実際には⾔語モデルを併⽤して精度を上げる（⽂字単位なので作るのは以前より楽）仮説をN個に絞り込む N個の順序を⼊れ替える

CTC: Connectionist Temporal Classification • 各出⼒の条件付独⽴性を仮定（過去の出⼒を参考にせず次を予測）→精度が低い • フレームごとに⽂字を出⼒ •
出⼒系列⻑が⼊⼒より少ない例:「明⽇」→約100frame • “空”を意味する特殊記号 “_” (blank) を導⼊ _ ア亜い .. blank

CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C
_ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和トレリス上の経路の数だけパターンが存在！

RNN-Transducer 特徴量前の出⼒⽂字 • 前出⼒⽂字を⼊⼒に加えることで条件付独⽴性を排除 • ⾳響モデル・⾔語モデルの役割を分担した構造⾔語モデルの役割⾳響モデル
の役割

Attention • モデルの種類 • Attention based Encoder-Decoder • LAS •
Transformer • ⾼い精度（DNN-HMMを凌駕） • シンボルを⼀つずつ出⼒（blank不要）

プロダクト化の阻害要因 ԋࢉྔ͕ଟ͍ Ԡ౴଎౓͕ ஗͍ ΧελϚΠζ ͕೉͍͠

課題１：応答速度バッチ型⾳声認識ストリーミング⾳声認識認識⽅式発話全体を⼀括処理⼊⼒⾳声を逐次処理応⽤例議事録書き起こし⾳声検索、スマートスピーカー応答時間の制約
なし数百ミリ秒以内採⽤できるモデル系列全体を使った処理・BLSTM ・Self-Attention ・Transformer 順⽅向に処理するモデル・LSTM ・CNN ・CTC ・RNN-Transducer Transformerの⾼い精度を保ちつつストリーミング化する研究が盛ん！

Transformerの応答時間が遅い理由 • 理由①︓系列全体でSelf-Attentionを計算 • 系列全体を⼊⼒した後に計算を開始するため遅延が多い • 解決策 • ブロック単位で計算︓Neural Transducer
• Attend範囲を適応的に変動︓MoChA

通常のSelf-Attention こんにちはある⽂字を出⼒する際、どの特徴にどれぐらい注⽬したかを表す（⾊が濃いほど注⽬度が⾼い）⾳声はLeft-to-Rightなので、
注⽬度が⾼い特徴は右に遷移

Hard Monotonic Attention (HMA) こんにちは •
⽂字ごとにAttendする特徴を１つに限定 • Attendする特徴はLeft-to-Rightで遷移 • 逐次的にデコードできるため遅延が少ない • 精度劣化が⼤きい

MoChA (Monotonic Chunkwise Attention) [Chui+17] こんにちは
• HMAでAttendする特徴を選択 • 選択した特徴を含む固定⻑の窓内で Self-Attentionを計算 • Attend対象を広げ、遅延が少ないメリットを残しつつ精度劣化を緩和

Transformerの応答時間が遅い理由 • 理由②︓前出⼒⽂字を使って（⾃⼰回帰）逐次デコード • 並列化できないため処理遅延が多い • 解決策 • Non-Autoregressive Transformer
⾃⼰回帰を廃し、全ての⽂字を並列予測することで⾼速化

NAT (Non-Autoregressive Transformer) [Chen+19] • 学習ランダムにマスクした正解系列を与えてマスクした⽂字を予測ランダムにマスクした
正解系列を与えてマスクした⽂字を予測

NAT (Non-Autoregressive Transformer) [Chen+19] • 認識 1 iter 2 iter
3 iter 信頼性の⾼い⽂字を正解として利⽤（⽂字の濃さ＝信頼性）全部マスクした状態でスタート！信頼性の⾼い⽂字を正解として利⽤（⽂字の濃さ＝信頼性）繰り返すことで結果がRefine

• End-to-Endモデルは計算量が多い︕ • 演算量削減の必要性 • ハードウェアコスト︓GPU >> CPU • デバイスでの認識処理
• 応答時間（処理遅延） • ⼀般的な⼿法 • モデル量⼦化、単精度演算 • Distillation、SVD 課題２：演算量削減

• ２つのE2Eモデルをデバイス上でストリーミング動作 • RNN-Tが仮説を⽣成し、LASがリスコアリング • 演算量を削減するための様々な⼯夫 • 計算頻度の削減、計算結果の共有など • PFN益⼦さんが詳細を解説
(https://www.slideshare.net/TakashiMasuko3/icassp2019/1) Googleのデバイス向けモデル [Sainath+20]

課題３：モデルのカスタマイズ • BtoB事業では、顧客特有の語彙への対応が必要 • DNN-HMMでのアプローチ • ⾔語モデル︓顧客テキストを使ったN-gramスムージング • 発⾳辞書︓特有語彙の登録⾳声区間
検出特徴抽出デコード認識結果⾳響モデル⾔語モデル発⾳辞書

課題３：モデルのカスタマイズ • End-to-Endでのアプローチ • ⾔語モデルだけ対応しても効果は限定的 • End-to-Endモデルのファインチューニングが最も効果的だが、⾳声とテキストのペアデータが必要・・ • テキストデータだけでEnd-to-Endモデルを改善できれば最善
上位N個の仮説に正解がないと復活できない⾳声区間検出特徴抽出デコード認識結果 End-to-End モデル⾔語モデルリスコアリング

⾳声合成を利⽤したアプローチ • ⾳声合成を利⽤したデータ増強 • ⼀定の効果はあるが、認識に不必要な⾮⾔語情報を含む • Back-Translation-Style Data Augmentation [Hayashi+17]
• テキストからEnd-to-EndモデルのEncoder出⼒を直接予測 • Tacotron 2を利⽤

Back-Translation-Style Data Augmentation [Hayashi+17] ①ペアデータで E2Eモデルを学習 ②テキストと対応する⾳声のEncode特徴を算出 ③テキストから Encode特徴を
予測するモデルを学習 ④ペアのないテキストから Encode特徴を⽣成 ⑤⽣成したEncode特徴を混ぜてE2Eモデルを再学習

•End-to-End⾳声認識技術の概要（10分） •プロダクト化に向けての課題と取り組み（15分） •LINEの⾳声認識について（5分） •質疑（5分） Agenda

× Speechチーム開発体制 Ϧαʔνϟ ΤϯδχΞ

研究活動環境⾳識別技術 Weakly supervised training，コーデック⾮依存な環境⾳識別技術 DCASE2020 Task4で世界⼀位獲得（名古屋⼤学，JHUとの混合チーム）ブラインド⾳源分離 IP法を超える超⾼速な⾳源分離の最適化法（Edge適⽤）
残響除去・⾳源分離の統合的最適化 DNNベースの⾳源分離空間モデルの影響を考慮したDNNの学習法教師無DNN学習 2019: ICASSP (3), Interspeech (2), WASPAA (1） 2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)

• DNN-HMM⾳声認識システムの改善 • 要素技術の改良、顧客向けカスタマイズ • End-to-End⾳声認識技術の開発 • 新技術の適⽤、プロダクト化に向けた開発 • プロトタイプシステムの開発
• 新規プロダクト創出に向けたボトムアップ活動⾳声認識エンジニアの活動

⾳声リサーチャー・エンジニア募集中！カジュアル⾯談随時受け付けます！

THANK YOU

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-...

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript