Slide 1

Slide 1 text

End-to-End音声認識の概要と プロダクト化への課題 LINE Speech Team 木田祐介

Slide 2

Slide 2 text

• ⽊⽥ 祐介 • ⾳声認識の⼈(フロントエンドと⾳響モデルが中⼼) • プロダクト開発がメインだがたまに学会発表もする • ⿇婆⾖腐とコーヒー(サードウェーブ)が好き • 略歴 • 2004.04-2006.03︓京⼤ 河原研究室 修⼠課程 • 2006.04-2017.04︓東芝 研究員 • 2017.05-2020.05︓ヤフー エンジニア/マネージャ • 2020.05- ︓LINE テックリード ⾃⼰紹介

Slide 3

Slide 3 text

• End-to-End⾳声認識技術の概要(15分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

Slide 4

Slide 4 text

⾳声認識技術の変遷 GMM-HMM DNN-HMM (2011-) End-to-End (2016-)

Slide 5

Slide 5 text

End-to-End⾳声認識はなぜ注⽬? A. シンプルな構造ながら⾼い精度が得られる

Slide 6

Slide 6 text

DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス(CSJ)に対する認識誤り率 (%) DNN-HMM End-to-End

Slide 7

Slide 7 text

End-to-End⾳声認識はなぜ注⽬? A. シンプルな構造ながら⾼い精度が得られる

Slide 8

Slide 8 text

⾳声区間 検出 特徴 抽出 デコード 認識結果 DNN-HMM型⾳声認識 ⾳響 モデル ⾔語 モデル 発⾳ 辞書 ⾳素の事後確率 を計算するDNN 時系列を表現 するHMM

Slide 9

Slide 9 text

⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End⾳声認識 End-to-End モデル ⾔語モデルも発⾳辞書も いらない!

Slide 10

Slide 10 text

⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End⾳声認識 End-to-End モデル 特徴量 あ ア 亜 い .. ⾳声特徴量から 表記を直接予測するNN ⽂字or単語

Slide 11

Slide 11 text

⾳声区間 検出 特徴 抽出 デコード 認識結果 ⾔語モデルのFusion End-to-End モデル ⾔語 モデル リスコア リング 実際には⾔語モデルを併⽤して精度を上げる (⽂字単位なので作るのは以前より楽) 仮説をN個に 絞り込む N個の順序を ⼊れ替える

Slide 12

Slide 12 text

CTC: Connectionist Temporal Classification • 各出⼒の条件付独⽴性を仮定 (過去の出⼒を参考にせず次を予測)→精度が低い • フレームごとに⽂字を出⼒ • 出⼒系列⻑が⼊⼒より少ない 例:「明⽇」→約100frame • “空”を意味する特殊記号 “_” (blank) を導⼊ _ ア 亜 い .. blank

Slide 13

Slide 13 text

CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C _ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和 トレリス上の経路の 数だけパターンが存在!

Slide 14

Slide 14 text

RNN-Transducer 特徴量 前の出⼒⽂字 • 前出⼒⽂字を⼊⼒に加えることで条件付独⽴性を排除 • ⾳響モデル・⾔語モデルの役割を分担した構造 ⾔語モデル の役割 ⾳響モデル の役割

Slide 15

Slide 15 text

Attention • モデルの種類 • Attention based Encoder-Decoder • LAS • Transformer • ⾼い精度(DNN-HMMを凌駕) • シンボルを⼀つずつ出⼒ (blank不要)

Slide 16

Slide 16 text

• End-to-End⾳声認識技術の概要(10分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

Slide 17

Slide 17 text

プロダクト化の阻害要因 ԋࢉྔ͕ଟ͍ Ԡ౴଎౓͕ ஗͍ ΧελϚΠζ ͕೉͍͠

Slide 18

Slide 18 text

課題1:応答速度 バッチ型⾳声認識 ストリーミング⾳声認識 認識⽅式 発話全体を⼀括処理 ⼊⼒⾳声を逐次処理 応⽤例 議事録書き起こし ⾳声検索、スマートスピーカー 応答時間の制約 なし 数百ミリ秒以内 採⽤できるモデル 系列全体を使った処理 ・BLSTM ・Self-Attention ・Transformer 順⽅向に処理するモデル ・LSTM ・CNN ・CTC ・RNN-Transducer Transformerの⾼い精度を保ちつつ ストリーミング化する研究が盛ん!

Slide 19

Slide 19 text

Transformerの応答時間が遅い理由 • 理由①︓系列全体でSelf-Attentionを計算 • 系列全体を⼊⼒した後に計算を開始するため遅延が多い • 解決策 • ブロック単位で計算︓Neural Transducer • Attend範囲を適応的に変動︓MoChA

Slide 20

Slide 20 text

通常のSelf-Attention こ ん に ち は ある⽂字を出⼒する際、どの特徴に どれぐらい注⽬したかを表す (⾊が濃いほど注⽬度が⾼い) ⾳声はLeft-to-Rightなので、 注⽬度が⾼い特徴は右に遷移

Slide 21

Slide 21 text

Hard Monotonic Attention (HMA) こ ん に ち は • ⽂字ごとにAttendする特徴を1つに限定 • Attendする特徴はLeft-to-Rightで遷移 • 逐次的にデコードできるため遅延が少ない • 精度劣化が⼤きい

Slide 22

Slide 22 text

MoChA (Monotonic Chunkwise Attention) [Chui+17] こ ん に ち は • HMAでAttendする特徴を選択 • 選択した特徴を含む固定⻑の窓内で Self-Attentionを計算 • Attend対象を広げ、遅延が少ないメリット を残しつつ精度劣化を緩和

Slide 23

Slide 23 text

Transformerの応答時間が遅い理由 • 理由②︓前出⼒⽂字を使って(⾃⼰回帰)逐次デコード • 並列化できないため処理遅延が多い • 解決策 • Non-Autoregressive Transformer ⾃⼰回帰を廃し、全ての⽂字を並列予測することで⾼速化

Slide 24

Slide 24 text

NAT (Non-Autoregressive Transformer) [Chen+19] • 学習 ランダムにマスクした 正解系列を与えて マスクした⽂字を予測 ランダムにマスクした 正解系列を与えて マスクした⽂字を予測

Slide 25

Slide 25 text

NAT (Non-Autoregressive Transformer) [Chen+19] • 認識 1 iter 2 iter 3 iter 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 全部マスクした状態 でスタート! 信頼性の⾼い⽂字を正解として利⽤ (⽂字の濃さ=信頼性) 繰り返すことで 結果がRefine

Slide 26

Slide 26 text

• End-to-Endモデルは計算量が多い︕ • 演算量削減の必要性 • ハードウェアコスト︓GPU >> CPU • デバイスでの認識処理 • 応答時間(処理遅延) • ⼀般的な⼿法 • モデル量⼦化、単精度演算 • Distillation、SVD 課題2:演算量削減

Slide 27

Slide 27 text

• 2つのE2Eモデルをデバイス上でストリーミング動作 • RNN-Tが仮説を⽣成し、LASがリスコアリング • 演算量を削減するための様々な⼯夫 • 計算頻度の削減、計算結果の共有など • PFN益⼦さんが詳細を解説 (https://www.slideshare.net/TakashiMasuko3/icassp2019/1) Googleのデバイス向けモデル [Sainath+20]

Slide 28

Slide 28 text

課題3:モデルのカスタマイズ • BtoB事業では、顧客特有の語彙への対応が必要 • DNN-HMMでのアプローチ • ⾔語モデル︓顧客テキストを使ったN-gramスムージング • 発⾳辞書︓特有語彙の登録 ⾳声区間 検出 特徴 抽出 デコード 認識結果 ⾳響 モデル ⾔語 モデル 発⾳ 辞書

Slide 29

Slide 29 text

課題3:モデルのカスタマイズ • End-to-Endでのアプローチ • ⾔語モデルだけ対応しても効果は限定的 • End-to-Endモデルのファインチューニングが最も効果的だが、 ⾳声とテキストのペアデータが必要・・ • テキストデータだけでEnd-to-Endモデルを改善できれば最善 上位N個の仮説に 正解がないと復活できない ⾳声区間 検出 特徴 抽出 デコード 認識結果 End-to-End モデル ⾔語 モデル リスコア リング

Slide 30

Slide 30 text

⾳声合成を利⽤したアプローチ • ⾳声合成を利⽤したデータ増強 • ⼀定の効果はあるが、認識に不必要な⾮⾔語情報を含む • Back-Translation-Style Data Augmentation [Hayashi+17] • テキストからEnd-to-EndモデルのEncoder出⼒を直接予測 • Tacotron 2を利⽤

Slide 31

Slide 31 text

Back-Translation-Style Data Augmentation [Hayashi+17] ①ペアデータで E2Eモデルを学習 ②テキストと対応する ⾳声のEncode特徴を算出 ③テキストから Encode特徴を 予測するモデルを学習 ④ペアのないテキストから Encode特徴を⽣成 ⑤⽣成したEncode特徴を 混ぜてE2Eモデルを再学習

Slide 32

Slide 32 text

• End-to-End⾳声認識技術の概要(10分) • プロダクト化に向けての課題と取り組み(15分) • LINEの⾳声認識について(5分) • 質疑(5分) Agenda

Slide 33

Slide 33 text

•End-to-End⾳声認識技術の概要(10分) •プロダクト化に向けての課題と取り組み(15分) •LINEの⾳声認識について(5分) •質疑(5分) Agenda

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

No content

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

× Speechチーム 開発体制 Ϧαʔνϟ ΤϯδχΞ

Slide 39

Slide 39 text

研究活動 環境⾳識別技術 Weakly supervised training,コーデック⾮依存な環境⾳識別技術 DCASE2020 Task4で世界⼀位獲得(名古屋⼤学,JHUとの混合チーム) ブラインド ⾳源分離 IP法を超える超⾼速な⾳源分離の最適化法(Edge適⽤) 残響除去・⾳源分離の統合的最適化 DNNベースの ⾳源分離 空間モデルの影響を考慮したDNNの学習法 教師無DNN学習 2019: ICASSP (3), Interspeech (2), WASPAA (1) 2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)

Slide 40

Slide 40 text

• DNN-HMM⾳声認識システムの改善 • 要素技術の改良、顧客向けカスタマイズ • End-to-End⾳声認識技術の開発 • 新技術の適⽤、プロダクト化に向けた開発 • プロトタイプシステムの開発 • 新規プロダクト創出に向けたボトムアップ活動 ⾳声認識エンジニアの活動

Slide 41

Slide 41 text

⾳声リサーチャー・エンジニア募集中! カジュアル⾯談随時受け付けます!

Slide 42

Slide 42 text

THANK YOU