Upgrade to Pro — share decks privately, control downloads, hide ads and more …

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

End-to-End音声認識の概要とプロダクト化への課題 / Overview of End-to-End Speech Recognition and Issues for Product Realization

LINE株式会社 木田祐介
「Tokyo BISH Bash #03 with IYS2020」での登壇資料です
https://tokyo-bish-bash.connpass.com/event/190178/

LINE Developers
PRO

October 14, 2020
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. End-to-End音声認識の概要と
    プロダクト化への課題
    LINE Speech Team
    木田祐介

    View Slide

  2. • ⽊⽥ 祐介
    • ⾳声認識の⼈(フロントエンドと⾳響モデルが中⼼)
    • プロダクト開発がメインだがたまに学会発表もする
    • ⿇婆⾖腐とコーヒー(サードウェーブ)が好き
    • 略歴
    • 2004.04-2006.03︓京⼤ 河原研究室 修⼠課程
    • 2006.04-2017.04︓東芝 研究員
    • 2017.05-2020.05︓ヤフー エンジニア/マネージャ
    • 2020.05- ︓LINE テックリード
    ⾃⼰紹介

    View Slide

  3. • End-to-End⾳声認識技術の概要(15分)
    • プロダクト化に向けての課題と取り組み(15分)
    • LINEの⾳声認識について(5分)
    • 質疑(5分)
    Agenda

    View Slide

  4. ⾳声認識技術の変遷
    GMM-HMM DNN-HMM
    (2011-)
    End-to-End
    (2016-)

    View Slide

  5. End-to-End⾳声認識はなぜ注⽬?
    A. シンプルな構造ながら⾼い精度が得られる

    View Slide

  6. DNN-HMM vs End-to-End
    (*1) N. Kanda, et al., “Investigation of lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence”
    (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS”
    End-to-End型により誤りが半減
    0
    2
    4
    6
    8
    10
    E1 E2 E3
    ⽇本語話し⾔葉コーパス(CSJ)に対する認識誤り率 (%)
    DNN-HMM
    End-to-End

    View Slide

  7. End-to-End⾳声認識はなぜ注⽬?
    A. シンプルな構造ながら⾼い精度が得られる

    View Slide

  8. ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    DNN-HMM型⾳声認識
    ⾳響
    モデル
    ⾔語
    モデル
    発⾳
    辞書
    ⾳素の事後確率
    を計算するDNN
    時系列を表現
    するHMM

    View Slide

  9. ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    End-to-End⾳声認識
    End-to-End
    モデル
    ⾔語モデルも発⾳辞書も
    いらない!

    View Slide

  10. ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    End-to-End⾳声認識
    End-to-End
    モデル
    特徴量
    あ ア 亜 い .. ⾳声特徴量から
    表記を直接予測するNN
    ⽂字or単語

    View Slide

  11. ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    ⾔語モデルのFusion
    End-to-End
    モデル
    ⾔語
    モデル
    リスコア
    リング
    実際には⾔語モデルを併⽤して精度を上げる
    (⽂字単位なので作るのは以前より楽)
    仮説をN個に
    絞り込む
    N個の順序を
    ⼊れ替える

    View Slide

  12. CTC: Connectionist Temporal Classification
    • 各出⼒の条件付独⽴性を仮定
    (過去の出⼒を参考にせず次を予測)→精度が低い
    • フレームごとに⽂字を出⼒
    • 出⼒系列⻑が⼊⼒より少ない 例:「明⽇」→約100frame
    • “空”を意味する特殊記号 “_” (blank) を導⼊
    _ ア 亜 い ..
    blank

    View Slide

  13. CTC: Connectionist Temporal Classification
    • ある系列を表現する出⼒パターンは様々
    • 「CAT」︓「_ _ C _ _ A A _ T」, 「_ C _ _ A _ _ T _」, …
    • 同じ結果を出す全パターンの確率を総和
    トレリス上の経路の
    数だけパターンが存在!

    View Slide

  14. RNN-Transducer
    特徴量
    前の出⼒⽂字
    • 前出⼒⽂字を⼊⼒に加えることで条件付独⽴性を排除
    • ⾳響モデル・⾔語モデルの役割を分担した構造
    ⾔語モデル
    の役割
    ⾳響モデル
    の役割

    View Slide

  15. Attention
    • モデルの種類
    • Attention based Encoder-Decoder
    • LAS
    • Transformer
    • ⾼い精度(DNN-HMMを凌駕)
    • シンボルを⼀つずつ出⼒
    (blank不要)

    View Slide

  16. • End-to-End⾳声認識技術の概要(10分)
    • プロダクト化に向けての課題と取り組み(15分)
    • LINEの⾳声認識について(5分)
    • 質疑(5分)
    Agenda

    View Slide

  17. プロダクト化の阻害要因
    ԋࢉྔ͕ଟ͍
    Ԡ౴଎౓͕
    ஗͍
    ΧελϚΠζ
    ͕೉͍͠

    View Slide

  18. 課題1:応答速度
    バッチ型⾳声認識 ストリーミング⾳声認識
    認識⽅式 発話全体を⼀括処理 ⼊⼒⾳声を逐次処理
    応⽤例 議事録書き起こし ⾳声検索、スマートスピーカー
    応答時間の制約 なし 数百ミリ秒以内
    採⽤できるモデル 系列全体を使った処理
    ・BLSTM
    ・Self-Attention
    ・Transformer
    順⽅向に処理するモデル
    ・LSTM
    ・CNN
    ・CTC
    ・RNN-Transducer
    Transformerの⾼い精度を保ちつつ
    ストリーミング化する研究が盛ん!

    View Slide

  19. Transformerの応答時間が遅い理由
    • 理由①︓系列全体でSelf-Attentionを計算
    • 系列全体を⼊⼒した後に計算を開始するため遅延が多い
    • 解決策
    • ブロック単位で計算︓Neural Transducer
    • Attend範囲を適応的に変動︓MoChA

    View Slide

  20. 通常のSelf-Attention





    ある⽂字を出⼒する際、どの特徴に
    どれぐらい注⽬したかを表す
    (⾊が濃いほど注⽬度が⾼い)
    ⾳声はLeft-to-Rightなので、
    注⽬度が⾼い特徴は右に遷移

    View Slide

  21. Hard Monotonic Attention (HMA)





    • ⽂字ごとにAttendする特徴を1つに限定
    • Attendする特徴はLeft-to-Rightで遷移
    • 逐次的にデコードできるため遅延が少ない
    • 精度劣化が⼤きい

    View Slide

  22. MoChA (Monotonic Chunkwise Attention) [Chui+17]





    • HMAでAttendする特徴を選択
    • 選択した特徴を含む固定⻑の窓内で
    Self-Attentionを計算
    • Attend対象を広げ、遅延が少ないメリット
    を残しつつ精度劣化を緩和

    View Slide

  23. Transformerの応答時間が遅い理由
    • 理由②︓前出⼒⽂字を使って(⾃⼰回帰)逐次デコード
    • 並列化できないため処理遅延が多い
    • 解決策
    • Non-Autoregressive Transformer
    ⾃⼰回帰を廃し、全ての⽂字を並列予測することで⾼速化

    View Slide

  24. NAT (Non-Autoregressive Transformer) [Chen+19]
    • 学習
    ランダムにマスクした
    正解系列を与えて
    マスクした⽂字を予測
    ランダムにマスクした
    正解系列を与えて
    マスクした⽂字を予測

    View Slide

  25. NAT (Non-Autoregressive Transformer) [Chen+19]
    • 認識
    1 iter 2 iter 3 iter
    信頼性の⾼い⽂字を正解として利⽤
    (⽂字の濃さ=信頼性)
    全部マスクした状態
    でスタート!
    信頼性の⾼い⽂字を正解として利⽤
    (⽂字の濃さ=信頼性)
    繰り返すことで
    結果がRefine

    View Slide

  26. • End-to-Endモデルは計算量が多い︕
    • 演算量削減の必要性
    • ハードウェアコスト︓GPU >> CPU
    • デバイスでの認識処理
    • 応答時間(処理遅延)
    • ⼀般的な⼿法
    • モデル量⼦化、単精度演算
    • Distillation、SVD
    課題2:演算量削減

    View Slide

  27. • 2つのE2Eモデルをデバイス上でストリーミング動作
    • RNN-Tが仮説を⽣成し、LASがリスコアリング
    • 演算量を削減するための様々な⼯夫
    • 計算頻度の削減、計算結果の共有など
    • PFN益⼦さんが詳細を解説
    (https://www.slideshare.net/TakashiMasuko3/icassp2019/1)
    Googleのデバイス向けモデル [Sainath+20]

    View Slide

  28. 課題3:モデルのカスタマイズ
    • BtoB事業では、顧客特有の語彙への対応が必要
    • DNN-HMMでのアプローチ
    • ⾔語モデル︓顧客テキストを使ったN-gramスムージング
    • 発⾳辞書︓特有語彙の登録
    ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    ⾳響
    モデル
    ⾔語
    モデル
    発⾳
    辞書

    View Slide

  29. 課題3:モデルのカスタマイズ
    • End-to-Endでのアプローチ
    • ⾔語モデルだけ対応しても効果は限定的
    • End-to-Endモデルのファインチューニングが最も効果的だが、
    ⾳声とテキストのペアデータが必要・・
    • テキストデータだけでEnd-to-Endモデルを改善できれば最善
    上位N個の仮説に
    正解がないと復活できない
    ⾳声区間
    検出
    特徴
    抽出
    デコード 認識結果
    End-to-End
    モデル
    ⾔語
    モデル
    リスコア
    リング

    View Slide

  30. ⾳声合成を利⽤したアプローチ
    • ⾳声合成を利⽤したデータ増強
    • ⼀定の効果はあるが、認識に不必要な⾮⾔語情報を含む
    • Back-Translation-Style Data Augmentation [Hayashi+17]
    • テキストからEnd-to-EndモデルのEncoder出⼒を直接予測
    • Tacotron 2を利⽤

    View Slide

  31. Back-Translation-Style Data Augmentation
    [Hayashi+17]
    ①ペアデータで
    E2Eモデルを学習
    ②テキストと対応する
    ⾳声のEncode特徴を算出
    ③テキストから
    Encode特徴を
    予測するモデルを学習
    ④ペアのないテキストから
    Encode特徴を⽣成
    ⑤⽣成したEncode特徴を
    混ぜてE2Eモデルを再学習

    View Slide

  32. • End-to-End⾳声認識技術の概要(10分)
    • プロダクト化に向けての課題と取り組み(15分)
    • LINEの⾳声認識について(5分)
    • 質疑(5分)
    Agenda

    View Slide

  33. •End-to-End⾳声認識技術の概要(10分)
    •プロダクト化に向けての課題と取り組み(15分)
    •LINEの⾳声認識について(5分)
    •質疑(5分)
    Agenda

    View Slide

  34. View Slide

  35. View Slide

  36. View Slide

  37. View Slide

  38. ×
    Speechチーム
    開発体制
    Ϧαʔνϟ ΤϯδχΞ

    View Slide

  39. 研究活動
    環境⾳識別技術 Weakly supervised training,コーデック⾮依存な環境⾳識別技術
    DCASE2020 Task4で世界⼀位獲得(名古屋⼤学,JHUとの混合チーム)
    ブラインド
    ⾳源分離
    IP法を超える超⾼速な⾳源分離の最適化法(Edge適⽤)
    残響除去・⾳源分離の統合的最適化
    DNNベースの
    ⾳源分離
    空間モデルの影響を考慮したDNNの学習法
    教師無DNN学習
    2019: ICASSP (3), Interspeech (2), WASPAA (1)
    2020: ICASSP (7), EUSIPCO (3), Interspeech (3), APSIPA (3), DCASE (1)

    View Slide

  40. • DNN-HMM⾳声認識システムの改善
    • 要素技術の改良、顧客向けカスタマイズ
    • End-to-End⾳声認識技術の開発
    • 新技術の適⽤、プロダクト化に向けた開発
    • プロトタイプシステムの開発
    • 新規プロダクト創出に向けたボトムアップ活動
    ⾳声認識エンジニアの活動

    View Slide

  41. ⾳声リサーチャー・エンジニア募集中!
    カジュアル⾯談随時受け付けます!

    View Slide

  42. THANK YOU

    View Slide