Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hybrid Autoregressive Transducer [輪講発表資料]

shibukazu
June 22, 2022

Hybrid Autoregressive Transducer [輪講発表資料]

Hybrid Autoregressive Transducer に関する輪講発表資料です。

shibukazu

June 22, 2022
Tweet

More Decks by shibukazu

Other Decks in Research

Transcript

  1. E2E音声認識 E2Eモデルはシンプルで学習しやすい パラレルデータの収集が難しいため、外部言語モデルを組み合わせたい 外部言語モデルの活用 ShallowFusion y = ∗ argmax ​

    logP(y∣x) + logP ​ (y) y ( LM ) E2Eモデル自体にも言語モデルが含まれてしまう(暗黙の言語モデル) 暗黙の言語モデルによる評価スコアを取り除いて推論を行いたい ⇒Transducerアーキテクチャの利用 Introduction 2
  2. TransducerとHATの比較 HAT Transducer ネットワーク出力は 言語モデル確率はブランクラベル以外の Softmaxで計算される s ​ ( ​

    ∣y ​ ) t,u y ~ 0:u HAT ネットワーク出力は 非ブランクラベルのスコアを含まない 言語モデル確率はすべてのラベルの Softmaxで計算される s ​ (y∣y ​ ) t,u 0:u 8
  3. 実験設定 データセット: Google VoiceSearch Traffic 評価指標: WER アーキテクチャ: Encoder: 5layer,

    2048cells/layerのLSTM Pred Net: 2layer, 256cells/layerのLSTM Joint Net: 1layerの線形層 入力: 対数メルスペクトログラム 結果 10
  4. 各手法のデコード方法 Cross-Entropy CTC, RNN-T HAT 結果 ​ = y ~∗

    argmax ​ λ ​ log ​ P(x ​ ∣ ​ ​ ) + ​ y ~ 1 (∏ t=1 T t y ~ t ) logP ​ (B( ​ )) LM y ~ ​ = y ~∗ argmax ​ λ ​ logP ( ​ ∣x) + ​ y ~ 1 ′ y ~ logP ​ (B( ​ )) + LM y ~ λ ​ v( ​ ) 2 y ~ ​ = y ~∗ argmax ​ λ ​ logP( ​ ∣x) + ​ y ~ 1 y ~ logP ​ (B( ​ )) − LM y ~ λ ​ logP ​ (B( ​ )) 2 ILM y ~ 12