Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hybrid Autoregressive Transducer [輪講発表資料]

Hybrid Autoregressive Transducer [輪講発表資料]

Hybrid Autoregressive Transducer に関する輪講発表資料です。

Ea5600dd962127e87bdc313aaa7d8f56?s=128

shibukazu

June 22, 2022
Tweet

More Decks by shibukazu

Other Decks in Research

Transcript

  1. Hybrid Autoregressive Transducer (HAT) [Variani, Rybach+ 2020] 京都大学 音声メディア研究室 M1

    渋谷和樹 1
  2. E2E音声認識 E2Eモデルはシンプルで学習しやすい パラレルデータの収集が難しいため、外部言語モデルを組み合わせたい 外部言語モデルの活用 ShallowFusion y = ∗ argmax ​

    logP(y∣x) + logP ​ (y) y ( LM ) E2Eモデル自体にも言語モデルが含まれてしまう(暗黙の言語モデル) 暗黙の言語モデルによる評価スコアを取り除いて推論を行いたい ⇒Transducerアーキテクチャの利用 Introduction 2
  3. Transducer 3

  4. Transducer 特徴 E2E音声認識のアーキテクチャの一つ CTCと同様に事前のアライメントが不要 CTCと異なり、出力系列同士の関連性も考慮 (ラベル+ブランク)の事後確率を出力 ​ y ~ 4

  5. Transducer 内部言語モデル Transducerではエンコーダーに依存しない出力 ラベルの事後確率(言語モデル確率) を計算できる から内部言語モデルスコアを計算する P(y∣y ​ ) 0:u

    logP ​ (Y ) = ILM ​ logP(y ​ ∣y ​ ) ∑ u=0 U−1 u+1 0:u 5
  6. HAT 6

  7. HAT 特徴 Transducerベースのアーキテクチャ 非ブランクラベルのみの事後確率を計算できる 正確な?言語モデル確率を計算できる 7

  8. TransducerとHATの比較 HAT Transducer ネットワーク出力は 言語モデル確率はブランクラベル以外の Softmaxで計算される s ​ ( ​

    ∣y ​ ) t,u y ~ 0:u HAT ネットワーク出力は 非ブランクラベルのスコアを含まない 言語モデル確率はすべてのラベルの Softmaxで計算される s ​ (y∣y ​ ) t,u 0:u 8
  9. 結果 9

  10. 実験設定 データセット: Google VoiceSearch Traffic 評価指標: WER アーキテクチャ: Encoder: 5layer,

    2048cells/layerのLSTM Pred Net: 2layer, 256cells/layerのLSTM Joint Net: 1layerの線形層 入力: 対数メルスペクトログラム 結果 10
  11. 学習 強制アライメントを行い、教師ラベル(文章)の音素列を得る 各モデルは42種類の音素の事後確率を予測 各モデル単体で学習を行う(学習時は外部言語モデルを利用しない) 推論 各モデルを音響モデルとして使用 WFSTとして発音辞書・外部言語モデルを組み合わせてデコーディング 結果 11

  12. 各手法のデコード方法 Cross-Entropy CTC, RNN-T HAT 結果 ​ = y ~∗

    argmax ​ λ ​ log ​ P(x ​ ∣ ​ ​ ) + ​ y ~ 1 (∏ t=1 T t y ~ t ) logP ​ (B( ​ )) LM y ~ ​ = y ~∗ argmax ​ λ ​ logP ( ​ ∣x) + ​ y ~ 1 ′ y ~ logP ​ (B( ​ )) + LM y ~ λ ​ v( ​ ) 2 y ~ ​ = y ~∗ argmax ​ λ ​ logP( ​ ∣x) + ​ y ~ 1 y ~ logP ​ (B( ​ )) − LM y ~ λ ​ logP ​ (B( ​ )) 2 ILM y ~ 12
  13. 他手法との比較 2nd-pass: リスコアリングを行った場合の結果 いずれのケースでも他手法より優れた性能を示した 結果 13

  14. 結果 内部言語モデルの学習状況の可視化 Prior cost: 各エポックごとの平均パープレキシティと解釈 MTL: Prior costを最小化するマルチタスク学習 パープレキシティは一度下がり、徐々に増加 音素認識では言語モデルは最適化されない?

    学習初期は言語情報に重点を置いている? − ​ ​ logP ​ (y) ∣D∣ 1 ∑ y∈D ILM 14
  15. 結果 内部言語モデルの寄与率とWER HAT 付近で最も良い性能 ただのShallowFusionではなく、内部言語 モデルの影響を取り除くことが重要 HAT+MTL Prior costを最小化しているが性能はあまり 向上していない

    よい内部言語モデルを構築することは重要 ではないということ? λ ​ = 2 1 15
  16. Pred Netへの入力長の影響 入力系列長が長いほどパープレキシティは減少しているが、WERは変化していない 系列が長いとExposure Biasの影響が大きくなるから? Exposure Bias: 学習時はTeacherForcingを行うが、推論時は教師ラベルが存在しないこと 結果 16

  17. まとめ 17

  18. E2Eモデルを音響モデルとして利用するためのアプローチであるHATを提案 内部言語モデルのパープレキシティを評価できるようになった →外部言語モデルの必要性の判断基準となる まとめ 18