DNN-HMM vs End-to-End (*1) N. Kanda, et al., “Investigation of lattice-free maximum mutual information-based acoustic models with sequence-level Kullback-Leibler divergence” (*2) S. Karita, et al., “A COMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECH APPLICATIONS” End-to-End型により誤りが半減 0 2 4 6 8 10 E1 E2 E3 ⽇本語話し⾔葉コーパス(CSJ)に対する認識誤り率 (%) DNN-HMM End-to-End
CTC: Connectionist Temporal Classification • ある系列を表現する出⼒パターンは様々 • 「CAT」︓「_ _ C _ _ A A _ T」, 「_ C _ _ A _ _ T _」, … • 同じ結果を出す全パターンの確率を総和 トレリス上の経路の 数だけパターンが存在!