Slide 16
Slide 16 text
Internal Use Only
© LY Corporation
IEICE-SP/IPSJ-SLP研究会@2024.10.22
16
オンデバイス型音声認識の実用化に向けた工夫
ASR+End-Pointerモデル学習 Text-Onlyドメイン適応 ユーザ辞書
y o u
ASR
w/End-Pointer
Model
ASR
Model
T h a n k y o u
・ 自動疑似ラベル
・精度
音声とテキストのペアデータにおいて、
幅広い固有表現獲得が課題
→ 音声のみデータから疑似ラベル生成
・速度
発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc)
・コンパクトモデルを前提に
外部言語モデルを利用しない戦略
・サービスやシナリオなど
文脈に応じた任意
フレーズの認識強化
Paired speech-text data Unpaired text data
Encoder Predictor
Joint
Network
Label Posteriors
Blank
Posterior
X 1:t Y1:u-1
内部言語
モデルの適応
(ILMT+ILMA[2])
E2E ASR
このルートでナビを
開始しますか?
サービス辞書
動的に任意フレーズの
認識強化
×肺 → ○はい
×家 → ○いいえ
×高速有線 → ○高速優先
「はい」
「いいえ」
「高速優先で」
「一般優先で」
…
・ 人手ラベル
Forced alignment label
現状はDNN-HMM hybrid
ASRで疑似ラベル生成
テキストと音声の
統合表現を扱うエンコーダー
(textogram[3], JOIST[4], etc)
i.e. FST-based
Contextual Biasing
EndPointer
Latency
[1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020
[2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022
[3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022
[4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023