Text-Onlyドメイン適応 ユーザ辞書 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023
Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 音声とテキストの 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
出力する単語の表記文字列と対応する読みや品詞など素性を単一の系列として出力 • 表記のみを出力するモデルと比較し、文字誤り率の若干低下あるものの、 計算量を大きく変えずに高精度に表記と読みの同時推定が可能であることを確認 • 発表論文ではTransformer-CTCモデルを使用しているが、 プロダクションではRNN-Tに適応 [8]M. Omachi., et al., “End-to-end ASR to jointly predict transcriptions and linguistic annotations.,” Proc. NAACL2021. その後 日本橋 そのあと にほんばし にっぽんばし そのご 課題: 発話内容に対する表記と読みを同定したい
LINEヤフーの音声言語情報処理AIにおける音声認識・音声合成を中心に紹介 • 他、音楽情報処理、マルチモーダルAIの研究開発も推進中 • Interspeech 2024発表論文 • Robin Scheibler, et al., Universal Score-based Speech Enhancement with High Content Preservation Score-base diffusionと敵対学習を用いた音声強調の提案 • Wangyou Zhang, Robin Scheibler, et al. URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement ユニバーサルな音声強調の研究開発に向けたコンペティション • Yuma Shirahata, et al. Audio-conditioned phonemic and prosodic annotation for building text-to-speech models from unlabeled speech data 大規模な疑似ラベルを活用した高精度な音素・韻律アノテーション • Masaya Kawamura, et al.LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning PromptTTS実現に向けた話者スタイル・話者特徴プロンプトコーパス公開 • Hokuto Munakata, et al.Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework End-to-End歌唱者ダイアライゼーションのためNANSY++フレームワークによる楽曲データ • Yusuke Fujita, et al.Audio Fingerprinting with Holographic Reduced Representations 楽曲認識のための計算効率的な音響フィンガープリント • Yuki Saito, et al.SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark [東大猿渡研 共同研究]日本語母語話者100名によるスマートフォン収録音声のコーパス • Takuto Igarashi , et al. Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment [東大猿渡研 共同研究]録音の品質と環境を考慮したノイズロバストな音声変換の改善