≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊) ⾳響 モデル 発⾳ 辞書 ⾔語 モデル 𝑊:こんにちは → 𝑆: k o N n i ch i w a αϒϫʔυ ʢଟ͘ͷ߹Իૉʣ 𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋) ベイズ則による階層型アプローチ(昔からある⼿法) ニューラルネットによるEnd-to-Endアプローチ(2016年登場)
訳 ⾔葉のつながりやすさを 確率で表した統計モデル a 3% i 2% u 70% … 短く区切った⾳声から ⾳素を予測するDNNモデル こんにちは ⾳声認識 発⾳ 辞書 単語表記ごとの⾳素配列 を記した辞書 昭和 sh o: w a 平成 h e: s e: … … 複数のモデルを組み合わせて認識処理を実⾏
Language Model Rescoring on Competitive ASR systems,” Interspeech 2022 1. I won his 2. I one these 3. I want this … Nベスト仮説 リスコアリング "43 --. 1. I want this 2. I won his 3. I one these … LLM WER (%) なし 5.3 GPT-2 (unidirectional) 5.3 RoBERTa-large 5.1 RoBERTa-large fine-tuned 5.0 4XJUDICPBSEධՁηοτ CFTUϦείΞϦϯάͷޮՌ BiLMscore(I want this) = log P( I | [mask] want this ) + log P(want | I [mask] this ) + log P(this | I want [mask]) UniLMscore (I want this) = log P( I | <s>) + log P(want | <s> I) + log P(this | <s> I want)
Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022 l ⾳声認識 l ⾳素認識 l キーワード検出 l ⾳声検索語検出 l 話者識別 l 話者照合 l 話者ダイアライゼーション l 発話意図理解 l 発話スロットフィリング l 感情識別 l ⾳声翻訳 l ドメイン外⾳声認識 l ⾳声変換 l ⾳源分離 l ⾳声強調 44-ಛྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞ΕͨμϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ
Sound, and Talking Head,” Arxiv, 2023 タスク決定 LLMs (i.e., ChatGPT) l ⾳声認識、⾳声翻訳 l ⾳声スタイル変換、強調、分離 l ⾳声ステレオ変換、⾳声修復 l ⾳響イベント抽出 l ⾳声顔画像⽣成 l テキスト⾳声合成 l 画像⾳楽⽣成、楽譜歌唱⽣成 応答⽣成 ユーザ⼊⼒ (⾳声orテキスト +画像) ԻॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ରܕγεςϜ Generate an audio based on the picture. Received! Here is the audio file you requested: