Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

LINE CLOVAの音声認識技術

LINE CLOVAの音声認識技術

木田祐介(ワークスモバイルジャパン), 藤田雄介(LINE)
音学シンポジウム 2023 (第137回MUS・第147回SLP合同研究発表会)での発表資料です
https://www.ipsj.or.jp/kenkyukai/event/mus137slp147.html

LINE Developers

June 23, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Yusuke Fujita LINE株式会社 Data Scienceセンター AI Dev室 ASPチーム 2005年⽇⽴製作所に⼊所以来、⾳声合成・⾳声認識の 研究開発に携わる。2018年から2020年、⽶Johns

    Ho pkins⼤学の客員研究員として複数話者⾳声認識とダイ アライゼーション技術を研究。2021年LINEに⼊社。S peechチームにてLINE AiCallやCLOVA Noteなど⽇本 語⾳声認識の技術開発を牽引。2023年4⽉より、ASP チームにて⾳声・⾳楽情報処理の研究開発に携わる。 ࣗݾ঺հ
  2. ి࿩Ԡର"*αʔϏεʮ-*/&"J$BMMʯ -*/&"J$BMM͸ɺίϯλΫτηϯλʔ΍ళฮͷి࿩ͳͲɺి࿩ίϛϡχέʔ γϣϯͷσδλϧԽΛ࣮ݱ͢ΔιϦϡʔγϣϯͰ͢ɻ $-07" TQFFDI Ի੠ೝࣝ Ի੠߹੒ ࣗવݴޠॲཧ "* -*/&σʔληϯλʔʢ೔ຊʣ

    -*/&"J$BMM $-07" 7PJDF Ի੠߹੒ Ի੠ೖྗ Ի੠ग़ྗ Ի੠ɾςΩετ ʢ҉߸Խʣ ൪߸౳ $3.ͳͲ ʲಋೖࡁΈاۀۀछʳ ෺ྲྀɺଛ֐อݥɺੜ໋อݥɺΫϨδοτΧʔυɺܞଳి࿩ɺిྗձࣾɺ์ૹɺՈిྔൢళɺ࣏ࣗମɺҿ৯ళɾɾͳͲ
  3. Ի੠ೝࣝͷ̎ͭͷղ๏ 𝑝(𝑊|𝑋) = 𝑝 𝑋 𝑊 𝑝 𝑊 𝑝 𝑋

    ≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊) ⾳響 モデル 発⾳ 辞書 ⾔語 モデル 𝑊:こんにちは → 𝑆: k o N n i ch i w a αϒϫʔυ ʢଟ͘ͷ৔߹Իૉʣ 𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋) ベイズ則による階層型アプローチ(昔からある⼿法) ニューラルネットによるEnd-to-Endアプローチ(2016年登場)
  4. %//)..)ZCSJEܕԻ੠ೝࣝ ⾳響 モデル ⾔語 モデル 先程 予約 した と 要約

    訳 ⾔葉のつながりやすさを 確率で表した統計モデル a 3% i 2% u 70% … 短く区切った⾳声から ⾳素を予測するDNNモデル こんにちは ⾳声認識 発⾳ 辞書 単語表記ごとの⾳素配列 を記した辞書 昭和 sh o: w a 平成 h e: s e: … … 複数のモデルを組み合わせて認識処理を実⾏
  5. %//)..)ZCSJEܕԻ੠ೝࣝWT&OEUP&OEԻ੠ೝࣝ DNN-HMM Hybrid End-to-End 精度 ⾼い 低い → ⾮常に⾼い ストリーミング出⼒

    可 不可 → 可 システムの複雑さ ⼤規模 ⼩規模 学習データ 集めやすい 集めにくい (ペアデータが⼤量に必要) カスタマイズ 簡単 難しい
  6. &OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ① Pre-training ⾳声信号の⽳埋めタスク (Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1

    𝑦! 𝑦" ⋯ 𝑦# ラベルを付けていないデータ (Dark Data) を活⽤して ⾼い精度を実現できる点で画期的
  7. &OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश • OpenAIが2022年9⽉に発表した⾳声認識モデル • モデルに新規性はない(Transformer) • Webから収集した約68万時間(約78年分︕)の 教師付き⾳声データで学習 Whisper

    [Radford+2012] 1. 莫⼤なコストがかかるアノテーションを⾏わず、 質の低いラベルでも⼤量に集めることで良いモデルが作れる 2. データの規模が増えることで新たな価値を出せる Whisperが明らかにした2つの事実
  8. ·ͱΊͱॴײ まとめ • DNN-HMM型⾳声認識とEnd-to-End⾳声認識 • 現在の2つのトレンド(SSL / Noisy Labelled Data)

    所感 • (10年前から⾔われているが)⾳声認識の研究は⼤規模データがないと スタートラインにすら⽴てない。近年その傾向にさらに拍⾞がかかっている。 • だからと⾔ってプラットフォーマーでないと何もできないわけではない。 ReazonSpeechの例は、Webから収集したデータをうまく活⽤して対抗できる ことを⽰した。 • ⼀⽅で、⼤規模データが前提となった今では、もはやLibriSpeech/CSJのよう な⼩さな世界でSOTAを競うことの意味は消失しつつあり、新たなベンチマーク設 定の必要性を感じる。
  9. λΠϓ 44-ํࣜ Baseline + Finetuning + Pretraining 認識誤り ログデータ追加の効果 SSLを利⽤することで、書き起こしをしなくても精度が改善︕

    書き起こし 付き 書き起こし 無し 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH
  10. λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ χϡʔϥϧωοτ ͜ Μ Μ ʹ ͪ ͸ ͸ ͜

    Μ Μ ͪ ͸ ͸ ్தͰ΋༧ଌͯ͠ߟ͑௚͢ Self-conditioned CTC [Nozaki+ (LINE) 2021] $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ ͜ Ұ࣌ࠁຖʹ༧ଌ Attention Enc-Dec [Chorowski+2015] RNN-Transducer [Graves+2012] CTC [Graves+2006] ࠷ऴ૚ ࣍ͷதؒ૚ தؒ૚ શ࣌ࠁฒྻʹ༧ଌ
  11. λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ 市村他, “CTC⾳声認識モデルにおける中間層ロスと条件付けが与える影響の考察,” ⽇本⾳響学会2022年秋季研究発表会 $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ Method Decoding

    #Cond. #Params CER(%) eval1 CER(%) eval2 CER(%) eval3 Throughput (utt/sec) Conformer CTC greedy - 120M 4.95 3.65 4.10 70.7 + 6gram LM beam search - 120M 4.70 3.51 3.92 16.3 Self-cond. CTC greedy 17 123M 4.06 2.97 3.43 60.6 + 6gram LM beam search 17 123M 3.93 2.96 3.37 13.4 ⽇本語話し⾔葉コーパスでの⽂字誤り率(CER)・速度評価
  12. ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ Ωʔϫʔυͷग़΍͢͞Λೝࣝ࣌ʹίϯτϩʔϧ 554Λ༻ֶ͍ͯशʹ௥Ճ͢Δͷ͸ɺଈԠੑ͕௿͍ ֶशͤͣʹಛఆΩʔϫʔυΛग़΍͘͢͢Δॲཧ Jung et al. (Naver), “Spell my

    name: Keyword Boosted Speech Recognition,” ICASSP 2022 CAT, CAR, COATをキーワードとするプレフィクス⽊ ⼿法 CER (%) F1-score Boostなし 8.07 95.3 Boostあり 7.78 97.1 CLOVA Note (KR) における評価
  13. Ωʔϫʔυநग़ॲཧͱԻ੠ೝࣝΛ౷߹͢Δ Ի੠ೝࣝͷֶशσʔλΛΩʔϫʔυܥྻͱඇΩʔϫʔυܥྻʹ෼ղ͠ɺ Ի੠ೝࣝͱΩʔϫʔυݕग़Λಉ࣌ʹֶश Multi- task _と_を ください keyword non-keyword チキンカレー_

    クリームソーダ_ Ito et al. (LINE), “Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences,” Interspeech 2023 (To appear) ⼿法 カタカナ CER (%) 数字 CER(%) ASR +Filtering 10.77 4.87 Keyword single task N/A N/A Proposed Multi-task 9.95 4.18 Multi-task Fine-tuning 9.45 4.55 ⽇本語話し⾔葉コーパスにおける キーワード誤り率(CER)評価
  14. େن໛ݴޠϞσϧͱ࿈ܞ͢Δ Ի੠ೝ͕ࣝग़ྗͨ͠ෳ਺ͷԾઆΛେن໛ݴޠϞσϧͰϦείΞϦϯά͢Δ Udagawa et al., “Effect and Analysis of Large-scale

    Language Model Rescoring on Competitive ASR systems,” Interspeech 2022 1. I won his 2. I one these 3. I want this … Nベスト仮説 リスコアリング "43 --. 1. I want this 2. I won his 3. I one these … LLM WER (%) なし 5.3 GPT-2 (unidirectional) 5.3 RoBERTa-large 5.1 RoBERTa-large fine-tuned 5.0 4XJUDICPBSEධՁηοτ CFTUϦείΞϦϯάͷޮՌ BiLMscore(I want this) = log P( I | [mask] want this ) + log P(want | I [mask] this ) + log P(this | I want [mask]) UniLMscore (I want this) = log P( I | <s>) + log P(want | <s> I) + log P(this | <s> I want)
  15. ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ 8BWWFDΛݴޠಛ௃நग़ثͱͯ͠༻͍ɺݴޠ৘ใΛҡ࣋ͨ͠··ೖྗԻ੠ͷ੠࣭౳Λม׵ Choi et al., “NANCY++: Unified Voice

    Synthesis with Neural Analysis and Synthesis,” ICLR 2023 8BWWFDΛಛ௃நग़ثͱͯ͠༻͍ɺൃ੠ͷҟৗΛݕ஌ Tirronen et al., “Utilizing Wav2Vec in Database-independent Voice Disorder Detection,” ICASSP 2023 CNN Transformer 1 2 24 … Wav2vec 2.0 feature Accuracy Spec 66.01 Mel-spec 70.41 Wav2vec output 76.91 Wav2vec CNN-out 83.11 HUPA dataset SVM
  16. ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ Tsai et al., “SUPERB-SG: Enhanced Speech Processing

    Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022 l ⾳声認識 l ⾳素認識 l キーワード検出 l ⾳声検索語検出 l 話者識別 l 話者照合 l 話者ダイアライゼーション l 発話意図理解 l 発話スロットフィリング l 感情識別 l ⾳声翻訳 l ドメイン外⾳声認識 l ⾳声変換 l ⾳源分離 l ⾳声強調 44-ಛ௃ྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞Εͨμ΢ϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ
  17. ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε Huang et al., “AudioGPT: Understanding and Generating Speech, Music,

    Sound, and Talking Head,” Arxiv, 2023 タスク決定 LLMs (i.e., ChatGPT) l ⾳声認識、⾳声翻訳 l ⾳声スタイル変換、強調、分離 l ⾳声ステレオ変換、⾳声修復 l ⾳響イベント抽出 l ⾳声顔画像⽣成 l テキスト⾳声合成 l 画像⾳楽⽣成、楽譜歌唱⽣成 応答⽣成 ユーザ⼊⼒ (⾳声orテキスト +画像) Ի੠ॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ର࿩ܕγεςϜ Generate an audio based on the picture. Received! Here is the audio file you requested: