LINE CLOVAの音声認識技術

⡋803,4.0#*-&+BQBO$PSQ LINE CLOVAの⾳声技術 ϫʔΫεϞόΠϧδϟύϯ ໦ా༞հ -*/& ౻ా༤հ

Yusuke Kida ワークスモバイルジャパン株式会社 CLOVA統括本部 AI技術開発チームマネージャー学⽣時代から⾳声技術に興味を持ち、東芝・ヤフーにて⾳声信号処理、⾳声認識の研究開発に幅広く携わる。 LINEで⾳声認識（Speech）チームのマネージャーを務めた後、2023年4⽉のAI事業承継に伴いワークスモ
バイルジャパンに転籍出向。同社のAI技術開発全般をリードしている。 ࣗݾ঺հ

Yusuke Fujita LINE株式会社 Data Scienceセンター AI Dev室 ASPチーム 2005年⽇⽴製作所に⼊所以来、⾳声合成・⾳声認識の研究開発に携わる。2018年から2020年、⽶Johns
Ho pkins⼤学の客員研究員として複数話者⾳声認識とダイアライゼーション技術を研究。2021年LINEに⼊社。S peechチームにてLINE AiCallやCLOVA Noteなど⽇本語⾳声認識の技術開発を牽引。2023年4⽉より、ASP チームにて⾳声・⾳楽情報処理の研究開発に携わる。 ࣗݾ঺հ

STRICTLY CONFIDENTIAL -*/&$-07"ʹ͍ͭͯ ˔ ˔ -*/&$-07"ͷԻ੠ٕज़ ˔ Ի੠ೝࣝʹ࢒Δ՝୊ ˔ "HFOEB
͜ͷ೥ͷԻ੠ೝٕࣝज़Λ෼ͰৼΓฦΔ

LINE CLOVAについて（⾳声領域を中⼼に）

STRICTLY CONFIDENTIAL LINEの持つAI技術をテクノロジーブランド「LINE CLOVA」として展開しています

ి࿩Ԡର"*αʔϏεʮ-*/&"J$BMMʯ -*/&"J$BMM͸ɺίϯλΫτηϯλʔ΍ళฮͷి࿩ͳͲɺి࿩ίϛϡχέʔ γϣϯͷσδλϧԽΛ࣮ݱ͢ΔιϦϡʔγϣϯͰ͢ɻ $-07" TQFFDI Ի੠ೝࣝ Ի੠߹੒ ࣗવݴޠॲཧ "* -*/&σʔληϯλʔʢ೔ຊʣ
-*/&"J$BMM $-07" 7PJDF Ի੠߹੒ Ի੠ೖྗ Ի੠ग़ྗ Ի੠ɾςΩετ ʢ҉߸Խʣ ൪߸౳ $3.ͳͲ ʲಋೖࡁΈاۀۀछʳ ෺ྲྀɺଛ֐อݥɺੜ໋อݥɺΫϨδοτΧʔυɺܞଳి࿩ɺిྗձࣾɺ์ૹɺՈిྔൢళɺ࣏ࣗମɺҿ৯ళɾɾͳͲ

"*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

ʮ(PPHMF1MBZϕετΦϒʯ ࣗݾվળ෦໳ ෦໳৆ड৆ʂʂ "*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

ࠃࡍֶձͰͷ࿦จ࠾୒࣮੷

ࣄۀঝܧʹ͍ͭͯ LINE AIカンパニーの事業がワークスモバイルジャパンに承継⾳声認識に関わるエンジニアはLINEから転籍出向

この10年の⾳声認識技術を 20分で振り返る

Ի੠ೝࣝͷ໰୊ઃఆ ͜Μʹͪ͸ 𝑋：⾳声 𝑊：テキスト 𝑊 = argmax # $ 𝑝(
* 𝑊|𝑋) ⾳声認識：Speech-to-Text

Ի੠ೝࣝͷ̎ͭͷղ๏ 𝑝(𝑊|𝑋) = 𝑝 𝑋 𝑊 𝑝 𝑊 𝑝 𝑋
≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊) ⾳響モデル発⾳辞書⾔語モデル 𝑊：こんにちは → 𝑆： k o N n i ch i w a αϒϫʔυ ʢଟ͘ͷ৔߹Իૉʣ 𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋) ベイズ則による階層型アプローチ（昔からある⼿法）ニューラルネットによるEnd-to-Endアプローチ（2016年登場）

%//)..)ZCSJEܕԻ੠ೝࣝ ⾳響モデル⾔語モデル先程予約したと要約
訳⾔葉のつながりやすさを確率で表した統計モデル a 3% i 2% u 70% … 短く区切った⾳声から⾳素を予測するDNNモデルこんにちは⾳声認識発⾳辞書単語表記ごとの⾳素配列を記した辞書昭和 sh o: w a 平成 h e: s e: … … 複数のモデルを組み合わせて認識処理を実⾏

&OEUP&OEԻ੠ೝࣝ CTC (Connectionist Temporal Classification) Transducer Attention-based Encoder-Decoder こんにちは E2E
モデル単⼀のNNモデルで⽂字列を直接出⼒

%//)..)ZCSJEܕԻ੠ೝࣝWT&OEUP&OEԻ੠ೝࣝ DNN-HMM Hybrid End-to-End 精度⾼い低い → ⾮常に⾼いストリーミング出⼒
可不可 → 可システムの複雑さ⼤規模⼩規模学習データ集めやすい集めにくい（ペアデータが⼤量に必要）カスタマイズ簡単難しい

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ① Pre-training ⾳声信号の⽳埋めタスク（Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1
𝑦! 𝑦" ⋯ 𝑦# ラベルを付けていないデータ (Dark Data) を活⽤して⾼い精度を実現できる点で画期的

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ポイント① たった10分の教師データでも⾼い精度を実現ポイント② 教師データが沢⼭ある場合も優位性がある wav2vec 2.0
[Baevski+2020] ポイント③ Pre-trainingに使うデータは増やせば増やすほど良い

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश • OpenAIが2022年9⽉に発表した⾳声認識モデル • モデルに新規性はない（Transformer） • Webから収集した約68万時間（約78年分︕）の教師付き⾳声データで学習 Whisper
[Radford+2012] 1. 莫⼤なコストがかかるアノテーションを⾏わず、質の低いラベルでも⼤量に集めることで良いモデルが作れる 2. データの規模が増えることで新たな価値を出せる Whisperが明らかにした２つの事実

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश Whisperが備えている機能 • タスクの切り替え（認識・翻訳） • 多⾔語⼊⼒＆⾔語⾃動判定 • プロンプティングによるドメイン適応
Whisper [Radford+2012] wav2vec 2.0との精度⽐較

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश ReazonSpeech [Yin+2023] • レアゾンホールディングスが2023年1⽉に発表した⽇本語⾳声コーパス（ESPnetでモデルも公開） • 約1.9万時間のワンセグ放送⾳声と字幕（教師ラベルに使⽤） •
Noisy labelを避けるためのデータ構築⼿順を確⽴ラベルアライメント・モデルを繰り返し更新繰り返すごとに精度改善

44-JTOPU%&"% • 少話者⾔語含む1,000の⾔語をカバーするモデルを開発するPJ • ⾔語数︓300以上、⾳声︓1200万時間、テキスト︓280億⽂ • 様々な⾔語資源をSSLのPre-trainingに含めることで、資源の多い⾔語が資源の少ない⾔語をカバー Google USM
(Universal Speech Model)

·ͱΊͱॴײ まとめ • DNN-HMM型⾳声認識とEnd-to-End⾳声認識 • 現在の２つのトレンド（SSL / Noisy Labelled Data）
所感 • （10年前から⾔われているが）⾳声認識の研究は⼤規模データがないとスタートラインにすら⽴てない。近年その傾向にさらに拍⾞がかかっている。 • だからと⾔ってプラットフォーマーでないと何もできないわけではない。 ReazonSpeechの例は、Webから収集したデータをうまく活⽤して対抗できることを⽰した。 • ⼀⽅で、⼤規模データが前提となった今では、もはやLibriSpeech/CSJのような⼩さな世界でSOTAを競うことの意味は消失しつつあり、新たなベンチマーク設定の必要性を感じる。

LINE CLOVAの⾳声技術

೔ຊޠͷձ࿩Λ΋Εͳ͘ೝࣝ͢ΔͨΊʹλΠϓͷํࣜΛಉ࣌ʹ։ൃ λΠϓԻ੠ϩάͰ&OEUP&OEԻ੠ೝࣝΛվળ͠ଓ͚Δ44-ํࣜ λΠϓॲཧͷߴ଎ੑΛॏࢹͭͭ͠ɺߴ͍ೝࣝਫ਼౓͕ಘΒΕΔ4FMGDPOEJUJPOFE$5$ํࣜ ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு ॲཧͷ ߴ଎ੑ ߴ͍ ೝࣝਫ਼౓ ΧελϚΠ
ζੑ

λΠϓ 44-ํࣜ 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH ① Pre-training ⾳声信号の⽳埋めタスク
（Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1 𝑦! 𝑦" ⋯ 𝑦#

λΠϓ 44-ํࣜ Baseline + Finetuning + Pretraining 認識誤りログデータ追加の効果 SSLを利⽤することで、書き起こしをしなくても精度が改善︕
書き起こし付き書き起こし無し 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ χϡʔϥϧωοτ ͜ Μ Μ ʹ ͪ ͸ ͸ ͜
Μ Μ ͪ ͸ ͸ ్தͰ΋༧ଌͯ͠ߟ͑௚͢ Self-conditioned CTC [Nozaki+ (LINE) 2021] $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ ͜ Ұ࣌ࠁຖʹ༧ଌ Attention Enc-Dec [Chorowski+2015] RNN-Transducer [Graves+2012] CTC [Graves+2006] ࠷ऴ૚ ࣍ͷதؒ૚ தؒ૚ શ࣌ࠁฒྻʹ༧ଌ

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ 市村他, “CTC⾳声認識モデルにおける中間層ロスと条件付けが与える影響の考察,” ⽇本⾳響学会2022年秋季研究発表会 $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ Method Decoding
#Cond. #Params CER(%) eval1 CER(%) eval2 CER(%) eval3 Throughput (utt/sec) Conformer CTC greedy - 120M 4.95 3.65 4.10 70.7 + 6gram LM beam search - 120M 4.70 3.51 3.92 16.3 Self-cond. CTC greedy 17 123M 4.06 2.97 3.43 60.6 + 6gram LM beam search 17 123M 3.93 2.96 3.37 13.4 ⽇本語話し⾔葉コーパスでの⽂字誤り率(CER)・速度評価

ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு 広島県初⽇市市アジナ台東市番2号 ↓ TTSで住所⾳声を追加広島県廿⽇市市阿品台東1番2号⽇本語で⽇常的に使われる固有名詞の数は膨⼤学習データのカバレッジを上げるには多⼤なコストがかかる⾳声合成で⽣成した⾳声を固有名詞の学習データとして利⽤
Normal Address 認識誤り TTSで住所⾳声を追加した効果 Baseline +TTS address ෭࡞༻ͳ͘ॅॴԻ੠ͷೝࣝਫ਼౓Λ޲্ʂ

残る課題

Ի੠ೝࣝ͸ղ͚ͨ໰୊͔ʁ ͜ΕҎ্ͷਫ਼౓޲্ʹՁ஋͕͋Δͷ͔ʁ

՝୊ ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε

ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ Ωʔϫʔυͷग़΍͢͞Λೝࣝ࣌ʹίϯτϩʔϧ 554Λ༻ֶ͍ͯशʹ௥Ճ͢Δͷ͸ɺଈԠੑ͕௿͍ ֶशͤͣʹಛఆΩʔϫʔυΛग़΍͘͢͢Δॲཧ Jung et al. (Naver), “Spell my
name: Keyword Boosted Speech Recognition,” ICASSP 2022 CAT, CAR, COATをキーワードとするプレフィクス⽊⼿法 CER (%) F1-score Boostなし 8.07 95.3 Boostあり 7.78 97.1 CLOVA Note (KR) における評価

Ωʔϫʔυநग़ॲཧͱԻ੠ೝࣝΛ౷߹͢Δ Ի੠ೝࣝͷֶशσʔλΛΩʔϫʔυܥྻͱඇΩʔϫʔυܥྻʹ෼ղ͠ɺ Ի੠ೝࣝͱΩʔϫʔυݕग़Λಉ࣌ʹֶश Multi- task _と_をください keyword non-keyword チキンカレー_
クリームソーダ_ Ito et al. (LINE), “Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences,” Interspeech 2023 (To appear) ⼿法カタカナ CER (%) 数字 CER(%) ASR +Filtering 10.77 4.87 Keyword single task N/A N/A Proposed Multi-task 9.95 4.18 Multi-task Fine-tuning 9.45 4.55 ⽇本語話し⾔葉コーパスにおけるキーワード誤り率(CER)評価

େن໛ݴޠϞσϧͱ࿈ܞ͢Δ Ի੠ೝ͕ࣝग़ྗͨ͠ෳ਺ͷԾઆΛେن໛ݴޠϞσϧͰϦείΞϦϯά͢Δ Udagawa et al., “Effect and Analysis of Large-scale
Language Model Rescoring on Competitive ASR systems,” Interspeech 2022 1. I won his 2. I one these 3. I want this … Nベスト仮説リスコアリング "43 --. 1. I want this 2. I won his 3. I one these … LLM WER (%) なし 5.3 GPT-2 (unidirectional) 5.3 RoBERTa-large 5.1 RoBERTa-large fine-tuned 5.0 4XJUDICPBSEධՁηοτ CFTUϦείΞϦϯάͷޮՌ BiLMscore(I want this) = log P( I | [mask] want this ) + log P(want | I [mask] this ) + log P(this | I want [mask]) UniLMscore (I want this) = log P( I | <s>) + log P(want | <s> I) + log P(this | <s> I want)

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ 8BWWFDΛݴޠಛ௃நग़ثͱͯ͠༻͍ɺݴޠ৘ใΛҡ࣋ͨ͠··ೖྗԻ੠ͷ੠࣭౳Λม׵ Choi et al., “NANCY++: Unified Voice
Synthesis with Neural Analysis and Synthesis,” ICLR 2023 8BWWFDΛಛ௃நग़ثͱͯ͠༻͍ɺൃ੠ͷҟৗΛݕ஌ Tirronen et al., “Utilizing Wav2Vec in Database-independent Voice Disorder Detection,” ICASSP 2023 CNN Transformer 1 2 24 … Wav2vec 2.0 feature Accuracy Spec 66.01 Mel-spec 70.41 Wav2vec output 76.91 Wav2vec CNN-out 83.11 HUPA dataset SVM

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ Tsai et al., “SUPERB-SG: Enhanced Speech Processing
Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022 l ⾳声認識 l ⾳素認識 l キーワード検出 l ⾳声検索語検出 l 話者識別 l 話者照合 l 話者ダイアライゼーション l 発話意図理解 l 発話スロットフィリング l 感情識別 l ⾳声翻訳 l ドメイン外⾳声認識 l ⾳声変換 l ⾳源分離 l ⾳声強調 44-ಛ௃ྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞Εͨμ΢ϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ

ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε Huang et al., “AudioGPT: Understanding and Generating Speech, Music,
Sound, and Talking Head,” Arxiv, 2023 タスク決定 LLMs (i.e., ChatGPT) l ⾳声認識、⾳声翻訳 l ⾳声スタイル変換、強調、分離 l ⾳声ステレオ変換、⾳声修復 l ⾳響イベント抽出 l ⾳声顔画像⽣成 l テキスト⾳声合成 l 画像⾳楽⽣成、楽譜歌唱⽣成応答⽣成ユーザ⼊⼒（⾳声orテキスト +画像) Ի੠ॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ର࿩ܕγεςϜ Generate an audio based on the picture. Received! Here is the audio file you requested:

·ͱΊ 44-ϕʔεͱ4FMGDPOEJUJPOFE$5$ϕʔεͷ͔ͭΒͳΔ-*/&$-07"ͷԻ੠ೝٕࣝज़Λ঺հ ΧελϚΠζ΍ݴޠॲཧͱͷ࿈ܞʹର͢Δ-*/&ͷݚڀ੒ՌΛ঺հ 44-ʹجͮ͘Ի੠ೝࣝΛ௒͑ͨԠ༻ʹؔ͢Δݚڀಈ޲Λ঺հ

LINE CLOVAの音声認識技術

LINE CLOVAの音声認識技術

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript