LINE CLOVAの音声認識技術

Slide 1

Slide 1 text

⡋803,4.0#*-&+BQBO$PSQ LINE CLOVAの⾳声技術 ϫʔΫεϞόΠϧδϟύϯ ໦ా༞հ -*/& ౻ా༤հ

Slide 2

Slide 2 text

Yusuke Kida ワークスモバイルジャパン株式会社 CLOVA統括本部 AI技術開発チームマネージャー学⽣時代から⾳声技術に興味を持ち、東芝・ヤフーにて⾳声信号処理、⾳声認識の研究開発に幅広く携わる。 LINEで⾳声認識（Speech）チームのマネージャーを務めた後、2023年4⽉のAI事業承継に伴いワークスモバイルジャパンに転籍出向。同社のAI技術開発全般をリードしている。 ࣗݾ঺հ

Slide 3

Slide 3 text

Yusuke Fujita LINE株式会社 Data Scienceセンター AI Dev室 ASPチーム 2005年⽇⽴製作所に⼊所以来、⾳声合成・⾳声認識の研究開発に携わる。2018年から2020年、⽶Johns Ho pkins⼤学の客員研究員として複数話者⾳声認識とダイアライゼーション技術を研究。2021年LINEに⼊社。S peechチームにてLINE AiCallやCLOVA Noteなど⽇本語⾳声認識の技術開発を牽引。2023年4⽉より、ASP チームにて⾳声・⾳楽情報処理の研究開発に携わる。 ࣗݾ঺հ

Slide 4

Slide 4 text

STRICTLY CONFIDENTIAL -*/&$-07"ʹ͍ͭͯ ˔ ˔ -*/&$-07"ͷԻ੠ٕज़ ˔ Ի੠ೝࣝʹ࢒Δ՝୊ ˔ "HFOEB ͜ͷ೥ͷԻ੠ೝٕࣝज़Λ෼ͰৼΓฦΔ

Slide 5

Slide 5 text

LINE CLOVAについて（⾳声領域を中⼼に）

Slide 6

Slide 6 text

STRICTLY CONFIDENTIAL LINEの持つAI技術をテクノロジーブランド「LINE CLOVA」として展開しています

Slide 7

Slide 7 text

ి࿩Ԡର"*αʔϏεʮ-*/&"J$BMMʯ -*/&"J$BMM͸ɺίϯλΫτηϯλʔ΍ళฮͷి࿩ͳͲɺి࿩ίϛϡχέʔ γϣϯͷσδλϧԽΛ࣮ݱ͢ΔιϦϡʔγϣϯͰ͢ɻ $-07" TQFFDI Ի੠ೝࣝ Ի੠߹੒ ࣗવݴޠॲཧ "* -*/&σʔληϯλʔʢ೔ຊʣ -*/&"J$BMM $-07" 7PJDF Ի੠߹੒ Ի੠ೖྗ Ի੠ग़ྗ Ի੠ɾςΩετ ʢ҉߸Խʣ ൪߸౳ $3.ͳͲ ʲಋೖࡁΈاۀۀछʳ ෺ྲྀɺଛ֐อݥɺੜ໋อݥɺΫϨδοτΧʔυɺܞଳి࿩ɺిྗձࣾɺ์ૹɺՈిྔൢళɺ࣏ࣗମɺҿ৯ళɾɾͳͲ

Slide 8

Slide 8 text

"*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

Slide 9

Slide 9 text

ʮ(PPHMF1MBZϕετΦϒʯ ࣗݾվળ෦໳ ෦໳৆ड৆ʂʂ "*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

Slide 10

Slide 10 text

ࠃࡍֶձͰͷ࿦จ࠾୒࣮੷

Slide 11

Slide 11 text

ࣄۀঝܧʹ͍ͭͯ LINE AIカンパニーの事業がワークスモバイルジャパンに承継⾳声認識に関わるエンジニアはLINEから転籍出向

Slide 12

Slide 12 text

ө૾

Slide 13

Slide 13 text

この10年の⾳声認識技術を 20分で振り返る

Slide 14

Slide 14 text

Ի੠ೝࣝͷ໰୊ઃఆ ͜Μʹͪ͸ 𝑋：⾳声 𝑊：テキスト 𝑊 = argmax # $ 𝑝( * 𝑊|𝑋) ⾳声認識：Speech-to-Text

Slide 15

Slide 15 text

Ի੠ೝࣝͷ̎ͭͷղ๏ 𝑝(𝑊|𝑋) = 𝑝 𝑋 𝑊 𝑝 𝑊 𝑝 𝑋 ≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊) ⾳響モデル発⾳辞書⾔語モデル 𝑊：こんにちは → 𝑆： k o N n i ch i w a αϒϫʔυ ʢଟ͘ͷ৔߹Իૉʣ 𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋) ベイズ則による階層型アプローチ（昔からある⼿法）ニューラルネットによるEnd-to-Endアプローチ（2016年登場）

Slide 16

Slide 16 text

%//)..)ZCSJEܕԻ੠ೝࣝ ⾳響モデル⾔語モデル先程予約したと要約訳⾔葉のつながりやすさを確率で表した統計モデル a 3% i 2% u 70% … 短く区切った⾳声から⾳素を予測するDNNモデルこんにちは⾳声認識発⾳辞書単語表記ごとの⾳素配列を記した辞書昭和 sh o: w a 平成 h e: s e: … … 複数のモデルを組み合わせて認識処理を実⾏

Slide 17

Slide 17 text

&OEUP&OEԻ੠ೝࣝ CTC (Connectionist Temporal Classification) Transducer Attention-based Encoder-Decoder こんにちは E2E モデル単⼀のNNモデルで⽂字列を直接出⼒

Slide 18

Slide 18 text

%//)..)ZCSJEܕԻ੠ೝࣝWT&OEUP&OEԻ੠ೝࣝ DNN-HMM Hybrid End-to-End 精度⾼い低い → ⾮常に⾼いストリーミング出⼒可不可 → 可システムの複雑さ⼤規模⼩規模学習データ集めやすい集めにくい（ペアデータが⼤量に必要）カスタマイズ簡単難しい

Slide 19

Slide 19 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ① Pre-training ⾳声信号の⽳埋めタスク（Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1 𝑦! 𝑦" ⋯ 𝑦# ラベルを付けていないデータ (Dark Data) を活⽤して⾼い精度を実現できる点で画期的

Slide 20

Slide 20 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ポイント① たった10分の教師データでも⾼い精度を実現ポイント② 教師データが沢⼭ある場合も優位性がある wav2vec 2.0 [Baevski+2020] ポイント③ Pre-trainingに使うデータは増やせば増やすほど良い

Slide 21

Slide 21 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश • OpenAIが2022年9⽉に発表した⾳声認識モデル • モデルに新規性はない（Transformer） • Webから収集した約68万時間（約78年分︕）の教師付き⾳声データで学習 Whisper [Radford+2012] 1. 莫⼤なコストがかかるアノテーションを⾏わず、質の低いラベルでも⼤量に集めることで良いモデルが作れる 2. データの規模が増えることで新たな価値を出せる Whisperが明らかにした２つの事実

Slide 22

Slide 22 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश Whisperが備えている機能 • タスクの切り替え（認識・翻訳） • 多⾔語⼊⼒＆⾔語⾃動判定 • プロンプティングによるドメイン適応 Whisper [Radford+2012] wav2vec 2.0との精度⽐較

Slide 23

Slide 23 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश ReazonSpeech [Yin+2023] • レアゾンホールディングスが2023年1⽉に発表した⽇本語⾳声コーパス（ESPnetでモデルも公開） • 約1.9万時間のワンセグ放送⾳声と字幕（教師ラベルに使⽤） • Noisy labelを避けるためのデータ構築⼿順を確⽴ラベルアライメント・モデルを繰り返し更新繰り返すごとに精度改善

Slide 24

Slide 24 text

44-JTOPU%&"% • 少話者⾔語含む1,000の⾔語をカバーするモデルを開発するPJ • ⾔語数︓300以上、⾳声︓1200万時間、テキスト︓280億⽂ • 様々な⾔語資源をSSLのPre-trainingに含めることで、資源の多い⾔語が資源の少ない⾔語をカバー Google USM (Universal Speech Model)

Slide 25

Slide 25 text

·ͱΊͱॴײ まとめ • DNN-HMM型⾳声認識とEnd-to-End⾳声認識 • 現在の２つのトレンド（SSL / Noisy Labelled Data）所感 • （10年前から⾔われているが）⾳声認識の研究は⼤規模データがないとスタートラインにすら⽴てない。近年その傾向にさらに拍⾞がかかっている。 • だからと⾔ってプラットフォーマーでないと何もできないわけではない。 ReazonSpeechの例は、Webから収集したデータをうまく活⽤して対抗できることを⽰した。 • ⼀⽅で、⼤規模データが前提となった今では、もはやLibriSpeech/CSJのような⼩さな世界でSOTAを競うことの意味は消失しつつあり、新たなベンチマーク設定の必要性を感じる。

Slide 26

Slide 26 text

LINE CLOVAの⾳声技術

Slide 27

Slide 27 text

೔ຊޠͷձ࿩Λ΋Εͳ͘ೝࣝ͢ΔͨΊʹλΠϓͷํࣜΛಉ࣌ʹ։ൃ λΠϓԻ੠ϩάͰ&OEUP&OEԻ੠ೝࣝΛվળ͠ଓ͚Δ44-ํࣜ λΠϓॲཧͷߴ଎ੑΛॏࢹͭͭ͠ɺߴ͍ೝࣝਫ਼౓͕ಘΒΕΔ4FMGDPOEJUJPOFE$5$ํࣜ ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு ॲཧͷ ߴ଎ੑ ߴ͍ ೝࣝਫ਼౓ ΧελϚΠ ζੑ

Slide 28

Slide 28 text

λΠϓ 44-ํࣜ 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH ① Pre-training ⾳声信号の⽳埋めタスク（Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1 𝑦! 𝑦" ⋯ 𝑦#

Slide 29

Slide 29 text

λΠϓ 44-ํࣜ Baseline + Finetuning + Pretraining 認識誤りログデータ追加の効果 SSLを利⽤することで、書き起こしをしなくても精度が改善︕ 書き起こし付き書き起こし無し 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH

Slide 30

Slide 30 text

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ χϡʔϥϧωοτ ͜ Μ Μ ʹ ͪ ͸ ͸ ͜ Μ Μ ͪ ͸ ͸ ్தͰ΋༧ଌͯ͠ߟ͑௚͢ Self-conditioned CTC [Nozaki+ (LINE) 2021] $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ ͜ Ұ࣌ࠁຖʹ༧ଌ Attention Enc-Dec [Chorowski+2015] RNN-Transducer [Graves+2012] CTC [Graves+2006] ࠷ऴ૚ ࣍ͷதؒ૚ தؒ૚ શ࣌ࠁฒྻʹ༧ଌ

Slide 31

Slide 31 text

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ 市村他, “CTC⾳声認識モデルにおける中間層ロスと条件付けが与える影響の考察,” ⽇本⾳響学会2022年秋季研究発表会 $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ Method Decoding #Cond. #Params CER(%) eval1 CER(%) eval2 CER(%) eval3 Throughput (utt/sec) Conformer CTC greedy - 120M 4.95 3.65 4.10 70.7 + 6gram LM beam search - 120M 4.70 3.51 3.92 16.3 Self-cond. CTC greedy 17 123M 4.06 2.97 3.43 60.6 + 6gram LM beam search 17 123M 3.93 2.96 3.37 13.4 ⽇本語話し⾔葉コーパスでの⽂字誤り率(CER)・速度評価

Slide 32

Slide 32 text

ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு 広島県初⽇市市アジナ台東市番2号 ↓ TTSで住所⾳声を追加広島県廿⽇市市阿品台東1番2号⽇本語で⽇常的に使われる固有名詞の数は膨⼤学習データのカバレッジを上げるには多⼤なコストがかかる⾳声合成で⽣成した⾳声を固有名詞の学習データとして利⽤ Normal Address 認識誤り TTSで住所⾳声を追加した効果 Baseline +TTS address ෭࡞༻ͳ͘ॅॴԻ੠ͷೝࣝਫ਼౓Λ޲্ʂ

Slide 33

Slide 33 text

残る課題

Slide 34

Slide 34 text

Ի੠ೝࣝ͸ղ͚ͨ໰୊͔ʁ ͜ΕҎ্ͷਫ਼౓޲্ʹՁ஋͕͋Δͷ͔ʁ

Slide 35

Slide 35 text

՝୊ ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε

Slide 36

Slide 36 text

ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ Ωʔϫʔυͷग़΍͢͞Λೝࣝ࣌ʹίϯτϩʔϧ 554Λ༻ֶ͍ͯशʹ௥Ճ͢Δͷ͸ɺଈԠੑ͕௿͍ ֶशͤͣʹಛఆΩʔϫʔυΛग़΍͘͢͢Δॲཧ Jung et al. (Naver), “Spell my name: Keyword Boosted Speech Recognition,” ICASSP 2022 CAT, CAR, COATをキーワードとするプレフィクス⽊⼿法 CER (%) F1-score Boostなし 8.07 95.3 Boostあり 7.78 97.1 CLOVA Note (KR) における評価

Slide 37

Slide 37 text

Ωʔϫʔυநग़ॲཧͱԻ੠ೝࣝΛ౷߹͢Δ Ի੠ೝࣝͷֶशσʔλΛΩʔϫʔυܥྻͱඇΩʔϫʔυܥྻʹ෼ղ͠ɺ Ի੠ೝࣝͱΩʔϫʔυݕग़Λಉ࣌ʹֶश Multi- task _と_をください keyword non-keyword チキンカレー_ クリームソーダ_ Ito et al. (LINE), “Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences,” Interspeech 2023 (To appear) ⼿法カタカナ CER (%) 数字 CER(%) ASR +Filtering 10.77 4.87 Keyword single task N/A N/A Proposed Multi-task 9.95 4.18 Multi-task Fine-tuning 9.45 4.55 ⽇本語話し⾔葉コーパスにおけるキーワード誤り率(CER)評価

Slide 38

Slide 38 text

େن໛ݴޠϞσϧͱ࿈ܞ͢Δ Ի੠ೝ͕ࣝग़ྗͨ͠ෳ਺ͷԾઆΛେن໛ݴޠϞσϧͰϦείΞϦϯά͢Δ Udagawa et al., “Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR systems,” Interspeech 2022 1. I won his 2. I one these 3. I want this … Nベスト仮説リスコアリング "43 --. 1. I want this 2. I won his 3. I one these … LLM WER (%) なし 5.3 GPT-2 (unidirectional) 5.3 RoBERTa-large 5.1 RoBERTa-large fine-tuned 5.0 4XJUDICPBSEධՁηοτ CFTUϦείΞϦϯάͷޮՌ BiLMscore(I want this) = log P( I | [mask] want this ) + log P(want | I [mask] this ) + log P(this | I want [mask]) UniLMscore (I want this) = log P( I | ) + log P(want | I) + log P(this | I want)

Slide 39

Slide 39 text

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ 8BWWFDΛݴޠಛ௃நग़ثͱͯ͠༻͍ɺݴޠ৘ใΛҡ࣋ͨ͠··ೖྗԻ੠ͷ੠࣭౳Λม׵ Choi et al., “NANCY++: Unified Voice Synthesis with Neural Analysis and Synthesis,” ICLR 2023 8BWWFDΛಛ௃நग़ثͱͯ͠༻͍ɺൃ੠ͷҟৗΛݕ஌ Tirronen et al., “Utilizing Wav2Vec in Database-independent Voice Disorder Detection,” ICASSP 2023 CNN Transformer 1 2 24 … Wav2vec 2.0 feature Accuracy Spec 66.01 Mel-spec 70.41 Wav2vec output 76.91 Wav2vec CNN-out 83.11 HUPA dataset SVM

Slide 40

Slide 40 text

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ Tsai et al., “SUPERB-SG: Enhanced Speech Processing Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022 l ⾳声認識 l ⾳素認識 l キーワード検出 l ⾳声検索語検出 l 話者識別 l 話者照合 l 話者ダイアライゼーション l 発話意図理解 l 発話スロットフィリング l 感情識別 l ⾳声翻訳 l ドメイン外⾳声認識 l ⾳声変換 l ⾳源分離 l ⾳声強調 44-ಛ௃ྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞Εͨμ΢ϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ

Slide 41

Slide 41 text

ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε Huang et al., “AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head,” Arxiv, 2023 タスク決定 LLMs (i.e., ChatGPT) l ⾳声認識、⾳声翻訳 l ⾳声スタイル変換、強調、分離 l ⾳声ステレオ変換、⾳声修復 l ⾳響イベント抽出 l ⾳声顔画像⽣成 l テキスト⾳声合成 l 画像⾳楽⽣成、楽譜歌唱⽣成応答⽣成ユーザ⼊⼒（⾳声orテキスト +画像) Ի੠ॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ର࿩ܕγεςϜ Generate an audio based on the picture. Received! Here is the audio file you requested:

Slide 42

Slide 42 text

·ͱΊ 44-ϕʔεͱ4FMGDPOEJUJPOFE$5$ϕʔεͷ͔ͭΒͳΔ-*/&$-07"ͷԻ੠ೝٕࣝज़Λ঺հ ΧελϚΠζ΍ݴޠॲཧͱͷ࿈ܞʹର͢Δ-*/&ͷݚڀ੒ՌΛ঺հ 44-ʹجͮ͘Ի੠ೝࣝΛ௒͑ͨԠ༻ʹؔ͢Δݚڀಈ޲Λ঺հ