Slide 1

Slide 1 text

⡋803,4.0#*-&+BQBO$PSQ LINE CLOVAの⾳声技術 ϫʔΫεϞόΠϧδϟύϯ ໦ా༞հ -*/& ౻ా༤հ

Slide 2

Slide 2 text

Yusuke Kida ワークスモバイルジャパン株式会社 CLOVA統括本部 AI技術開発チーム マネージャー 学⽣時代から⾳声技術に興味を持ち、東芝・ヤフーにて ⾳声信号処理、⾳声認識の研究開発に幅広く携わる。 LINEで⾳声認識(Speech)チームのマネージャーを 務めた後、2023年4⽉のAI事業承継に伴いワークスモ バイルジャパンに転籍出向。同社のAI技術開発全般を リードしている。 ࣗݾ঺հ

Slide 3

Slide 3 text

Yusuke Fujita LINE株式会社 Data Scienceセンター AI Dev室 ASPチーム 2005年⽇⽴製作所に⼊所以来、⾳声合成・⾳声認識の 研究開発に携わる。2018年から2020年、⽶Johns Ho pkins⼤学の客員研究員として複数話者⾳声認識とダイ アライゼーション技術を研究。2021年LINEに⼊社。S peechチームにてLINE AiCallやCLOVA Noteなど⽇本 語⾳声認識の技術開発を牽引。2023年4⽉より、ASP チームにて⾳声・⾳楽情報処理の研究開発に携わる。 ࣗݾ঺հ

Slide 4

Slide 4 text

STRICTLY CONFIDENTIAL -*/&$-07"ʹ͍ͭͯ ˔ ˔ -*/&$-07"ͷԻ੠ٕज़ ˔ Ի੠ೝࣝʹ࢒Δ՝୊ ˔ "HFOEB ͜ͷ೥ͷԻ੠ೝٕࣝज़Λ෼ͰৼΓฦΔ

Slide 5

Slide 5 text

LINE CLOVAについて (⾳声領域を中⼼に)

Slide 6

Slide 6 text

STRICTLY CONFIDENTIAL LINEの持つAI技術をテクノロジーブランド 「LINE CLOVA」として展開しています

Slide 7

Slide 7 text

ి࿩Ԡର"*αʔϏεʮ-*/&"J$BMMʯ -*/&"J$BMM͸ɺίϯλΫτηϯλʔ΍ళฮͷి࿩ͳͲɺి࿩ίϛϡχέʔ γϣϯͷσδλϧԽΛ࣮ݱ͢ΔιϦϡʔγϣϯͰ͢ɻ $-07" TQFFDI Ի੠ೝࣝ Ի੠߹੒ ࣗવݴޠॲཧ "* -*/&σʔληϯλʔʢ೔ຊʣ -*/&"J$BMM $-07" 7PJDF Ի੠߹੒ Ի੠ೖྗ Ի੠ग़ྗ Ի੠ɾςΩετ ʢ҉߸Խʣ ൪߸౳ $3.ͳͲ ʲಋೖࡁΈاۀۀछʳ ෺ྲྀɺଛ֐อݥɺੜ໋อݥɺΫϨδοτΧʔυɺܞଳి࿩ɺిྗձࣾɺ์ૹɺՈిྔൢళɺ࣏ࣗମɺҿ৯ళɾɾͳͲ

Slide 8

Slide 8 text

"*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

Slide 9

Slide 9 text

ʮ(PPHMF1MBZϕετΦϒʯ ࣗݾվળ෦໳ ෦໳৆ड৆ʂʂ "*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

Slide 10

Slide 10 text

ࠃࡍֶձͰͷ࿦จ࠾୒࣮੷

Slide 11

Slide 11 text

ࣄۀঝܧʹ͍ͭͯ LINE AIカンパニーの事業がワークスモバイルジャパンに承継 ⾳声認識に関わるエンジニアはLINEから転籍出向

Slide 12

Slide 12 text

ө૾

Slide 13

Slide 13 text

この10年の⾳声認識技術を 20分で振り返る

Slide 14

Slide 14 text

Ի੠ೝࣝͷ໰୊ઃఆ ͜Μʹͪ͸ 𝑋:⾳声 𝑊:テキスト 𝑊 = argmax # $ 𝑝( * 𝑊|𝑋) ⾳声認識:Speech-to-Text

Slide 15

Slide 15 text

Ի੠ೝࣝͷ̎ͭͷղ๏ 𝑝(𝑊|𝑋) = 𝑝 𝑋 𝑊 𝑝 𝑊 𝑝 𝑋 ≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊) ⾳響 モデル 発⾳ 辞書 ⾔語 モデル 𝑊:こんにちは → 𝑆: k o N n i ch i w a αϒϫʔυ ʢଟ͘ͷ৔߹Իૉʣ 𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋) ベイズ則による階層型アプローチ(昔からある⼿法) ニューラルネットによるEnd-to-Endアプローチ(2016年登場)

Slide 16

Slide 16 text

%//)..)ZCSJEܕԻ੠ೝࣝ ⾳響 モデル ⾔語 モデル 先程 予約 した と 要約 訳 ⾔葉のつながりやすさを 確率で表した統計モデル a 3% i 2% u 70% … 短く区切った⾳声から ⾳素を予測するDNNモデル こんにちは ⾳声認識 発⾳ 辞書 単語表記ごとの⾳素配列 を記した辞書 昭和 sh o: w a 平成 h e: s e: … … 複数のモデルを組み合わせて認識処理を実⾏

Slide 17

Slide 17 text

&OEUP&OEԻ੠ೝࣝ CTC (Connectionist Temporal Classification) Transducer Attention-based Encoder-Decoder こんにちは E2E モデル 単⼀のNNモデルで⽂字列を直接出⼒

Slide 18

Slide 18 text

%//)..)ZCSJEܕԻ੠ೝࣝWT&OEUP&OEԻ੠ೝࣝ DNN-HMM Hybrid End-to-End 精度 ⾼い 低い → ⾮常に⾼い ストリーミング出⼒ 可 不可 → 可 システムの複雑さ ⼤規模 ⼩規模 学習データ 集めやすい 集めにくい (ペアデータが⼤量に必要) カスタマイズ 簡単 難しい

Slide 19

Slide 19 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ① Pre-training ⾳声信号の⽳埋めタスク (Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1 𝑦! 𝑦" ⋯ 𝑦# ラベルを付けていないデータ (Dark Data) を活⽤して ⾼い精度を実現できる点で画期的

Slide 20

Slide 20 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ ポイント① たった10分の 教師データでも ⾼い精度を実現 ポイント② 教師データが沢⼭ある 場合も優位性がある wav2vec 2.0 [Baevski+2020] ポイント③ Pre-trainingに使う データは増やせば 増やすほど良い

Slide 21

Slide 21 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश • OpenAIが2022年9⽉に発表した⾳声認識モデル • モデルに新規性はない(Transformer) • Webから収集した約68万時間(約78年分︕)の 教師付き⾳声データで学習 Whisper [Radford+2012] 1. 莫⼤なコストがかかるアノテーションを⾏わず、 質の低いラベルでも⼤量に集めることで良いモデルが作れる 2. データの規模が増えることで新たな価値を出せる Whisperが明らかにした2つの事実

Slide 22

Slide 22 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश Whisperが備えている機能 • タスクの切り替え(認識・翻訳) • 多⾔語⼊⼒&⾔語⾃動判定 • プロンプティングによる ドメイン適応 Whisper [Radford+2012] wav2vec 2.0との精度⽐較

Slide 23

Slide 23 text

&OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ 8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश ReazonSpeech [Yin+2023] • レアゾンホールディングスが2023年1⽉に発表した ⽇本語⾳声コーパス(ESPnetでモデルも公開) • 約1.9万時間のワンセグ放送⾳声と字幕(教師ラベルに使⽤) • Noisy labelを避けるためのデータ構築⼿順を確⽴ ラベルアライメント・モデルを繰り返し更新 繰り返すごとに精度改善

Slide 24

Slide 24 text

44-JTOPU%&"% • 少話者⾔語含む1,000の⾔語をカバーするモデルを開発するPJ • ⾔語数︓300以上、⾳声︓1200万時間、テキスト︓280億⽂ • 様々な⾔語資源をSSLのPre-trainingに含めることで、 資源の多い⾔語が資源の少ない⾔語をカバー Google USM (Universal Speech Model)

Slide 25

Slide 25 text

·ͱΊͱॴײ まとめ • DNN-HMM型⾳声認識とEnd-to-End⾳声認識 • 現在の2つのトレンド(SSL / Noisy Labelled Data) 所感 • (10年前から⾔われているが)⾳声認識の研究は⼤規模データがないと スタートラインにすら⽴てない。近年その傾向にさらに拍⾞がかかっている。 • だからと⾔ってプラットフォーマーでないと何もできないわけではない。 ReazonSpeechの例は、Webから収集したデータをうまく活⽤して対抗できる ことを⽰した。 • ⼀⽅で、⼤規模データが前提となった今では、もはやLibriSpeech/CSJのよう な⼩さな世界でSOTAを競うことの意味は消失しつつあり、新たなベンチマーク設 定の必要性を感じる。

Slide 26

Slide 26 text

LINE CLOVAの⾳声技術

Slide 27

Slide 27 text

೔ຊޠͷձ࿩Λ΋Εͳ͘ೝࣝ͢ΔͨΊʹλΠϓͷํࣜΛಉ࣌ʹ։ൃ λΠϓԻ੠ϩάͰ&OEUP&OEԻ੠ೝࣝΛվળ͠ଓ͚Δ44-ํࣜ λΠϓॲཧͷߴ଎ੑΛॏࢹͭͭ͠ɺߴ͍ೝࣝਫ਼౓͕ಘΒΕΔ4FMGDPOEJUJPOFE$5$ํࣜ ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு ॲཧͷ ߴ଎ੑ ߴ͍ ೝࣝਫ਼౓ ΧελϚΠ ζੑ

Slide 28

Slide 28 text

λΠϓ 44-ํࣜ 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH ① Pre-training ⾳声信号の⽳埋めタスク (Contrastive Learning) ② Fine-tuning 通常の教師あり学習 .-1 𝑦! 𝑦" ⋯ 𝑦#

Slide 29

Slide 29 text

λΠϓ 44-ํࣜ Baseline + Finetuning + Pretraining 認識誤り ログデータ追加の効果 SSLを利⽤することで、書き起こしをしなくても精度が改善︕ 書き起こし 付き 書き起こし 無し 44- 8BWWFD Λϕʔεͱ͢Δߏ଄Λ࠾༻ Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH

Slide 30

Slide 30 text

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ χϡʔϥϧωοτ ͜ Μ Μ ʹ ͪ ͸ ͸ ͜ Μ Μ ͪ ͸ ͸ ్தͰ΋༧ଌͯ͠ߟ͑௚͢ Self-conditioned CTC [Nozaki+ (LINE) 2021] $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ ͜ Ұ࣌ࠁຖʹ༧ଌ Attention Enc-Dec [Chorowski+2015] RNN-Transducer [Graves+2012] CTC [Graves+2006] ࠷ऴ૚ ࣍ͷதؒ૚ தؒ૚ શ࣌ࠁฒྻʹ༧ଌ

Slide 31

Slide 31 text

λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ 市村他, “CTC⾳声認識モデルにおける中間層ロスと条件付けが与える影響の考察,” ⽇本⾳響学会2022年秋季研究発表会 $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$ Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒ Method Decoding #Cond. #Params CER(%) eval1 CER(%) eval2 CER(%) eval3 Throughput (utt/sec) Conformer CTC greedy - 120M 4.95 3.65 4.10 70.7 + 6gram LM beam search - 120M 4.70 3.51 3.92 16.3 Self-cond. CTC greedy 17 123M 4.06 2.97 3.43 60.6 + 6gram LM beam search 17 123M 3.93 2.96 3.37 13.4 ⽇本語話し⾔葉コーパスでの⽂字誤り率(CER)・速度評価

Slide 32

Slide 32 text

ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு 広島県初⽇市市アジナ台東市番2号 ↓ TTSで住所⾳声を 追加 広島県廿⽇市市阿品台東1番2号 ⽇本語で⽇常的に使われる固有名詞の数は膨⼤ 学習データのカバレッジを上げるには多⼤なコストがかかる ⾳声合成で⽣成した⾳声を固有名詞の学習データとして利⽤ Normal Address 認識誤り TTSで住所⾳声を追加した効果 Baseline +TTS address ෭࡞༻ͳ͘ॅॴԻ੠ͷೝࣝਫ਼౓Λ޲্ʂ

Slide 33

Slide 33 text

残る課題

Slide 34

Slide 34 text

Ի੠ೝࣝ͸ղ͚ͨ໰୊͔ʁ ͜ΕҎ্ͷਫ਼౓޲্ʹՁ஋͕͋Δͷ͔ʁ

Slide 35

Slide 35 text

՝୊ ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε

Slide 36

Slide 36 text

ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ Ωʔϫʔυͷग़΍͢͞Λೝࣝ࣌ʹίϯτϩʔϧ 554Λ༻ֶ͍ͯशʹ௥Ճ͢Δͷ͸ɺଈԠੑ͕௿͍ ֶशͤͣʹಛఆΩʔϫʔυΛग़΍͘͢͢Δॲཧ Jung et al. (Naver), “Spell my name: Keyword Boosted Speech Recognition,” ICASSP 2022 CAT, CAR, COATをキーワードとするプレフィクス⽊ ⼿法 CER (%) F1-score Boostなし 8.07 95.3 Boostあり 7.78 97.1 CLOVA Note (KR) における評価

Slide 37

Slide 37 text

Ωʔϫʔυநग़ॲཧͱԻ੠ೝࣝΛ౷߹͢Δ Ի੠ೝࣝͷֶशσʔλΛΩʔϫʔυܥྻͱඇΩʔϫʔυܥྻʹ෼ղ͠ɺ Ի੠ೝࣝͱΩʔϫʔυݕग़Λಉ࣌ʹֶश Multi- task _と_を ください keyword non-keyword チキンカレー_ クリームソーダ_ Ito et al. (LINE), “Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences,” Interspeech 2023 (To appear) ⼿法 カタカナ CER (%) 数字 CER(%) ASR +Filtering 10.77 4.87 Keyword single task N/A N/A Proposed Multi-task 9.95 4.18 Multi-task Fine-tuning 9.45 4.55 ⽇本語話し⾔葉コーパスにおける キーワード誤り率(CER)評価

Slide 38

Slide 38 text

େن໛ݴޠϞσϧͱ࿈ܞ͢Δ Ի੠ೝ͕ࣝग़ྗͨ͠ෳ਺ͷԾઆΛେن໛ݴޠϞσϧͰϦείΞϦϯά͢Δ Udagawa et al., “Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR systems,” Interspeech 2022 1. I won his 2. I one these 3. I want this … Nベスト仮説 リスコアリング "43 --. 1. I want this 2. I won his 3. I one these … LLM WER (%) なし 5.3 GPT-2 (unidirectional) 5.3 RoBERTa-large 5.1 RoBERTa-large fine-tuned 5.0 4XJUDICPBSEධՁηοτ CFTUϦείΞϦϯάͷޮՌ BiLMscore(I want this) = log P( I | [mask] want this ) + log P(want | I [mask] this ) + log P(this | I want [mask]) UniLMscore (I want this) = log P( I | ) + log P(want | I) + log P(this | I want)

Slide 39

Slide 39 text

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ 8BWWFDΛݴޠಛ௃நग़ثͱͯ͠༻͍ɺݴޠ৘ใΛҡ࣋ͨ͠··ೖྗԻ੠ͷ੠࣭౳Λม׵ Choi et al., “NANCY++: Unified Voice Synthesis with Neural Analysis and Synthesis,” ICLR 2023 8BWWFDΛಛ௃நग़ثͱͯ͠༻͍ɺൃ੠ͷҟৗΛݕ஌ Tirronen et al., “Utilizing Wav2Vec in Database-independent Voice Disorder Detection,” ICASSP 2023 CNN Transformer 1 2 24 … Wav2vec 2.0 feature Accuracy Spec 66.01 Mel-spec 70.41 Wav2vec output 76.91 Wav2vec CNN-out 83.11 HUPA dataset SVM

Slide 40

Slide 40 text

ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44- Λ༻͍Δ Tsai et al., “SUPERB-SG: Enhanced Speech Processing Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022 l ⾳声認識 l ⾳素認識 l キーワード検出 l ⾳声検索語検出 l 話者識別 l 話者照合 l 話者ダイアライゼーション l 発話意図理解 l 発話スロットフィリング l 感情識別 l ⾳声翻訳 l ドメイン外⾳声認識 l ⾳声変換 l ⾳源分離 l ⾳声強調 44-ಛ௃ྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞Εͨμ΢ϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ

Slide 41

Slide 41 text

ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε Huang et al., “AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head,” Arxiv, 2023 タスク決定 LLMs (i.e., ChatGPT) l ⾳声認識、⾳声翻訳 l ⾳声スタイル変換、強調、分離 l ⾳声ステレオ変換、⾳声修復 l ⾳響イベント抽出 l ⾳声顔画像⽣成 l テキスト⾳声合成 l 画像⾳楽⽣成、楽譜歌唱⽣成 応答⽣成 ユーザ⼊⼒ (⾳声orテキスト +画像) Ի੠ॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ର࿩ܕγεςϜ Generate an audio based on the picture. Received! Here is the audio file you requested:

Slide 42

Slide 42 text

·ͱΊ 44-ϕʔεͱ4FMGDPOEJUJPOFE$5$ϕʔεͷ͔ͭΒͳΔ-*/&$-07"ͷԻ੠ೝٕࣝज़Λ঺հ ΧελϚΠζ΍ݴޠॲཧͱͷ࿈ܞʹର͢Δ-*/&ͷݚڀ੒ՌΛ঺հ 44-ʹجͮ͘Ի੠ೝࣝΛ௒͑ͨԠ༻ʹؔ͢Δݚڀಈ޲Λ঺հ