Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LINE CLOVAの音声認識技術

LINE CLOVAの音声認識技術

木田祐介(ワークスモバイルジャパン), 藤田雄介(LINE)
音学シンポジウム 2023 (第137回MUS・第147回SLP合同研究発表会)での発表資料です
https://www.ipsj.or.jp/kenkyukai/event/mus137slp147.html

LINE Developers

June 23, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. ⡋803,4.0#*-&+BQBO$PSQ
    LINE CLOVAの⾳声技術
    ϫʔΫεϞόΠϧδϟύϯ ໦ా༞հ
    -*/& ౻ా༤հ

    View full-size slide

  2. Yusuke Kida
    ワークスモバイルジャパン株式会社
    CLOVA統括本部 AI技術開発チーム マネージャー
    学⽣時代から⾳声技術に興味を持ち、東芝・ヤフーにて
    ⾳声信号処理、⾳声認識の研究開発に幅広く携わる。
    LINEで⾳声認識(Speech)チームのマネージャーを
    務めた後、2023年4⽉のAI事業承継に伴いワークスモ
    バイルジャパンに転籍出向。同社のAI技術開発全般を
    リードしている。
    ࣗݾ঺հ

    View full-size slide

  3. Yusuke Fujita
    LINE株式会社
    Data Scienceセンター AI Dev室 ASPチーム
    2005年⽇⽴製作所に⼊所以来、⾳声合成・⾳声認識の
    研究開発に携わる。2018年から2020年、⽶Johns Ho
    pkins⼤学の客員研究員として複数話者⾳声認識とダイ
    アライゼーション技術を研究。2021年LINEに⼊社。S
    peechチームにてLINE AiCallやCLOVA Noteなど⽇本
    語⾳声認識の技術開発を牽引。2023年4⽉より、ASP
    チームにて⾳声・⾳楽情報処理の研究開発に携わる。
    ࣗݾ঺հ

    View full-size slide

  4. STRICTLY CONFIDENTIAL
    -*/&$-07"ʹ͍ͭͯ
    ˔
    ˔
    -*/&$-07"ͷԻ੠ٕज़
    ˔
    Ի੠ೝࣝʹ࢒Δ՝୊
    ˔
    "HFOEB
    ͜ͷ೥ͷԻ੠ೝٕࣝज़Λ෼ͰৼΓฦΔ

    View full-size slide

  5. LINE CLOVAについて
    (⾳声領域を中⼼に)

    View full-size slide

  6. STRICTLY CONFIDENTIAL
    LINEの持つAI技術をテクノロジーブランド
    「LINE CLOVA」として展開しています

    View full-size slide

  7. ి࿩Ԡର"*αʔϏεʮ-*/&"J$BMMʯ
    -*/&"J$BMM͸ɺίϯλΫτηϯλʔ΍ళฮͷి࿩ͳͲɺి࿩ίϛϡχέʔ
    γϣϯͷσδλϧԽΛ࣮ݱ͢ΔιϦϡʔγϣϯͰ͢ɻ
    $-07" TQFFDI
    Ի੠ೝࣝ
    Ի੠߹੒
    ࣗવݴޠॲཧ
    "*
    -*/&σʔληϯλʔʢ೔ຊʣ
    -*/&"J$BMM
    $-07" 7PJDF
    Ի੠߹੒
    Ի੠ೖྗ
    Ի੠ग़ྗ
    Ի੠ɾςΩετ
    ʢ҉߸Խʣ
    ൪߸౳
    $3.ͳͲ
    ʲಋೖࡁΈاۀۀछʳ
    ෺ྲྀɺଛ֐อݥɺੜ໋อݥɺΫϨδοτΧʔυɺܞଳి࿩ɺిྗձࣾɺ์ૹɺՈిྔൢళɺ࣏ࣗମɺҿ৯ళɾɾͳͲ

    View full-size slide

  8. "*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

    View full-size slide

  9. ʮ(PPHMF1MBZϕετΦϒʯ
    ࣗݾվળ෦໳ ෦໳৆ड৆ʂʂ
    "*Ի੠ೝࣝΞϓϦʮ$-07"/PUFʯ

    View full-size slide

  10. ࠃࡍֶձͰͷ࿦จ࠾୒࣮੷

    View full-size slide

  11. ࣄۀঝܧʹ͍ͭͯ
    LINE AIカンパニーの事業がワークスモバイルジャパンに承継
    ⾳声認識に関わるエンジニアはLINEから転籍出向

    View full-size slide

  12. この10年の⾳声認識技術を
    20分で振り返る

    View full-size slide

  13. Ի੠ೝࣝͷ໰୊ઃఆ
    ͜Μʹͪ͸
    𝑋:⾳声 𝑊:テキスト
    𝑊 = argmax #
    $
    𝑝( *
    𝑊|𝑋)
    ⾳声認識:Speech-to-Text

    View full-size slide

  14. Ի੠ೝࣝͷ̎ͭͷղ๏
    𝑝(𝑊|𝑋) =
    𝑝 𝑋 𝑊 𝑝 𝑊
    𝑝 𝑋
    ≈ 𝑝 𝑋 𝑆 𝑝 𝑆 𝑊 𝑝(𝑊)
    ⾳響
    モデル
    発⾳
    辞書
    ⾔語
    モデル
    𝑊:こんにちは → 𝑆: k o N n i ch i w a
    αϒϫʔυ
    ʢଟ͘ͷ৔߹Իૉʣ
    𝑝(𝑊|𝑋) = 𝑁𝑒𝑢𝑟𝑎𝑙𝑁𝑒𝑡(𝑋)
    ベイズ則による階層型アプローチ(昔からある⼿法)
    ニューラルネットによるEnd-to-Endアプローチ(2016年登場)

    View full-size slide

  15. %//)..)ZCSJEܕԻ੠ೝࣝ
    ⾳響
    モデル
    ⾔語
    モデル
    先程
    予約
    した

    要約

    ⾔葉のつながりやすさを
    確率で表した統計モデル
    a 3%
    i 2%
    u 70%

    短く区切った⾳声から
    ⾳素を予測するDNNモデル
    こんにちは
    ⾳声認識
    発⾳
    辞書
    単語表記ごとの⾳素配列
    を記した辞書
    昭和 sh o: w a
    平成 h e: s e:
    … …
    複数のモデルを組み合わせて認識処理を実⾏

    View full-size slide

  16. &OEUP&OEԻ੠ೝࣝ
    CTC
    (Connectionist Temporal
    Classification)
    Transducer Attention-based
    Encoder-Decoder
    こんにちは
    E2E
    モデル
    単⼀のNNモデルで⽂字列を直接出⼒

    View full-size slide

  17. %//)..)ZCSJEܕԻ੠ೝࣝWT&OEUP&OEԻ੠ೝࣝ
    DNN-HMM Hybrid End-to-End
    精度 ⾼い 低い → ⾮常に⾼い
    ストリーミング出⼒ 可 不可 → 可
    システムの複雑さ ⼤規模 ⼩規模
    学習データ 集めやすい
    集めにくい
    (ペアデータが⼤量に必要)
    カスタマイズ 簡単 難しい

    View full-size slide

  18. &OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ
    ① Pre-training
    ⾳声信号の⽳埋めタスク
    (Contrastive Learning)
    ② Fine-tuning
    通常の教師あり学習
    .-1
    𝑦!
    𝑦"
    ⋯ 𝑦#
    ラベルを付けていないデータ (Dark Data) を活⽤して
    ⾼い精度を実現できる点で画期的

    View full-size slide

  19. &OEUP&OEԻ੠ೝࣝͷൃలܥᶃɿࣗݾڭࢣ͋Γֶशʢ44-ʣ
    ポイント①
    たった10分の
    教師データでも
    ⾼い精度を実現
    ポイント②
    教師データが沢⼭ある
    場合も優位性がある
    wav2vec 2.0 [Baevski+2020]
    ポイント③
    Pre-trainingに使う
    データは増やせば
    増やすほど良い

    View full-size slide

  20. &OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ
    8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश
    • OpenAIが2022年9⽉に発表した⾳声認識モデル
    • モデルに新規性はない(Transformer)
    • Webから収集した約68万時間(約78年分︕)の
    教師付き⾳声データで学習
    Whisper [Radford+2012]
    1. 莫⼤なコストがかかるアノテーションを⾏わず、
    質の低いラベルでも⼤量に集めることで良いモデルが作れる
    2. データの規模が増えることで新たな価値を出せる
    Whisperが明らかにした2つの事実

    View full-size slide

  21. &OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ
    8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश
    Whisperが備えている機能
    • タスクの切り替え(認識・翻訳)
    • 多⾔語⼊⼒&⾔語⾃動判定
    • プロンプティングによる
    ドメイン適応
    Whisper [Radford+2012]
    wav2vec 2.0との精度⽐較

    View full-size slide

  22. &OEUP&OEԻ੠ೝࣝͷൃలܥᶄɿ
    8FC͔Βऩूͨ͠/PJTZMBCFMMFEEBUBΛ࢖ͬͨڭࢣ͋Γֶश
    ReazonSpeech [Yin+2023]
    • レアゾンホールディングスが2023年1⽉に発表した
    ⽇本語⾳声コーパス(ESPnetでモデルも公開)
    • 約1.9万時間のワンセグ放送⾳声と字幕(教師ラベルに使⽤)
    • Noisy labelを避けるためのデータ構築⼿順を確⽴
    ラベルアライメント・モデルを繰り返し更新 繰り返すごとに精度改善

    View full-size slide

  23. 44-JTOPU%&"%
    • 少話者⾔語含む1,000の⾔語をカバーするモデルを開発するPJ
    • ⾔語数︓300以上、⾳声︓1200万時間、テキスト︓280億⽂
    • 様々な⾔語資源をSSLのPre-trainingに含めることで、
    資源の多い⾔語が資源の少ない⾔語をカバー
    Google USM (Universal Speech Model)

    View full-size slide

  24. ·ͱΊͱॴײ
    まとめ
    • DNN-HMM型⾳声認識とEnd-to-End⾳声認識
    • 現在の2つのトレンド(SSL / Noisy Labelled Data)
    所感
    • (10年前から⾔われているが)⾳声認識の研究は⼤規模データがないと
    スタートラインにすら⽴てない。近年その傾向にさらに拍⾞がかかっている。
    • だからと⾔ってプラットフォーマーでないと何もできないわけではない。
    ReazonSpeechの例は、Webから収集したデータをうまく活⽤して対抗できる
    ことを⽰した。
    • ⼀⽅で、⼤規模データが前提となった今では、もはやLibriSpeech/CSJのよう
    な⼩さな世界でSOTAを競うことの意味は消失しつつあり、新たなベンチマーク設
    定の必要性を感じる。

    View full-size slide

  25. LINE CLOVAの⾳声技術

    View full-size slide

  26. ೔ຊޠͷձ࿩Λ΋Εͳ͘ೝࣝ͢ΔͨΊʹλΠϓͷํࣜΛಉ࣌ʹ։ൃ
    λΠϓԻ੠ϩάͰ&OEUP&OEԻ੠ೝࣝΛվળ͠ଓ͚Δ44-ํࣜ
    λΠϓॲཧͷߴ଎ੑΛॏࢹͭͭ͠ɺߴ͍ೝࣝਫ਼౓͕ಘΒΕΔ4FMGDPOEJUJPOFE$5$ํࣜ
    ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு
    ॲཧͷ
    ߴ଎ੑ
    ߴ͍
    ೝࣝਫ਼౓
    ΧελϚΠ
    ζੑ

    View full-size slide

  27. λΠϓ 44-ํࣜ
    44- 8BWWFD
    Λϕʔεͱ͢Δߏ଄Λ࠾༻
    Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH
    Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH
    ① Pre-training
    ⾳声信号の⽳埋めタスク
    (Contrastive Learning)
    ② Fine-tuning
    通常の教師あり学習
    .-1
    𝑦!
    𝑦"
    ⋯ 𝑦#

    View full-size slide

  28. λΠϓ 44-ํࣜ
    Baseline + Finetuning + Pretraining
    認識誤り
    ログデータ追加の効果
    SSLを利⽤することで、書き起こしをしなくても精度が改善︕
    書き起こし
    付き 書き起こし
    無し
    44- 8BWWFD
    Λϕʔεͱ͢Δߏ଄Λ࠾༻
    Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩͠ɺ'JOFUVOJOH
    Ի੠ϩάʹਓखͷॻ͖ى͜͠Λ෇༩ͤͣ1SFUSBJOJOH͠ɺਓखͷॻ͖ى͜͠Ͱ'JOFUVOJOH

    View full-size slide

  29. λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ
    χϡʔϥϧωοτ
    ͜ Μ Μ ʹ ͪ ͸ ͸
    ͜ Μ Μ ͪ ͸ ͸
    ్தͰ΋༧ଌͯ͠ߟ͑௚͢
    Self-conditioned CTC
    [Nozaki+ (LINE) 2021]
    $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$
    Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ
    ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒
    ͜
    Ұ࣌ࠁຖʹ༧ଌ
    Attention Enc-Dec [Chorowski+2015]
    RNN-Transducer [Graves+2012]
    CTC [Graves+2006]
    ࠷ऴ૚
    ࣍ͷதؒ૚
    தؒ૚
    શ࣌ࠁฒྻʹ༧ଌ

    View full-size slide

  30. λΠϓ4FMGDPOEJUJPOFE$5$ํࣜ
    市村他, “CTC⾳声認識モデルにおける中間層ロスと条件付けが与える影響の考察,” ⽇本⾳響学会2022年秋季研究発表会
    $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO $5$
    Λϕʔεͱͨ͠ฒྻॲཧʹΑΓߴ଎ੑΛ୲อ
    ωοτϫʔΫͷதؒ૚Ͱ΋จࣈܥྻΛ༧ଌ͢Δ͜ͱͰɺ44-ʹඖఢ͢Δਫ਼౓Λୡ੒
    Method Decoding #Cond. #Params CER(%)
    eval1
    CER(%)
    eval2
    CER(%)
    eval3
    Throughput
    (utt/sec)
    Conformer CTC greedy - 120M 4.95 3.65 4.10 70.7
    + 6gram LM beam search - 120M 4.70 3.51 3.92 16.3
    Self-cond. CTC greedy 17 123M 4.06 2.97 3.43 60.6
    + 6gram LM beam search 17 123M 3.93 2.96 3.37 13.4
    ⽇本語話し⾔葉コーパスでの⽂字誤り率(CER)・速度評価

    View full-size slide

  31. ʴ ۀք༻ޠɾݻ༗໊ࢺͳͲʹΧελϚΠζͰ͖Δ554σʔλ֦ு
    広島県初⽇市市アジナ台東市番2号
    ↓ TTSで住所⾳声を
    追加
    広島県廿⽇市市阿品台東1番2号
    ⽇本語で⽇常的に使われる固有名詞の数は膨⼤
    学習データのカバレッジを上げるには多⼤なコストがかかる
    ⾳声合成で⽣成した⾳声を固有名詞の学習データとして利⽤
    Normal Address
    認識誤り
    TTSで住所⾳声を追加した効果
    Baseline +TTS address
    ෭࡞༻ͳ͘ॅॴԻ੠ͷೝࣝਫ਼౓Λ޲্ʂ

    View full-size slide

  32. 残る課題

    View full-size slide

  33. Ի੠ೝࣝ͸ղ͚ͨ໰୊͔ʁ
    ͜ΕҎ্ͷਫ਼౓޲্ʹՁ஋͕͋Δͷ͔ʁ

    View full-size slide

  34. ՝୊
    ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ
    ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44-
    Λ༻͍Δ
    ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε

    View full-size slide

  35. ݴޠॲཧλεΫͱ࿈ܞ͢ΔͨΊͷΧελϚΠζ
    Ωʔϫʔυͷग़΍͢͞Λೝࣝ࣌ʹίϯτϩʔϧ
    554Λ༻ֶ͍ͯशʹ௥Ճ͢Δͷ͸ɺଈԠੑ͕௿͍
    ֶशͤͣʹಛఆΩʔϫʔυΛग़΍͘͢͢Δॲཧ
    Jung et al. (Naver), “Spell my name: Keyword Boosted Speech Recognition,” ICASSP 2022
    CAT, CAR, COATをキーワードとするプレフィクス⽊
    ⼿法 CER (%) F1-score
    Boostなし 8.07 95.3
    Boostあり 7.78 97.1
    CLOVA Note (KR) における評価

    View full-size slide

  36. Ωʔϫʔυநग़ॲཧͱԻ੠ೝࣝΛ౷߹͢Δ
    Ի੠ೝࣝͷֶशσʔλΛΩʔϫʔυܥྻͱඇΩʔϫʔυܥྻʹ෼ղ͠ɺ
    Ի੠ೝࣝͱΩʔϫʔυݕग़Λಉ࣌ʹֶश
    Multi-
    task
    _と_を
    ください
    keyword non-keyword
    チキンカレー_
    クリームソーダ_
    Ito et al. (LINE), “Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences,”
    Interspeech 2023 (To appear)
    ⼿法 カタカナ
    CER (%)
    数字
    CER(%)
    ASR
    +Filtering
    10.77 4.87
    Keyword
    single task
    N/A N/A
    Proposed
    Multi-task
    9.95 4.18
    Multi-task
    Fine-tuning
    9.45 4.55
    ⽇本語話し⾔葉コーパスにおける
    キーワード誤り率(CER)評価

    View full-size slide

  37. େن໛ݴޠϞσϧͱ࿈ܞ͢Δ
    Ի੠ೝ͕ࣝग़ྗͨ͠ෳ਺ͷԾઆΛେن໛ݴޠϞσϧͰϦείΞϦϯά͢Δ
    Udagawa et al., “Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR systems,” Interspeech 2022
    1. I won his
    2. I one these
    3. I want this

    Nベスト仮説 リスコアリング
    "43 --.
    1. I want this
    2. I won his
    3. I one these

    LLM WER (%)
    なし 5.3
    GPT-2
    (unidirectional)
    5.3
    RoBERTa-large 5.1
    RoBERTa-large
    fine-tuned
    5.0
    4XJUDICPBSEධՁηοτ
    CFTUϦείΞϦϯάͷޮՌ
    BiLMscore(I want this) = log P( I | [mask] want this )
    + log P(want | I [mask] this )
    + log P(this | I want [mask])
    UniLMscore (I want this) = log P( I | )
    + log P(want | I)
    + log P(this | I want)

    View full-size slide

  38. ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44-
    Λ༻͍Δ
    8BWWFDΛݴޠಛ௃நग़ثͱͯ͠༻͍ɺݴޠ৘ใΛҡ࣋ͨ͠··ೖྗԻ੠ͷ੠࣭౳Λม׵
    Choi et al., “NANCY++: Unified Voice Synthesis with Neural Analysis and Synthesis,” ICLR 2023
    8BWWFDΛಛ௃நग़ثͱͯ͠༻͍ɺൃ੠ͷҟৗΛݕ஌
    Tirronen et al., “Utilizing Wav2Vec in Database-independent Voice Disorder Detection,” ICASSP 2023
    CNN
    Transformer
    1 2 24

    Wav2vec 2.0 feature Accuracy
    Spec 66.01
    Mel-spec 70.41
    Wav2vec output 76.91
    Wav2vec CNN-out 83.11
    HUPA dataset
    SVM

    View full-size slide

  39. ผλεΫͷͨΊͷಛ௃நग़ͱͯ͠Ի੠ೝࣝ 44-
    Λ༻͍Δ
    Tsai et al., “SUPERB-SG: Enhanced Speech Processing Universal PERformance Benchmark for Semantic and Generative Capabilities,” ACL 2022
    l ⾳声認識
    l ⾳素認識
    l キーワード検出
    l ⾳声検索語検出
    l 話者識別
    l 話者照合
    l 話者ダイアライゼーション
    l 発話意図理解
    l 発話スロットフィリング
    l 感情識別
    l ⾳声翻訳
    l ドメイン外⾳声認識
    l ⾳声変換
    l ⾳源分離
    l ⾳声強調
    44-ಛ௃ྔͷྑ͞Λൺֱ͢ΔͨΊɺ౷Ұ͞Εͨμ΢ϯετϦʔϜλεΫͷ༧ଌثΛֶ͚ͭͯशɾධՁ͢Δ

    View full-size slide

  40. ର࿩ܕςΩετੜ੒ϞσϧͱͷΠϯλʔϑΣʔε
    Huang et al., “AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head,” Arxiv, 2023
    タスク決定
    LLMs
    (i.e., ChatGPT)
    l ⾳声認識、⾳声翻訳
    l ⾳声スタイル変換、強調、分離
    l ⾳声ステレオ変換、⾳声修復
    l ⾳響イベント抽出
    l ⾳声顔画像⽣成
    l テキスト⾳声合成
    l 画像⾳楽⽣成、楽譜歌唱⽣成
    応答⽣成
    ユーザ⼊⼒
    (⾳声orテキスト +画像)
    Ի੠ॲཧʹؔΘΔଟ༷ͳλεΫΛ͜ͳ͢ର࿩ܕγεςϜ
    Generate an audio based
    on the picture.
    Received! Here is the
    audio file you requested:

    View full-size slide

  41. ·ͱΊ
    44-ϕʔεͱ4FMGDPOEJUJPOFE$5$ϕʔεͷ͔ͭΒͳΔ-*/&$-07"ͷԻ੠ೝٕࣝज़Λ঺հ
    ΧελϚΠζ΍ݴޠॲཧͱͷ࿈ܞʹର͢Δ-*/&ͷݚڀ੒ՌΛ঺հ
    44-ʹجͮ͘Ի੠ೝࣝΛ௒͑ͨԠ༻ʹؔ͢Δݚڀಈ޲Λ঺հ

    View full-size slide