Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

LINEヤフー株式会社における音声言語情報処理AI研究開発@SP/SLP研究会 2024.10.22

LINEヤフー株式会社における音声言語情報処理AI研究開発@SP/SLP研究会 2024.10.22

2024.10.22 音声言語情報処理研究会・音声研究会 
LINEヤフー株式会社における音声言語情報処理AI研究開発の発表資料

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Transcript

  1. Internal Use Only © LY Corporation © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22

    LINEヤフー株式会社における 音声言語情報処理AI研究開発 LINEヤフー株式会社 データグループ Speech and Acoustic AI部 三宅 純平
  2. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 2 Agenda LINEヤフーについて

    01 LINEヤフーにおける音声言語情報処理AIの概要 02 LINEヤフーにおける音声認識 03 LINEヤフーにおける音声合成 04 まとめ 05
  3. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 3 PROFILE 三宅

    純平/Jumpei Miyake LY Corporation Data Group, Speech and Acoustic AI Dept. Senior Manager 2009年にヤフーに入社後、音声認識の研究開発に従事 現LINEヤフーの音声音響AIの研究開発部門の部長 2024年度 SP/SLP 研究運営委員会委員 photograph
  4. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 5 サービス コミュニケーションアプリ「LINE」や総合インターネットサービス「Yahoo!

    JAPAN」を始めとした、さまざまなサー ビスを展開 友だちや家族と、1対1やグループでのトーク、音声通話・ビデオ通話を、国内・ 海外・通信キャリアを問わず、いつでも、どこでも無料で楽しめます。さまざまな人 や情報、サービス、企業・ブランドと、シームレスに繋がることが可能です。 ポータルサイト「Yahoo! JAPAN」をはじめ、検索、ニュース、天気、ショッピング、 オークションなど、これまでさまざまなサービスをスマートフォン・パソコンなどの デバイス向けに提供しています。 コミュニケーションアプリ LINE 総合インターネットサービス Yahoo! JAPAN
  5. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーにおける音声言語情報処理AIプロダクトの変遷 9 2011

    ヤフー音声検索 2019 LINE AiCall 2012 ヤフー音声アシスタント 2022 LINE CLOVA Note 2018 Yahoo!カーナビ 音声操作機能 2017 LINE Clova WAVE 2023 LINE/ヤフー合併 ※ LINE AiCall, LINE CLOVA Noteは2023.04に現LINE WORKS株式会社に事業継承 2024.07 ナビ機能にオンデバイス型 ニューラル音声合成の搭載
  6. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 10 LINEヤフーでは音声UIや動画・音楽コンテンツの 音響解析に関わる研究開発を推進

    Video and Audio Content Analysis Speech Recognition Speech Generation Music Processing 動画制作 コールセンター 議事録作成支援 音楽・動画配信サービス 音声ユーザインタフェース 動画・音楽コンテンツ分析・制作 音声対話・音声案内 写真素材提供:アフロ
  7. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 12 LINEヤフーの音声認識の概要 リアルタイム音声認識

    オフライン型音声認識・音声解析 • 動画・音声ファイルに対する、 自動字幕生成、音楽検出、話者ダイアライゼーション、 環境音検出など多様な音声解析技術のAPIを社内提供 • WavLMなどSSLを利用した音声認識を活用 • ヤフーの多くの検索窓の音声検索として導入 • 検索ドメインで高精度な音声認識が特徴 • サーバ側・オンデバイス型の音声認識の機能提供 →機密性の高い環境でも利用可能 動画ファイル 音声ファイル 音声解析PF 動画字幕 生成API 音楽イベント 検出API 話者 ダイラゼーション API 推論API ・ ・ ・ Pub/Sub型の非同期なAPI
  8. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 13 LINEヤフーの音声認識の概要 リアルタイム音声認識

    オフライン型音声認識・音声解析 • 動画・音声ファイルに対する、 自動字幕生成、音楽検出、話者ダイアライゼーション、 環境音検出など多様な音声解析技術のAPIを社内提供 • WavLMなどSSLを利用した音声認識を活用 • ヤフーの多くの検索窓の音声検索として導入 • 検索ドメインで高精度な音声認識が特徴 • サーバ側・オンデバイス型の音声認識の機能提供 →機密性の高い環境でも利用可能 動画ファイル 音声ファイル 音声解析PF 動画字幕 生成API 音楽イベント 検出API 話者 ダイラゼーション API 推論API ・ ・ ・ Pub/Sub型の非同期なAPI
  9. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーのオンデバイス型音声認識の特徴 • RNN-TransducerベースのASRモデルを採用

    • 表記と読みの同時推定が可能で、発話内容に対して同形異音語の識別が可能 Yahoo! JAPAN Tech Blog Core MLで動かそう!CNNを使った軽量で高速なオンデバイス音声認識 https://techblog.yahoo.co.jp/entry/2021110130235935/
  10. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 16 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

    Text-Onlyドメイン適応 ユーザ辞書 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023
  11. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 17 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

    Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
  12. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 18 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

    Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 音声とテキストの 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
  13. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 19 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

    Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・ 自動疑似ラベル ・精度 音声とテキストのペアデータにおいて、 幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成 ・速度 発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に 外部言語モデルを利用しない戦略 ・サービスやシナリオなど 文脈に応じた任意 フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語 モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを 開始しますか? サービス辞書 動的に任意フレーズの 認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先 「はい」 「いいえ」 「高速優先で」 「一般優先で」 … ・ 人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成 テキストと音声の 統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書
  14. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 20 【論文紹介】RNN-Tにおける音声認識精度と遅延の同時最適化[5] •

    従来手法は、文字列出力確率に重み付け(FastEmit[6])または 遅延が閾値以上のアラインメントを除外(Ar-RNN-T[7])するloss設計 • 提案手法は、学習時の損失関数に「期待遅延」を組み込むことで遅延を 直接的に評価・削減する最小遅延学習 • 単語正解精度の劣化を少なく、PR90でも27ミリ秒と低遅延な文字出力を達成 [5] Shinohara, Yusuke, and Shinji Watanabe. "Minimum latency training of sequence transducers for streaming end -to-end speech recognition." INTERSPEECH 2022 [6] J. Yu et al., "FastEmit: Low-Latency Streaming ASR with Sequence-Level Emission Regularization," ICASSP 2021 [7] Mahadeokar, Jay, et al. "Alignment restricted streaming recurrent neural network transducer." SLT 2021
  15. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 【論文紹介】 End-to-End音声認識における表記と読みの同時推定[8] •

    出力する単語の表記文字列と対応する読みや品詞など素性を単一の系列として出力 • 表記のみを出力するモデルと比較し、文字誤り率の若干低下あるものの、 計算量を大きく変えずに高精度に表記と読みの同時推定が可能であることを確認 • 発表論文ではTransformer-CTCモデルを使用しているが、 プロダクションではRNN-Tに適応 [8]M. Omachi., et al., “End-to-end ASR to jointly predict transcriptions and linguistic annotations.,” Proc. NAACL2021. その後 日本橋 そのあと にほんばし にっぽんばし そのご 課題: 発話内容に対する表記と読みを同定したい
  16. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 23 LINEヤフーの音声合成の概要 サーバ型音声合成

    オンデバイス型音声合成 • iOS/Androidとして社内提供 • インターネットに接続することなく、 電波が届きにくい環境や機密性の高い環境でも利用可能 • 合成音声品質はAchorisよりは劣化するもの実用レベル • RESTful APIとして社内提供 • 高品質かつ感情豊かな音声合成が特徴 • 音声ナレーション制作ツールも社内提供しており、 株主総会のAIナレーションなど多数の利用実績 • 研究開発中の最先端技術も鋭意導入 2024.07 Yahoo!カーナビ・マップで導入 社内向け音声ナレーション制作ツール
  17. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 24 Achoris :

    表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-40分ほどの所望話者の音声から音声合成モデルを作成可能
  18. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 25 Achoris :

    表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-40分ほどの所望話者の音声から音声合成モデルを作成可能
  19. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 26 Achoris :

    表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-3時間ほどの所望話者の音声から音声合成モデルを作成可能 元話者 合成音声 音声 収録時間 女性 10sec スタジオ収録 配信者女性 180min スタジオ収録
  20. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 27 LINEヤフーにおける音声生成基盤モデル(1/3) フレームワーク:

    NANSY++ [9] 1st stage: 基盤モデルの学習 • 大量の音声データから解釈可能な中間表現を獲得 • 音声波形をピッチ + 言語情報 + 声質情報 に分析・再合成 [9]Choi, Hyeong-Seok, et al. “NANSY++: Unified voice synthesis with neural analysis and synthesis.” ICLR 2023
  21. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 28 LINEヤフーにおける音声生成基盤モデル(2/3) フレームワーク:

    NANSY++ 2nd stage: Down-stream task への応用 • ピッチ + 言語情報 + 声質情報 をタスクに応じた条件で推定し、音声生成
  22. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 29 LINEヤフーにおける音声生成基盤モデル(3/3) TTS

    への応用 言語情報・ピッチの概形を入力テキストから取得 声質情報・ピッチの高さを目的話者の音声から取得 大きく2種類のTTSがある • Multi-speaker TTS: テキストは任意。目的話者は学習データの中から選択 • Zero-shot TTS:テキストも目的話者も任意 Source speaker’s wave Generated wave (content: text, timbre: target) Target speaker label Text 「これはテストです。」 Target speaker’s wave
  23. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 30 【論文紹介】明示的なピッチのモデル化&⼀貫学習による⾃然な感情音声合成[10] •

    課題としては、⼀貫学習を採用した音声合成モデルを用いても、ピッチ(声の高さ)や 発音の多様性が大きい感情豊かな音声を高品質に生成することは難しい • 提案手法では、感情音声合成の際により重要となるピッチ情報を陽にモデル化する ことにより生成音声におけるピッチ情報をより正確に表現することを可能にした。 Style Reference VITS Period-VITS (proposed) Natural Happy Neutralだと人間並みの品質 [10]Yuma Shirahata, et al., “Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-End Emotional Speech Synthesis”, ICASSP2023 自然性のMOS評価
  24. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 31 【論文紹介】オンデバイス推論に向けたボコーダーの高速化[11] [11]Masaya

    Kawamura, et al., “Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform”, ICASSP2023 • VITSをベースとしてiSTFTNetとマルチバンド生成戦略の採用によるボコーダーの高速化 • 従来手法のVITSと比較し、音声品質を劣化させずに4倍高速化 Phonemes Text Encoder Duration Predictor Flow Upsample × Output Convolution ×2 iSTFT Decoder Synthesized waveform MB-iSTFT-VITS: Fixed Synthesis Filter MS-iSTFT-VITS: Trainable Synthesis Filter Prior Params Upsampling ResBlock iSTFT iSTFT iSTFT Magnitude Phase Upsampling Upsampling Upsampling Upsampling signals VAE latent variable in original VITS VAE 潜在変数は、サブバンド信号ごとに 振幅変数と位相変数に投影 サブバンド信号は合成フィルタを使用して フルバンド波形に統合 iSTFT演算による 各サブバンド信号の生成 Smaller version of VITS and MB-iSTFT-VITS 生成音声の⾃然性MOS評価およびRTF(on Intel Core [email protected] GHz ) x4@RTF
  25. Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 32 まとめ •

    LINEヤフーの音声言語情報処理AIにおける音声認識・音声合成を中心に紹介 • 他、音楽情報処理、マルチモーダルAIの研究開発も推進中 • Interspeech 2024発表論文 • Robin Scheibler, et al., Universal Score-based Speech Enhancement with High Content Preservation Score-base diffusionと敵対学習を用いた音声強調の提案 • Wangyou Zhang, Robin Scheibler, et al. URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement ユニバーサルな音声強調の研究開発に向けたコンペティション • Yuma Shirahata, et al. Audio-conditioned phonemic and prosodic annotation for building text-to-speech models from unlabeled speech data 大規模な疑似ラベルを活用した高精度な音素・韻律アノテーション • Masaya Kawamura, et al.LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning PromptTTS実現に向けた話者スタイル・話者特徴プロンプトコーパス公開 • Hokuto Munakata, et al.Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework End-to-End歌唱者ダイアライゼーションのためNANSY++フレームワークによる楽曲データ • Yusuke Fujita, et al.Audio Fingerprinting with Holographic Reduced Representations 楽曲認識のための計算効率的な音響フィンガープリント • Yuki Saito, et al.SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark [東大猿渡研 共同研究]日本語母語話者100名によるスマートフォン収録音声のコーパス • Takuto Igarashi , et al. Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment [東大猿渡研 共同研究]録音の品質と環境を考慮したノイズロバストな音声変換の改善