LINEヤフー株式会社における音声言語情報処理AI研究開発@SP/SLP研究会 2024.10.22

Internal Use Only © LY Corporation © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22
LINEヤフー株式会社における音声言語情報処理AI研究開発 LINEヤフー株式会社データグループ Speech and Acoustic AI部三宅純平

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 2 Agenda LINEヤフーについて
01 LINEヤフーにおける音声言語情報処理AIの概要 02 LINEヤフーにおける音声認識 03 LINEヤフーにおける音声合成 04 まとめ 05

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 3 PROFILE 三宅
純平/Jumpei Miyake LY Corporation Data Group, Speech and Acoustic AI Dept. Senior Manager 2009年にヤフーに入社後、音声認識の研究開発に従事現LINEヤフーの音声音響AIの研究開発部門の部長 2024年度 SP/SLP 研究運営委員会委員 photograph

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 4 LINEヤフーについて

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 5 サービスコミュニケーションアプリ「LINE」や総合インターネットサービス「Yahoo!
JAPAN」を始めとした、さまざまなサービスを展開友だちや家族と、1対1やグループでのトーク、音声通話・ビデオ通話を、国内・海外・通信キャリアを問わず、いつでも、どこでも無料で楽しめます。さまざまな人や情報、サービス、企業・ブランドと、シームレスに繋がることが可能です。ポータルサイト「Yahoo! JAPAN」をはじめ、検索、ニュース、天気、ショッピング、オークションなど、これまでさまざまなサービスをスマートフォン・パソコンなどのデバイス向けに提供しています。コミュニケーションアプリ LINE 総合インターネットサービス Yahoo! JAPAN

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 6 事業ポートフォリオメディアから通信までを網羅する世界でも類を見ない多様な事業ポートフォリオ
メディアコマース戦略メッセンジャー SNS 通信 AI

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 7 LINEヤフーにおける研究開発音声音響系の主要な国際会議の採択実績
INTERSPEECH 2024 8本 ICASSP 2024 8本 ASRU 2023 3本 INTERSPEECH 2023 5本 ICASSP 2023 12本

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 8 LINEヤフーにおける音声言語情報処理AIの概要

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーにおける音声言語情報処理AIプロダクトの変遷 9 2011
ヤフー音声検索 2019 LINE AiCall 2012 ヤフー音声アシスタント 2022 LINE CLOVA Note 2018 Yahoo!カーナビ音声操作機能 2017 LINE Clova WAVE 2023 LINE/ヤフー合併 ※ LINE AiCall, LINE CLOVA Noteは2023.04に現LINE WORKS株式会社に事業継承 2024.07 ナビ機能にオンデバイス型ニューラル音声合成の搭載

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 10 LINEヤフーでは音声UIや動画・音楽コンテンツの音響解析に関わる研究開発を推進
Video and Audio Content Analysis Speech Recognition Speech Generation Music Processing 動画制作コールセンター議事録作成支援音楽・動画配信サービス音声ユーザインタフェース動画・音楽コンテンツ分析・制作音声対話・音声案内写真素材提供:アフロ

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 11 LINEヤフーにおける音声認識

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 12 LINEヤフーの音声認識の概要リアルタイム音声認識
オフライン型音声認識・音声解析 • 動画・音声ファイルに対する、自動字幕生成、音楽検出、話者ダイアライゼーション、環境音検出など多様な音声解析技術のAPIを社内提供 • WavLMなどSSLを利用した音声認識を活用 • ヤフーの多くの検索窓の音声検索として導入 • 検索ドメインで高精度な音声認識が特徴 • サーバ側・オンデバイス型の音声認識の機能提供 →機密性の高い環境でも利用可能動画ファイル音声ファイル音声解析PF 動画字幕生成API 音楽イベント検出API 話者ダイラゼーション API 推論API ・・・ Pub/Sub型の非同期なAPI

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 13 LINEヤフーの音声認識の概要リアルタイム音声認識
オフライン型音声認識・音声解析 • 動画・音声ファイルに対する、自動字幕生成、音楽検出、話者ダイアライゼーション、環境音検出など多様な音声解析技術のAPIを社内提供 • WavLMなどSSLを利用した音声認識を活用 • ヤフーの多くの検索窓の音声検索として導入 • 検索ドメインで高精度な音声認識が特徴 • サーバ側・オンデバイス型の音声認識の機能提供 →機密性の高い環境でも利用可能動画ファイル音声ファイル音声解析PF 動画字幕生成API 音楽イベント検出API 話者ダイラゼーション API 推論API ・・・ Pub/Sub型の非同期なAPI

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーのオンデバイス型音声認識の特徴 • RNN-TransducerベースのASRモデルを採用
• 表記と読みの同時推定が可能で、発話内容に対して同形異音語の識別が可能 Yahoo! JAPAN Tech Blog Core MLで動かそう！CNNを使った軽量で高速なオンデバイス音声認識 https://techblog.yahoo.co.jp/entry/2021110130235935/

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 15 LINEヤフーのオンデバイス型音声認識デモ音声検索アプリ(iOS)に導入済み
https://yahoo.jp/YUI cBS ←サーバ版オンデバイス版→

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 16 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習
Text-Onlyドメイン適応ユーザ辞書 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・自動疑似ラベル・精度音声とテキストのペアデータにおいて、幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成・速度発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に外部言語モデルを利用しない戦略・サービスやシナリオなど文脈に応じた任意フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを開始しますか？サービス辞書動的に任意フレーズの認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先「はい」「いいえ」「高速優先で」「一般優先で」 … ・人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成テキストと音声の統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023

Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・自動疑似ラベル・精度音声とテキストのペアデータにおいて、幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成・速度発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に外部言語モデルを利用しない戦略・サービスやシナリオなど文脈に応じた任意フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを開始しますか？サービス辞書動的に任意フレーズの認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先「はい」「いいえ」「高速優先で」「一般優先で」 … ・人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成テキストと音声の統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書

Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・自動疑似ラベル・精度音声とテキストのペアデータにおいて、幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成・速度発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に外部言語モデルを利用しない戦略・サービスやシナリオなど文脈に応じた任意フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを開始しますか？サービス辞書動的に任意フレーズの認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先「はい」「いいえ」「高速優先で」「一般優先で」 … ・人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成音声とテキストの統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書

Text-Onlyドメイン適応 y o u </s> ASR w/End-Pointer Model ASR Model T h a n k y o u ・自動疑似ラベル・精度音声とテキストのペアデータにおいて、幅広い固有表現獲得が課題 → 音声のみデータから疑似ラベル生成・速度発話終端検知の低遅延化(End-Pointer[1], FastEmit, etc) ・コンパクトモデルを前提に外部言語モデルを利用しない戦略・サービスやシナリオなど文脈に応じた任意フレーズの認識強化 Paired speech-text data Unpaired text data Encoder Predictor Joint Network Label Posteriors Blank Posterior X 1:t Y1:u-1 内部言語モデルの適応 (ILMT+ILMA[2]) E2E ASR このルートでナビを開始しますか？サービス辞書動的に任意フレーズの認識強化 ×肺 → ◦はい ×家 → ◦いいえ ×高速有線 → ◦高速優先「はい」「いいえ」「高速優先で」「一般優先で」 … ・人手ラベル Forced alignment label 現状はDNN-HMM hybrid ASRで疑似ラベル生成テキストと音声の統合表現を扱うエンコーダー (textogram[3], JOIST[4], etc) i.e. FST-based Contextual Biasing EndPointer Latency [1] Li, Bo, et al. "Towards fast and accurate streaming end-to-end ASR, " ICASSP2020 [2] Meng, Zhong, et al. "Internal language model adaptation with text-only data for end-to-end speech recognition.”, INTERSPEECH 2022 [3] Thomas, Samuel, et al. "Integrating text inputs for training and adapting rnn transducer asr models.” ICASSP2022 [4] Sainath, Tara N., et al. "Joist: A joint speech and text streaming model for asr." SLT2023 ユーザ辞書

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 20 【論文紹介】RNN-Tにおける音声認識精度と遅延の同時最適化[5] •
従来手法は、文字列出力確率に重み付け(FastEmit[6])または遅延が閾値以上のアラインメントを除外(Ar-RNN-T[7])するloss設計 • 提案手法は、学習時の損失関数に「期待遅延」を組み込むことで遅延を直接的に評価・削減する最小遅延学習 • 単語正解精度の劣化を少なく、PR90でも27ミリ秒と低遅延な文字出力を達成 [5] Shinohara, Yusuke, and Shinji Watanabe. "Minimum latency training of sequence transducers for streaming end -to-end speech recognition." INTERSPEECH 2022 [6] J. Yu et al., "FastEmit: Low-Latency Streaming ASR with Sequence-Level Emission Regularization," ICASSP 2021 [7] Mahadeokar, Jay, et al. "Alignment restricted streaming recurrent neural network transducer." SLT 2021

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 【論文紹介】 End-to-End音声認識における表記と読みの同時推定[8] •
出力する単語の表記文字列と対応する読みや品詞など素性を単一の系列として出力 • 表記のみを出力するモデルと比較し、文字誤り率の若干低下あるものの、計算量を大きく変えずに高精度に表記と読みの同時推定が可能であることを確認 • 発表論文ではTransformer-CTCモデルを使用しているが、プロダクションではRNN-Tに適応 [8]M. Omachi., et al., “End-to-end ASR to jointly predict transcriptions and linguistic annotations.,” Proc. NAACL2021. その後日本橋そのあとにほんばしにっぽんばしそのご課題：発話内容に対する表記と読みを同定したい

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 22 LINEヤフーにおける音声合成技術

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 23 LINEヤフーの音声合成の概要サーバ型音声合成
オンデバイス型音声合成 • iOS/Androidとして社内提供 • インターネットに接続することなく、電波が届きにくい環境や機密性の高い環境でも利用可能 • 合成音声品質はAchorisよりは劣化するもの実用レベル • RESTful APIとして社内提供 • 高品質かつ感情豊かな音声合成が特徴 • 音声ナレーション制作ツールも社内提供しており、株主総会のAIナレーションなど多数の利用実績 • 研究開発中の最先端技術も鋭意導入 2024.07 Yahoo!カーナビ・マップで導入社内向け音声ナレーション制作ツール

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 24 Achoris :
表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-40分ほどの所望話者の音声から音声合成モデルを作成可能

表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-40分ほどの所望話者の音声から音声合成モデルを作成可能

表現力豊かな音声合成システム • 特徴1: 7つのスタイル表現で感情強度を制御可能 • 特徴2: 人間並の品質で男女17名をプリセットラインナップ • 特徴3: 10秒-3時間ほどの所望話者の音声から音声合成モデルを作成可能元話者合成音声音声収録時間女性 10sec スタジオ収録配信者女性 180min スタジオ収録

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 27 LINEヤフーにおける音声生成基盤モデル(1/3) フレームワーク：
NANSY++ [9] 1st stage: 基盤モデルの学習 • 大量の音声データから解釈可能な中間表現を獲得 • 音声波形をピッチ + 言語情報 + 声質情報に分析・再合成 [9]Choi, Hyeong-Seok, et al. “NANSY++: Unified voice synthesis with neural analysis and synthesis.” ICLR 2023

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 28 LINEヤフーにおける音声生成基盤モデル(2/3) フレームワーク：
NANSY++ 2nd stage: Down-stream task への応用 • ピッチ + 言語情報 + 声質情報をタスクに応じた条件で推定し、音声生成

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 29 LINEヤフーにおける音声生成基盤モデル(3/3) TTS
への応用言語情報・ピッチの概形を入力テキストから取得声質情報・ピッチの高さを目的話者の音声から取得大きく2種類のTTSがある • Multi-speaker TTS: テキストは任意。目的話者は学習データの中から選択 • Zero-shot TTS：テキストも目的話者も任意 Source speaker’s wave Generated wave (content: text, timbre: target) Target speaker label Text 「これはテストです。」 Target speaker’s wave

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 30 【論文紹介】明示的なピッチのモデル化&⼀貫学習による⾃然な感情音声合成[10] •
課題としては、⼀貫学習を採用した音声合成モデルを用いても、ピッチ（声の高さ）や発音の多様性が大きい感情豊かな音声を高品質に生成することは難しい • 提案手法では、感情音声合成の際により重要となるピッチ情報を陽にモデル化することにより生成音声におけるピッチ情報をより正確に表現することを可能にした。 Style Reference VITS Period-VITS (proposed) Natural Happy Neutralだと人間並みの品質 [10]Yuma Shirahata, et al., “Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-End Emotional Speech Synthesis”, ICASSP2023 自然性のMOS評価

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 31 【論文紹介】オンデバイス推論に向けたボコーダーの高速化[11] [11]Masaya
Kawamura, et al., “Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform”, ICASSP2023 • VITSをベースとしてiSTFTNetとマルチバンド生成戦略の採用によるボコーダーの高速化 • 従来手法のVITSと比較し、音声品質を劣化させずに4倍高速化 Phonemes Text Encoder Duration Predictor Flow Upsample × Output Convolution ×2 iSTFT Decoder Synthesized waveform MB-iSTFT-VITS: Fixed Synthesis Filter MS-iSTFT-VITS: Trainable Synthesis Filter Prior Params Upsampling ResBlock iSTFT iSTFT iSTFT Magnitude Phase Upsampling Upsampling Upsampling Upsampling signals VAE latent variable in original VITS VAE 潜在変数は、サブバンド信号ごとに振幅変数と位相変数に投影サブバンド信号は合成フィルタを使用してフルバンド波形に統合 iSTFT演算による各サブバンド信号の生成 Smaller version of VITS and MB-iSTFT-VITS 生成音声の⾃然性MOS評価およびRTF(on Intel Core [email protected] GHz ) x4@RTF

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 32 まとめ •
LINEヤフーの音声言語情報処理AIにおける音声認識・音声合成を中心に紹介 • 他、音楽情報処理、マルチモーダルAIの研究開発も推進中 • Interspeech 2024発表論文 • Robin Scheibler, et al., Universal Score-based Speech Enhancement with High Content Preservation Score-base diffusionと敵対学習を用いた音声強調の提案 • Wangyou Zhang, Robin Scheibler, et al. URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement ユニバーサルな音声強調の研究開発に向けたコンペティション • Yuma Shirahata, et al. Audio-conditioned phonemic and prosodic annotation for building text-to-speech models from unlabeled speech data 大規模な疑似ラベルを活用した高精度な音素・韻律アノテーション • Masaya Kawamura, et al.LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning PromptTTS実現に向けた話者スタイル・話者特徴プロンプトコーパス公開 • Hokuto Munakata, et al.Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework End-to-End歌唱者ダイアライゼーションのためNANSY++フレームワークによる楽曲データ • Yusuke Fujita, et al.Audio Fingerprinting with Holographic Reduced Representations 楽曲認識のための計算効率的な音響フィンガープリント • Yuki Saito, et al.SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark [東大猿渡研共同研究]日本語母語話者100名によるスマートフォン収録音声のコーパス • Takuto Igarashi , et al. Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment [東大猿渡研共同研究]録音の品質と環境を考慮したノイズロバストな音声変換の改善

LINEヤフー株式会社における音声言語情報処理AI研究開発@SP/SLP研究会 2024.10.22

LINEヤフー株式会社における音声言語情報処理AI研究開発@SP/SLP研究会 2024.10.22

LINEヤフーTech (LY Corporation Tech) PRO

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Featured

Transcript

Internal Use Only © LY Corporation © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 2 Agenda LINEヤフーについて

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 3 PROFILE 三宅

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 4 LINEヤフーについて

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 5 サービスコミュニケーションアプリ「LINE」や総合インターネットサービス「Yahoo!

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 6 事業ポートフォリオメディアから通信までを網羅する世界でも類を見ない多様な事業ポートフォリオ

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 7 LINEヤフーにおける研究開発音声音響系の主要な国際会議の採択実績

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 8 LINEヤフーにおける音声言語情報処理AIの概要

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーにおける音声言語情報処理AIプロダクトの変遷 9 2011

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 10 LINEヤフーでは音声UIや動画・音楽コンテンツの音響解析に関わる研究開発を推進

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 11 LINEヤフーにおける音声認識

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 12 LINEヤフーの音声認識の概要リアルタイム音声認識

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 13 LINEヤフーの音声認識の概要リアルタイム音声認識

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 LINEヤフーのオンデバイス型音声認識の特徴 • RNN-TransducerベースのASRモデルを採用

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 15 LINEヤフーのオンデバイス型音声認識デモ音声検索アプリ(iOS)に導入済み

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 16 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 17 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 18 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 19 オンデバイス型音声認識の実用化に向けた工夫 ASR+End-Pointerモデル学習

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 20 【論文紹介】RNN-Tにおける音声認識精度と遅延の同時最適化[5] •

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 【論文紹介】 End-to-End音声認識における表記と読みの同時推定[8] •

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 22 LINEヤフーにおける音声合成技術

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 23 LINEヤフーの音声合成の概要サーバ型音声合成

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 24 Achoris :

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 25 Achoris :

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 26 Achoris :

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 27 LINEヤフーにおける音声生成基盤モデル(1/3) フレームワーク：

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 28 LINEヤフーにおける音声生成基盤モデル(2/3) フレームワーク：

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 29 LINEヤフーにおける音声生成基盤モデル(3/3) TTS

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 30 【論文紹介】明示的なピッチのモデル化&⼀貫学習による⾃然な感情音声合成[10] •

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 31 【論文紹介】オンデバイス推論に向けたボコーダーの高速化[11] [11]Masaya

Internal Use Only © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22 32 まとめ •

Internal Use Only © LY Corporation © LY Corporation IEICE-SP/IPSJ-SLP研究会@2024.10.22