Save 37% off PRO during our Black Friday Sale! »

Introduction of LINE's Speech Recognition efforts

Introduction of LINE's Speech Recognition efforts

LINEの音声認識に関する取り組みの紹介資料です。音声認識に応用されているプロダクトや、現在運用しているシステムや、End-to-Endの音声認識システムに関する取り組みを紹介しています。

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers
PRO

June 15, 2021
Tweet

Transcript

  1. LINEの音声認識 について Created by Yusuke Kida, LINE Speech Team 2021.05

  2. アジェンダ • LINEの⾳声認識プロダクトの紹介 • 現在運⽤している⾳声認識システム「NSpeech」 • 簡単な技術紹介 • 最近の取り組み •

    次世代の⾳声認識システム「NEST」 • 簡単な技術紹介 • 今後の予定
  3. アジェンダ • LINEの⾳声認識プロダクトの紹介 • 現在運⽤している⾳声認識システム「NSpeech」 • 簡単な技術紹介 • 最近の取り組み •

    次世代の⾳声認識システム「NEST」 • 簡単な技術紹介 • 今後の予定
  4. ⾳声認識の位置付け ⾳声 認識 ⼊⼒⾳声信号 「明⽇の天気 を教えて」 ⾔語 処理 「明⽇は⾬が降る でしょう」

    ⾳声 合成 応答⾳声信号 認識テキスト 応答テキスト
  5. CLOVA for Devices

  6. ਓؒຯ͋;ΕΔࣗવͳԠରΛ-*/&"J$BMMͰ࣮ݱ͠·͢ ίϯλΫτηϯλʔͷి࿩ରԠΛ"*ٕज़Ͱޮ཰Խ -*/&͕։ൃͨ͠ -*/&$-07"ͷ"*ٕज़Ͱ͋Δʮ$-07"4QFFDIʯʢԻ੠ೝࣝʣ ʮ$-07"7PJDFʯʢԻ੠߹੒ʣɺʮձ࿩੍ޚʯͷ࢓૊ΈΛ૊Έ߹Θͤɺ ͳΊΒ͔Ͱਓ ؒຯ͋;ΕΔࣗવͳձ࿩Λ࣮ݱ͍ͯ͠·͢ɻ ʢԻ੠ೝࣝʣ ʢԻ੠߹੒ʣ σΟʔϓϥʔχϯάΛ׆༻͠ɺԻڹϞσϧ

    ͱݴޠ஌ࣝͳͲͷύλʔϯೝٕࣝज़Λ࢖͍ɺ ਓ͕࿩͢ݴ༿Λจࣈʹม׵͢Δٕज़Ͱ͢ɻ -*/&$-07"ͷ"*ٕज़ %//Ի੠߹੒ Ͱɺ๮ಡΈͰ͸ͳ͍཈༲ͷ͋Δਓؒʹۙ ͍ࣗવͳԻ੠ΛԻ੠߹੒Ͱ࠶ݱ͠·͢ɻ -*/&"J$BMMͱ͸
  7. -*/&"J$BMMಋೖࣄྫʢूՙड෇ʣ ϠϚτӡ༌༷ ूՙड෇

  8. ΧʔϑϩϯςΟΞ༷ ચं༧໿ ࣄྫ̍ ࣄྫ̎ ҿ৯ళ΁ͷདྷళ༧໿ʢ౰೔ʣΛ"J$BMM͕ड෇ ༧໿಺༰͸FCJDB΁ࣗಈొ࿥ ચं༧໿Λ-*/&"J$BMM͕ड෇ ड෇ޙɺ͓٬༷ͷ-*/&ΞΧ΢ϯτ΁ड෇಺༰Λ௨஌ ༧໿ ۭ੮

    ֬ೝ ͦͷଞ ళฮ సૹ FCJDB ༧໿ ొ࿥ ü ௚લͷۭ੮֬ೝͳͲ౰೔༧໿Λళฮʹ୅ΘΓɺ ͢΂ͯ-*/&"J$BMM͕ड෇ɾొ࿥ ü ຬ੮ͷ৔߹ɺ୅ସ༧໿Մೳ࣌ؒ΍ۙྡଞళ΋ఏࣔ ü ελοϑ͸μογϡϘʔυͰ-*/&"J$BMMԠରϩάΛ֬ೝ ձ࿩ ü ࣄલʹ*73ͰৼΓ෼͚͠ɺચं༧໿͸-*/&"J$BMM͕ड෇ɾ ొ࿥ ü ༧໿৘ใΛࣗಈొ࿥͠ɺۭ͖ঢ়گ͸UJNZ΁ଈ࣌൓ө ü ελοϑ͸μογϡϘʔυͰ-*/&"J$BMMԠରϩάΛ֬ೝ 1P$Ͱͷ "*׬਱཰  ΤϏιϧ༷ ҿ৯ళ༧໿ -*/&"J$BMMಋೖࣄྫʢ༧໿ड෇ʣ
  9. 9 LINE ⾳声検索 発話⾳声を読み取り、検索やサービスへのショートカットへ適切なコンテンツに誘導します。 【検索機能】 【CLOVA機能】 【LINEアシスタント機能】 【その他】 天気/ニュース/映画/番組/⾳楽 ⼈物/場所/など

    運⾏情報/雑談(チャット) LINE交換QR/LINEpay/LINE公式 スタンプ/LINE MUSIC/LINEクーポ ンなど 流れている楽曲を検索
  10. 10 LINE ⾳声検索 1.[ホーム]>[設定] 3.[⾳声検索・操作]をオン 2.[LINE Labs]をタップ

  11. アジェンダ • LINEの⾳声認識プロダクトの紹介 • 現在運⽤している⾳声認識システム「NSpeech」 • 簡単な技術紹介 • 最近の取り組み •

    次世代の⾳声認識システム「NEST」 • 簡単な技術紹介 • 今後の予定
  12. NSpeechの特徴 • DNN-HMM型⾳声認識システム • 定型の短いコマンドの認識が得意 • 応答速度が速く,安価なマシンで⼤量のクエリを同時に捌ける • シナリオに応じてカスタマイズが可能

  13. NSpeechの技術構成 ⾳声区間 検出 特徴 抽出 認識 認識結果 ⾳響 モデル ⾔語

    モデル 語彙 辞書 ⾳声信号 … 特徴ベクトル列 複数のモジュールを 組み合わせて認識
  14. 精度を継続的に向上させるエコシステム Deploy Logging Transcribing Analyzing Modeling ※ログはユーザの同意を得たもののみ取得し、セキュアな環境から権限のある社員のみアクセス可能

  15. 最近の取り組み • オンライン会議字幕付与のプロトタイプシステム • エンジニアの「アンダーザテーブル」にてスタート • デモビデオ(YouTube) • LINE Developer

    Day 2020にて紹介
  16. アジェンダ • LINEの⾳声認識プロダクトの紹介 • 現在運⽤している⾳声認識システム「NSpeech」 • 簡単な技術紹介 • 最近の取り組み •

    次世代の⾳声認識システム「NEST」 • 簡単な技術紹介 • 今後の予定
  17. What is NEST? • NAVER/LINEで共同開発しているEnd-to-End⾳声認識システム ⾳声区間 検出 特徴 抽出 認識

    認識結果 E2E モデル ⾳声信号 … 特徴ベクトル列 単⼀のモデルだけで 認識が可能に︕
  18. NEST Demo LINE LIVEの動画に⾃動的に字幕を付与 • デモビデオ(YouTube) • LINE Developer Day

    2020にて紹介 • ⽇常会話でも⾼い認識精度
  19. NSpeech vs NEST NSpeech NEST 認識対象 定型の短いコマンド ⾃由度の⾼い対話 精度 ⾼い

    ⾮常に⾼い 応答待ち時間 短い ⻑い ハードウェア CPU(低コスト) GPU(⾼コスト) 語彙カスタマイズ 容易 難しい NESTのメリットは⾃由度の⾼い対話⾳声に対する⾼い精度 課題はまだ多いが、技術の進化が 速く解決が⾒込める
  20. ࿥Իͨ͠ձٞԻ੠Λॻ͖ى͜͢γεςϜ /&45ͷԠ༻ઌͷҰͭ CLOVA Note

  21. Appendix. ⾳声認識チーム責任者の紹介 ⽊⽥祐介 / Yusuke Kida • AI開発室 Speechチーム マネージャー

    • ⾳声技術の研究開発に約15年従事 • 2006.04- 東芝 • 2017.05- ヤフー • 2020.05- LINE