Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Web_Speech_APIと_Google_Cloud_Speech_to_Text_比較してみる.pdf

Kawazu
July 02, 2020

 Web_Speech_APIと_Google_Cloud_Speech_to_Text_比較してみる.pdf

Kawazu

July 02, 2020
Tweet

More Decks by Kawazu

Other Decks in Programming

Transcript

  1. Google Cloud Speech to Text API • Google提供のクラウドML API。その名の通りSpeech to

    Textを行う • APIはREST形式で、どんなプラットフォームからでも使用できる • ストリーミングでの音声入力もできる(通信はgRPC)
  2. 特徴比較 Web Speech API Google Cloud Speech to Text API

    リアルタイム性 高い 音声認識中の文字起こしもできる gRPC通信でなら可能 ただブラウザには対応してない プラットフォーム Google Chrome のみ どこでも使える 精度(主観) そこそこ かなり高い
  3. Voice Activity Detection(音声検出) • マイクへの音声入力を検知する技術 • VADって略されたりする • JSライブラリあり ◦

    生JS用:https://github.com/kdavis-mozilla/vad.js ◦ npm installできる:https://www.npmjs.com/package/voice-activity-detection
  4. { fftSize: 1024, bufferLen: 1024, smoothingTimeConstant: 0.2, minCaptureFreq: 85, //

    in Hz maxCaptureFreq: 255, // in Hz noiseCaptureDuration: 1000, // in ms minNoiseLevel: 0.3, // from 0 to 1 maxNoiseLevel: 0.7, // from 0 to 1 avgNoiseMultiplier: 1.2, onVoiceStart: function() {}, onVoiceStop: function() {}, onUpdate: function(val) {} } ノイズ検出フィルター 人間の声の周波数範囲 音声検出開始までの時間 集音環境変数
  5. その他やってみて思ったこと • 音声検出のみWeb Speech APIにして見た結果 ◦ VADライブラリとほぼ変わらなかった ◦ ブラウザ依存問題が出るため、 VADライブラリで十分。

    • UI的な話 ◦ Web Speech APIの、話してる最中も文字起こしをしてくれる機能は唯一無二 (Androidにもあるけど) ◦ 話している途中はWeb Speech API、話終わった後の音声は Cloud Speech to Textという使い分け もありかも ◦ リアルタイム文字起こし UIにこだわるならブラウザの縛りをいれてもいいかも