Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Web_Speech_APIと_Google_Cloud_Speech_to_Text_比較し...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Kawazu
July 02, 2020
Programming
390
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Web_Speech_APIと_Google_Cloud_Speech_to_Text_比較してみる.pdf
Kawazu
July 02, 2020
More Decks by Kawazu
See All by Kawazu
個人的に考える要件定義でやる一連の流れ
kawazu
0
430
ChatGPTで水平思考ゲームを行えるか試してみた
kawazu
0
360
新人プロダクトマネージャーの試行錯誤記録
kawazu
0
220
バックエンドエンジニアが初めてReactを触って感じたこと
kawazu
0
300
音楽仲間がいないのでバンドメンバーを実装した話
kawazu
0
120
JetsonNanoで自動作曲配信システムを作ってる途中の話
kawazu
0
780
bert-tokenizerノードを触ってみた
kawazu
0
340
BERTで文章関連度算出して戯れてみる
kawazu
0
160
Node-REDとAutomatorでプライバシーマスク作成を自動化する
kawazu
0
200
Other Decks in Programming
See All in Programming
例外の正しい扱い方 そのエラー try-catchして大丈夫?
jinwatanabe
0
280
フロントエンドとバックエンドで「1文字」を揃えよう
youkidearitai
PRO
0
740
Mujeres en SEO Summit 2026 - Greatest Disaster Hits en Web Performance
guaca
0
200
はてなアカウント基盤 State of the Union
cockscomb
0
420
AIだと陥りがちなJakarta EE最新技術への移行時の落とし穴と解決策
tnagao7
0
120
OSもどきOS
arkw
0
590
TypeScript+Orvalで実現する型安全かつ堅牢でスケーラブルなマルチチャネル通知基盤 / TSKaigi Night talks ~after conference~
d0riven
0
360
Performance Engineering for Everyone
elenatanasoiu
0
210
「なぜそう決めたのか」を残し続ける仕組み ― Notion AI カスタムエージェント × Slack連携による設計判断の自動記録 - NIKKEI Tech Talk #47
niftycorp
PRO
0
230
スマートグラスで並列バイブコーディング
hyshu
0
260
The NotImplementedError Problem in Ruby
koic
1
920
AI 時代のソフトウェア設計の学び方
masuda220
PRO
29
13k
Featured
See All Featured
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
540
Music & Morning Musume
bryan
47
7.2k
Context Engineering - Making Every Token Count
addyosmani
9
980
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Docker and Python
trallard
47
3.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
440
The agentic SEO stack - context over prompts
schlessera
0
820
RailsConf 2023
tenderlove
30
1.5k
We Are The Robots
honzajavorek
0
250
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Balancing Empowerment & Direction
lara
6
1.2k
Transcript
Web Speech APIと Google Cloud Speech to Text 比較してみる 河津正和
河津正和 株式会社博報堂アイ・スタジオ所属 • 主にバックエンド領域のテクニカルディレクター • 新規事業開発的なお仕事をしてます • コンテナ技術とか機械学習とか電子工作にも興味あり Twitter:@kawazu255_ Qiita:kawazu255
note:kawazu255
ここ数ヶ月のSpeech to Text
世はまさに大文字起こし時代
1ヶ月以内にリリースされた 文字起こしサービス AmiVoice ScribeAssist Notta GIJIREC
オンライン上でのやりとりが増えたことにより、 その中での付加価値が求められてきた 相手の顔が見えないと 伝わってるかどうか わからないなぁ 今相手が言ってたこと 聞き取れなかったけど、 聞き返しづらいなぁ オンライン飲みは 逃げ場がないよなぁ
(自宅だし) ブレストする時とか なんかやりづらくて 対面がいいなぁ
音声認識&話者認識の障壁が下がった いままで いま
各クラウドAIの強み(個人の感想) 音声認識 画像処理 チャットボット 自然言語処理 ? (Google Homeが強い?) (MS COCOのおかげ?)
(Conversation APIがいい感じ) (誰か教えて)
各クラウドAIの強み(個人の感想) 音声認識 画像処理 チャットボット 自然言語処理 ? (Google Homeが強い?) (MS COCOのおかげ?)
(Conversation APIがいい感じ) (誰か教えて)
Web Speech API Google Cloud Speech to Text API
Web Speech API • Webページ上で音声認識、音声合成を利用することができるJavascriptのAPI • 厳密にはGoogleが提供しているAPIではなく「仕様」。ただ実装されているブラウザ が現状Google Chromeのみ •
話す音声のリアルタイムな音声文字起こしが強み
None
Google Cloud Speech to Text API • Google提供のクラウドML API。その名の通りSpeech to
Textを行う • APIはREST形式で、どんなプラットフォームからでも使用できる • ストリーミングでの音声入力もできる(通信はgRPC)
None
特徴比較 Web Speech API Google Cloud Speech to Text API
リアルタイム性 高い 音声認識中の文字起こしもできる gRPC通信でなら可能 ただブラウザには対応してない プラットフォーム Google Chrome のみ どこでも使える 精度(主観) そこそこ かなり高い
Cloud Speech to Text APIを ブラウザでリアルタイムに 使いたい!
Voice Activity Detection(音声検出) • マイクへの音声入力を検知する技術 • VADって略されたりする • JSライブラリあり ◦
生JS用:https://github.com/kdavis-mozilla/vad.js ◦ npm installできる:https://www.npmjs.com/package/voice-activity-detection
{ fftSize: 1024, bufferLen: 1024, smoothingTimeConstant: 0.2, minCaptureFreq: 85, //
in Hz maxCaptureFreq: 255, // in Hz noiseCaptureDuration: 1000, // in ms minNoiseLevel: 0.3, // from 0 to 1 maxNoiseLevel: 0.7, // from 0 to 1 avgNoiseMultiplier: 1.2, onVoiceStart: function() {}, onVoiceStop: function() {}, onUpdate: function(val) {} } ノイズ検出フィルター 人間の声の周波数範囲 音声検出開始までの時間 集音環境変数
吾輩は猫である。名前はまだ無い。 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした 所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。しかもあとで聞くとそ れは書生という人間中で一番獰悪な種族であったそうだ。
注意点! • 音声検出まで若干のタイムラグがあり、喋り始めのワードを取得できない場合が多 い ◦ OK, Google的にデバイス側での準備ができないため • そもそも音声認識の精度は集音環境やマイクの性能に大きく影響を受ける ◦
Macのマイクは意外と広範囲の音を拾う ◦ SM58とかはそこそこの指向性とそこそこ狭い集音範囲 (10cmくらい)
その他やってみて思ったこと • 音声検出のみWeb Speech APIにして見た結果 ◦ VADライブラリとほぼ変わらなかった ◦ ブラウザ依存問題が出るため、 VADライブラリで十分。
• UI的な話 ◦ Web Speech APIの、話してる最中も文字起こしをしてくれる機能は唯一無二 (Androidにもあるけど) ◦ 話している途中はWeb Speech API、話終わった後の音声は Cloud Speech to Textという使い分け もありかも ◦ リアルタイム文字起こし UIにこだわるならブラウザの縛りをいれてもいいかも
オンライン会議支援サービス 開発中! ←サービス紹介ページです(事前登録できます)