Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の...
Search
堀尾風仁 Futo Horio
January 23, 2020
Business
2
1k
桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の結果を比べてみた!
2020/01/23 : Microsoft Ignite The Tour : Osaka
UNC10033 アンカンファレンスセッション
LT登壇資料 / 株式会社神戸デジタル・ラボ
堀尾風仁 Futo Horio
January 23, 2020
Tweet
Share
More Decks by 堀尾風仁 Futo Horio
See All by 堀尾風仁 Futo Horio
Azure Digital Twins と Azure SignalR Service を使って IoT データを Mixed Reality に接続する
futo23
0
280
MRTK Graphics Tools Overview - 概要説明
futo23
0
370
MRTK3 - DataBinding and Theming 入門
futo23
0
830
Microsoft Mesh に学ぶ Mixed Reality の気持ちの良い UX とは? ーMRTK v2.7.3 で実験してみた
futo23
0
540
MRTK Test Utilities で始めるテスト駆動開発 (TDD) 入門 | XR Kaigi 2021
futo23
1
1.3k
Azure Remote Rendering Recap - サービス概要と活用事例
futo23
1
3.2k
デブサミ2021 - 不確定要素が強い時代の生存戦略 ― U30が「好きなコト」で突き抜けるためには!?
futo23
1
1.7k
MR Dev Days Japan 前夜祭 - Azure Remote Rendering のご紹介
futo23
1
880
不確定要素の強い時代の生存戦略 ー U30が好きなコトで突き抜けるためには?[Session17]
futo23
0
3.5k
Other Decks in Business
See All in Business
エンジニアよ痛みを知れ
nobuoooo
0
180
Growth Book
kuradashi
0
120
組織としてのプロダクトマネジメント力を高める〜Sansanの実践と課題〜
sansantech
PRO
3
130
RSGT2026 Dave Snowden Keynote
julesyim
0
210
ミツモアAI推進G AI活用Tips50
mmota
0
360
爆速入力が可能に! つよ〜い味方 Aqua Voice
panchaaan_2
0
210
三井物産グループのデジタル証券〜千代田区・レジデンス〜徹底解説セミナー
c0rp_mdm
PRO
1
1.9k
エニグモ_会社紹介資料
enigmo_hr
0
2.5k
なぜ、あのPdMは「時間がない」と言わないのか? ~元エンジニアPdMが実践する「ドキュメント化 x MCP」の全貌~
sam8helloworld
0
140
AIがコードを書く時代にエンジニア組織が事業に貢献する仕組み / How engineering organizations can contribute to business in an age where AI writes code
bpstudy
0
190
【新卒採用資料】Natee Company Deck _202512
nateehr
0
1.4k
【素人向け生成AI入門】保健師のチカラにAIをプラス!
minamototeruya
0
190
Featured
See All Featured
AI: The stuff that nobody shows you
jnunemaker
PRO
1
150
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
120
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Music & Morning Musume
bryan
46
7k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
360
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
360
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
35
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
190
Transcript
桃太郎デスマッチ Azure / AWS / GCP で Speech-To-Text の結果を比べてみた! 登壇者
堀尾 風仁 / 株式会社神戸デジタル・ラボ ハッシュタグ #azuretechlove M i c r o s o f t I g n i t e T h e T o u r : O s a k a 登 壇 資 料 Theater 3 / UNC10033 / 14:50~16:00 (70分)
・ 堀 尾 風 仁 ・ ・ 神 戸 デ
ジ タ ル ・ ラ ボ ・ 新 事 業 創 造 係 班 班 長 ・ ・ コ ミ ュ ニ テ ィ オ ー ガ ナ イ ザ ー A B O U T M E https://codezine.jp/article/detail/11433 © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
突然ですが、、 こんなこと考えたことないですか? © 2019 Kobe Digital Labo, Inc. All Rights
Reserved.
桃太郎を朗読して Speech To Text をすると、 Azure / AWS / GCP
で どのくらい精度に差が生まれるのだろう? © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
実際やってみたので、 今日はそのお話をします! © 2019 Kobe Digital Labo, Inc. All Rights
Reserved.
学習済みAI (人工知能) サービス比較表 : まずは 3大クラウド ( Azure / AWS
/ GCP ) の概要 Cognitive Services AI Service Cloud AI https://aws.amazon.com/machine-learning/?nc1=h_ls https://cloud.google.com/products/ai/building-blocks/ https://azure.microsoft.com/services/cognitive-services/ 機械学習の専門知識がなくても、あらゆる開発者が利用することができます。 必要なのは、見る、聞く、話す、検索する、理解する、そして意思決定を 加速させるための機能をアプリに埋め込む API 呼び出しです。 AWS の事前トレーニング済み AI サービスでは、アプリケーションや ワークフロー用のすぐに使えるインテリジェンスが提供されます。 AWS の AI サービスでは機械学習の経験は必要ありません。 AI を簡単に既存アプリケーションと連携させたり、インテリジェントな アプリケーションを新たに構築したりして、さまざまなユースケースに 対応できます。 サービス (概要) 公式ページ (画面) 提供元 クラウド ( URL ) API (数) 27 種類 12 種類 10 種類 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
Cloud Text-to-Speech API Cloud Speech-to-Text API 決定 (分析/予測) Anomaly Detector
(プレビュー) Content Moderator Personalizer Amazon Personalize Amazon Forecast Amazon Fraud Detector Recommendations AI (BETA) Cloud Inference API (BETA) AutoML Tables (BETA) 言語 音声 検索 視覚 Immersive Reader (プレビュー) Language Understanding QnA Maker Text Analytics Translator Text Bing Autosuggest Bing Custom Search Bing Entity Search Bing Image Search Bing News Search Bing Spell Check Bing Video Search Bing Visual Search Bing Web Search Speech to Text Text to Speech Speech Translation Speaker Recognition (プレビュー) Computer Vision Custom Vision Face Form Recognizer (プレビュー) Ink Recognizer (プレビュー) Video Indexer Vision AI Video AI Cloud Text-to-Speech API Cloud Speech-to-Text API Translation Natural Language Dialogflow Amazon Kendra Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Textract Amazon Translate Amazon Comprehend Amazon Lex Amazon Codeguru サービス無し 学習済みAI (人工知能) サービス : 3大クラウドのラインナップを調べてみた © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :
Speech To Text 比較 ( 音声 → テキスト ) スペック比較 サービス名 対応言語 ( 1人 / 複数人 / ストリーミング ) ※1 プログラミング言語 開発ドキュメント ( 日本語対応 ) Speech to Text Amazon Transcribe Cloud Speech-to-Text API カスタム語彙 ( カスタマイズ可能かどうか ) 31 / 記載なし / 6 39 / 2 / 記載なし 120 / 記載なし / 記載なし ◦ 特徴 https://docs.microsoft.com/ja-jp/azure/ cognitive-services/speech-service/speech-to-text ・発話言語特定(4言語) ・シーンに応じて複数モデル選択可 Java, Python + (※CLI) C++, C#, Java, Javascript, Node.js Objective-C, Python, Swift C#, Go, Node.js, JAVA PHP, Python, RUBY + (※CLI) ◦ ・種類豊富なSDK/クイックスタート ・明瞭なサービスの切り分け https://docs.aws.amazon.com/transcribe /latest/dg/what-is-transcribe.html https://cloud.google.com/ products/ai/building-blocks/ ・話者識別 (2~10名) が可能 ・医療業界に特化した認識モデルがある ◦ ※1 同一言語、他方言含む。 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
学習済みAI (人工知能) サービス : Speech To Text 比較 ( 音声
→ テキスト ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 3大クラウドの 音声認識サービスの精度 を比較してみました! 【 評価項目 】 1. 同一音声ファイルをアップロードし精度を検証する。 2. 対応音声ファイル形式 3. 開発のしやすさ ( 環境構築 ) 4. ドキュメントの読みやすさ ( 日本語 ) vs vs
© 2019 Kobe Digital Labo, Inc. All Rights Reserved. 実際にそれぞれの
クイックスタート を試してみた ( Azure 編 ) 【 事前準備 】 Azrue MarketPlace より Speech Service サブスクリプションキーを発行する 【 手順 】サンプルを Web Apps にホストするまで (作業目安: 10分~15分) 1. Azure-Samples/cognitive-services-speech-sdk の GitHubリポジトリをクローン 2. pip install --upgrade azure-cognitiveservices-speech ( SDKインストール ) 3. quickstart.py に修正を加える (サブスクリプションキー&使用リージョン&ファイルパス) 4. 日本語変換に対応するため speech_config の設定を追加する 5. resource 配下に 対象の音声ファイルを追加 6. $ python quickstart.py を実行 https://github.com/Azure-Samples/cognitive-services-speech-sdk
実際にそれぞれの クイックスタート を試してみた ( AWS 編 ) © 2019 Kobe
Digital Labo, Inc. All Rights Reserved. 【 事前準備 】 AWS CLI セットアップ / SDK for Python (boto3) インストール 【 手順 】サンプルを 動作検証するまで (作業目安: 10分~15分) 1. 今回解析する 音声ファイル (mp4) を S3 にアップロードする 2. ご利用開始にあたって (SDK for Python) ページを開く 3. サンプルの Python スクリプトを追加&修正を加える (音声の言語指定&ファイル拡張子&リージョン) 4. python スクリプトを実行 (今回はコンソール画面で結果を確認)
実際にそれぞれの クイックスタート を試してみた ( GCP 編 ) © 2019 Kobe
Digital Labo, Inc. All Rights Reserved. 【 手順 】サンプルを 動作検証するまで (作業目安: 20~25分) 1. クライアントライブラリをインストールする 2. サンプルの Python スクリプトを追加&修正を加える (音声ファイルパス&エンコード方式& サンプリング周波数を指定) 4. python スクリプトを実行 ( 結果確認 ) 【 事前準備 】 プロジェクトの作成 / Cloud SDK のインストール / 環境変数の設定 (GOOGLE_APPLICATION_CREDENTIALS )
実際にそれぞれの クイックスタート を試してみた ( 検証その1 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (短文) 】 みなさん、こんにちは。こちらは UNC10033 のアンカンファレンスセッションになります。 ( AWS 結果 : △ ) 皆さん こんにちは こちら は に 始まる 丸 三 さん の アンカンファレンス セッション に なり ます ( Azure 結果 : 〇 ) 皆さんこんにちはこちらはun c一一〇〇さんさんの案カンファレンスセッションになります。 ( GCP 結果 : ◎ ) 音声エンコーディング形式が非対応だったので FLAC に変換 皆さんこんにちはこちらは unc 10033のアンカンファレンスセッションになります
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (長文) 】 むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。 おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。 おばあさんが川でせんたくをしていると、ドンブラコ、ドンブラコと、大きな桃が流れてきました。 「おや、これは良いおみやげになるわ」 おばあさんは大きな桃をひろいあげて、家に持ち帰りました。 そして、おじいさんとおばあさんが桃を食べようと桃を切ってみると、 なんと中から元気の良い男の赤ちゃんが飛び出してきました。 「これはきっと、神さまがくださったにちがいない」 子どものいなかったおじいさんとおばあさんは、大喜びです。 桃から生まれた男の子を、おじいさんとおばあさんは桃太郎と名付けました。 桃太郎はスクスク育って、やがて強い男の子になりました。 この長文を 3大クラウド ( Azure / AWS /GCP ) で試してみると、どうなるか!? vs vs
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 Azure: 結果 】 昔昔あるところにおじいさんとおばあさんが住んでいました。 おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました。 お婆さんが、川で洗濯をしていると、どんぶらこド ンブラコとokina桃が流れてきました。 おや、これは良いおみやげになるわ。 おばあさんは大きな桃を拾い上げて家に持ち帰りました。 そしておじいさんとおばあさんが桃を切って食べようとモモを切っ てみると なんと中から元気の良い男の赤ちゃんが飛び出してきました。 これはきっと神様が下さったに違いない。 子供のいなかったおじいさんとおばあさんは大喜びです。 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました。 桃太郎はすくすく育ってやがてしい男の子になりました。 ⇒誤認識はあるが音の認識はあっている (表記揺れがある)・・・〇
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔 昔 ある ところ に お おじいさん と おばあさん が 住ん で い まし た お爺さん は 山 へ し ばかり に おば さん は 可愛い 選択 に 行き まし た おば さん が 川 で 選択 を し て いる と ドンブラコ ドンブラコ と 大きな もの が 流れ て き まし た 親 これ は 良い お 土産 に なる わ おば さん は 大きな もの を 拾い上げ て 家 に 持ち帰り まし た そして お 爺 さん と お 婆 さん が 思う 切っ て 食べよ と 桃 を 切っ て みる と なんと 中 から 元気 の 良い 男 の 赤ちゃん が 飛び出し て き まし た これ は きっと 神様 が 下さ た に 違い ない 子供 の い なかっ た お 爺 さん と お 婆 さん は お 喜び です 桃 から 生まれ た 男の子 お おじいさん と おばあさん は 桃太郎 と 名付け まし た 桃太郎 は すくすく 育っ て やがて 強い 男の子 に なり まし た ⇒ かなり誤認識が多い印象 (漢字へのご変換、テキストの過不足)・・・△
実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital
Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔々あるところにおじいさんとおばあさんが住んでいました おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました おばあさんが川で洗濯をしているとどんぶらこどんぶらこと大きな桃が流れてきました おやこれは良いお土産になるわ おばあさん は大きな桃を拾い上げて家に持ち帰りました そしておじいさんとおばあさんが桃を切って食べようと桃を切ってみると なんと中から元気に泳い男の赤ちゃんが飛び出してきました これはきっと神様がくださったに違いない 子供のいなかったおじいさんとおばあさんは大喜びです 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました 桃太郎はスクスク育ってやがて強い男の子になりました ⇒ ほとんど誤認識がない ( 短文にも長文にもどちらにも対応可能 ) ・・・◎
Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :
Speech To Text の比較 (主観含む) サービス名 対応ファイル形式 ドキュメント読みやすさ (※2) Speech to Text Amazon Transcribe Cloud Speech-to-Text API 音声認識の精度 (長文) ※1, ※2 筆者の主観的判断です。 料 金 体 系 開発のしやすさ (※1) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. ◎ △ ◦ ・ドキュメント内の画像も豊富 ・ドキュメント量も多い ・簡潔で分かりやすいが、 トラブルシューティングが少ない ・ドキュメントページのデザインが良い ・必要な情報にすぐに到達できる 12ヶ月60分無料 ( 以降 0.0004USD / 1秒 ) ( ¥158.35 / 時間 ) ※ 15 秒未満のリクエストについては 15 秒分の料金が発生 Free : 1 か月あたり 5 百万文字まで無料 Standard : ¥112 / 時間 同時接続数 ( Free 1個 / Standard: 20個 ) 標準 : 60分まで無料 (以降、$0.006 / 15秒) プレミアム : $0.009 / 15秒 ※ 標準の場合使用モデルが限定される = < mp3 | mp4 | wav | flac 拡張子ではなく音声エンコーディング FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE wav ( PCM 0 ) , OGG (オーパス) [バッチ形式(有料)のみ MP3追加] < > 〇 △ ◎
桃太郎デスマッチ: まとめ © 2019 Kobe Digital Labo, Inc. All Rights
Reserved. ・精度の順で並べると、残念ながら今回は GCP> Azure > AWS の順となった。 ・ドキュメントきめ細やかさは Azure > GCP > AWS のように感じた (主観) ・開発SDKの豊富さの順でも Azure = GCP > AWS となった (CLI含む) 3大クラウドサービスを比較してみて感じたこと ・Azure (精度と導入しやすさバランス) / AWS (AWS他サービスとの連携:S3) / GCP (精度一点重視) ・カスタムせずに汎用的なモデルのみを使用する場合だと GCP が一番精度が高い。 ・学習済みAIサービスの種類(数)は、Azure ≫ AWS > GCP の順となり、 明確な用途があるのであれば Azure が一番手っ取り早く導入できる印象を受けた。 ・句読点が反映されるのは Azure だけ (標準設定) だった ・利用料金でいうと、Azure < AWS = GCP となるので Azure が一番安い。 ・GCPは細かなチューニングができる分、検証時に詰まるポイントが多いように感じた。
Thanks © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
ご清聴ありがとうございました!