桃太郎デスマッチー Azure / AWS / GCP で Speech-To-Text の結果を比べてみた！

Slide 1

Slide 1 text

桃太郎デスマッチ Azure / AWS / GCP で Speech-To-Text の結果を比べてみた！登壇者堀尾風仁 / 株式会社神戸デジタル・ラボハッシュタグ #azuretechlove M i c r o s o f t I g n i t e T h e T o u r : O s a k a 登壇資料 Theater 3 / UNC10033 / 14:50～16:00 (70分)

Slide 2

Slide 2 text

・堀尾風仁・・神戸デジタル・ラボ・新事業創造係班班長・・コミュニティオーガナイザー A B O U T M E https://codezine.jp/article/detail/11433 © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved.

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

学習済みAI (人工知能) サービス比較表 : まずは 3大クラウド ( Azure / AWS / GCP ) の概要 Cognitive Services AI Service Cloud AI https://aws.amazon.com/machine-learning/?nc1=h_ls https://cloud.google.com/products/ai/building-blocks/ https://azure.microsoft.com/services/cognitive-services/ 機械学習の専門知識がなくても、あらゆる開発者が利用することができます。必要なのは、見る、聞く、話す、検索する、理解する、そして意思決定を加速させるための機能をアプリに埋め込む API 呼び出しです。 AWS の事前トレーニング済み AI サービスでは、アプリケーションやワークフロー用のすぐに使えるインテリジェンスが提供されます。 AWS の AI サービスでは機械学習の経験は必要ありません。 AI を簡単に既存アプリケーションと連携させたり、インテリジェントなアプリケーションを新たに構築したりして、さまざまなユースケースに対応できます。サービス (概要) 公式ページ (画面) 提供元クラウド ( URL ) API (数) 27 種類 12 種類 10 種類 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.

Slide 7

Slide 7 text

Cloud Text-to-Speech API Cloud Speech-to-Text API 決定 (分析/予測) Anomaly Detector (プレビュー) Content Moderator Personalizer Amazon Personalize Amazon Forecast Amazon Fraud Detector Recommendations AI (BETA) Cloud Inference API (BETA) AutoML Tables (BETA) 言語音声検索視覚 Immersive Reader (プレビュー) Language Understanding QnA Maker Text Analytics Translator Text Bing Autosuggest Bing Custom Search Bing Entity Search Bing Image Search Bing News Search Bing Spell Check Bing Video Search Bing Visual Search Bing Web Search Speech to Text Text to Speech Speech Translation Speaker Recognition (プレビュー) Computer Vision Custom Vision Face Form Recognizer (プレビュー) Ink Recognizer (プレビュー) Video Indexer Vision AI Video AI Cloud Text-to-Speech API Cloud Speech-to-Text API Translation Natural Language Dialogflow Amazon Kendra Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Textract Amazon Translate Amazon Comprehend Amazon Lex Amazon Codeguru サービス無し学習済みAI (人工知能) サービス : 3大クラウドのラインナップを調べてみた © 2019 Kobe Digital Labo, Inc. All Rights Reserved.

Slide 8

Slide 8 text

Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス : Speech To Text 比較 ( 音声 → テキスト ) スペック比較サービス名対応言語 ( 1人 / 複数人 / ストリーミング ) ※1 プログラミング言語開発ドキュメント ( 日本語対応 ) Speech to Text Amazon Transcribe Cloud Speech-to-Text API カスタム語彙 ( カスタマイズ可能かどうか ) 31 / 記載なし / 6 39 / 2 / 記載なし 120 / 記載なし / 記載なし ○ 特徴 https://docs.microsoft.com/ja-jp/azure/ cognitive-services/speech-service/speech-to-text ・発話言語特定(4言語) ・シーンに応じて複数モデル選択可 Java, Python + (※CLI) C++, C#, Java, Javascript, Node.js Objective-C, Python, Swift C#, Go, Node.js, JAVA PHP, Python, RUBY + (※CLI) ○ ・種類豊富なSDK/クイックスタート・明瞭なサービスの切り分け https://docs.aws.amazon.com/transcribe /latest/dg/what-is-transcribe.html https://cloud.google.com/ products/ai/building-blocks/ ・話者識別 (2~10名) が可能・医療業界に特化した認識モデルがある ○ ※1 同一言語、他方言含む。 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.

Slide 9

Slide 9 text

学習済みAI (人工知能) サービス : Speech To Text 比較 ( 音声 → テキスト ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 3大クラウドの音声認識サービスの精度を比較してみました！【評価項目】 1. 同一音声ファイルをアップロードし精度を検証する。 2. 対応音声ファイル形式 3. 開発のしやすさ ( 環境構築 ) 4. ドキュメントの読みやすさ ( 日本語 ) vs vs

Slide 10

Slide 10 text

© 2019 Kobe Digital Labo, Inc. All Rights Reserved. 実際にそれぞれのクイックスタートを試してみた ( Azure 編 ) 【事前準備】 Azrue MarketPlace より Speech Service サブスクリプションキーを発行する【手順】サンプルを Web Apps にホストするまで (作業目安: 10分~15分) 1. Azure-Samples/cognitive-services-speech-sdk の GitHubリポジトリをクローン 2. pip install --upgrade azure-cognitiveservices-speech ( SDKインストール ) 3. quickstart.py に修正を加える (サブスクリプションキー&使用リージョン&ファイルパス) 4. 日本語変換に対応するため speech_config の設定を追加する 5. resource 配下に対象の音声ファイルを追加 6. $ python quickstart.py を実行 https://github.com/Azure-Samples/cognitive-services-speech-sdk

Slide 11

Slide 11 text

実際にそれぞれのクイックスタートを試してみた ( AWS 編 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【事前準備】 AWS CLI セットアップ / SDK for Python (boto3) インストール【手順】サンプルを動作検証するまで (作業目安: 10分~15分) 1. 今回解析する音声ファイル (mp4) を S3 にアップロードする 2. ご利用開始にあたって (SDK for Python) ページを開く 3. サンプルの Python スクリプトを追加＆修正を加える (音声の言語指定&ファイル拡張子＆リージョン) 4. python スクリプトを実行 (今回はコンソール画面で結果を確認)

Slide 12

Slide 12 text

実際にそれぞれのクイックスタートを試してみた ( GCP 編 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【手順】サンプルを動作検証するまで (作業目安: 20~25分) 1. クライアントライブラリをインストールする 2. サンプルの Python スクリプトを追加＆修正を加える (音声ファイルパス&エンコード方式& サンプリング周波数を指定) 4. python スクリプトを実行 ( 結果確認 ) 【事前準備】プロジェクトの作成 / Cloud SDK のインストール / 環境変数の設定 (GOOGLE_APPLICATION_CREDENTIALS )

Slide 13

Slide 13 text

実際にそれぞれのクイックスタートを試してみた ( 検証その1 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【同じ音声ファイルを3つのクラウドで検証してみる (短文) 】みなさん、こんにちは。こちらは UNC10033 のアンカンファレンスセッションになります。 ( AWS 結果 : △ ) 皆さんこんにちはこちらはに始まる丸三さんのアンカンファレンスセッションになります ( Azure 結果 : 〇 ) 皆さんこんにちはこちらはun c一一〇〇さんさんの案カンファレンスセッションになります。 ( GCP 結果 : ◎ ) 音声エンコーディング形式が非対応だったので FLAC に変換皆さんこんにちはこちらは unc 10033のアンカンファレンスセッションになります

Slide 14

Slide 14 text

実際にそれぞれのクイックスタートを試してみた ( 検証その2 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【同じ音声ファイルを3つのクラウドで検証してみる (長文) 】むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。おばあさんが川でせんたくをしていると、ドンブラコ、ドンブラコと、大きな桃が流れてきました。「おや、これは良いおみやげになるわ」おばあさんは大きな桃をひろいあげて、家に持ち帰りました。そして、おじいさんとおばあさんが桃を食べようと桃を切ってみると、なんと中から元気の良い男の赤ちゃんが飛び出してきました。「これはきっと、神さまがくださったにちがいない」子どものいなかったおじいさんとおばあさんは、大喜びです。桃から生まれた男の子を、おじいさんとおばあさんは桃太郎と名付けました。桃太郎はスクスク育って、やがて強い男の子になりました。この長文を 3大クラウド ( Azure / AWS /GCP ) で試してみると、どうなるか！？ vs vs

Slide 15

Slide 15 text

実際にそれぞれのクイックスタートを試してみた ( 検証その2 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【 Azure: 結果】昔昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました。お婆さんが、川で洗濯をしていると、どんぶらこドンブラコとokina桃が流れてきました。おや、これは良いおみやげになるわ。おばあさんは大きな桃を拾い上げて家に持ち帰りました。そしておじいさんとおばあさんが桃を切って食べようとモモを切ってみるとなんと中から元気の良い男の赤ちゃんが飛び出してきました。これはきっと神様が下さったに違いない。子供のいなかったおじいさんとおばあさんは大喜びです。桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました。桃太郎はすくすく育ってやがてしい男の子になりました。 ⇒誤認識はあるが音の認識はあっている (表記揺れがある)・・・〇

Slide 16

Slide 16 text

実際にそれぞれのクイックスタートを試してみた ( 検証その2 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【 AWS: 結果】昔昔あるところにおおじいさんとおばあさんが住んでいましたお爺さんは山へしばかりにおばさんは可愛い選択に行きましたおばさんが川で選択をしているとドンブラコドンブラコと大きなものが流れてきました親これは良いお土産になるわおばさんは大きなものを拾い上げて家に持ち帰りましたそしてお爺さんとお婆さんが思う切って食べよと桃を切ってみるとなんと中から元気の良い男の赤ちゃんが飛び出してきましたこれはきっと神様が下さたに違いない子供のいなかったお爺さんとお婆さんはお喜びです桃から生まれた男の子おおじいさんとおばあさんは桃太郎と名付けました桃太郎はすくすく育ってやがて強い男の子になりました ⇒ かなり誤認識が多い印象 (漢字へのご変換、テキストの過不足)・・・△

Slide 17

Slide 17 text

実際にそれぞれのクイックスタートを試してみた ( 検証その2 ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 【 AWS: 結果】昔々あるところにおじいさんとおばあさんが住んでいましたおじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きましたおばあさんが川で洗濯をしているとどんぶらこどんぶらこと大きな桃が流れてきましたおやこれは良いお土産になるわおばあさんは大きな桃を拾い上げて家に持ち帰りましたそしておじいさんとおばあさんが桃を切って食べようと桃を切ってみるとなんと中から元気に泳い男の赤ちゃんが飛び出してきましたこれはきっと神様がくださったに違いない子供のいなかったおじいさんとおばあさんは大喜びです桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました桃太郎はスクスク育ってやがて強い男の子になりました ⇒ ほとんど誤認識がない ( 短文にも長文にもどちらにも対応可能 ) ・・・◎

Slide 18

Slide 18 text

Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス : Speech To Text の比較 (主観含む) サービス名対応ファイル形式ドキュメント読みやすさ (※2) Speech to Text Amazon Transcribe Cloud Speech-to-Text API 音声認識の精度 (長文) ※1, ※2 筆者の主観的判断です。料金体系開発のしやすさ (※1) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. ◎ △ ○ ・ドキュメント内の画像も豊富・ドキュメント量も多い・簡潔で分かりやすいが、トラブルシューティングが少ない・ドキュメントページのデザインが良い・必要な情報にすぐに到達できる 12ヶ月60分無料 ( 以降 0.0004USD / 1秒 ) ( ¥158.35 / 時間 ) ※ 15 秒未満のリクエストについては 15 秒分の料金が発生 Free : 1 か月あたり 5 百万文字まで無料 Standard : ¥112 / 時間同時接続数 ( Free 1個 / Standard: 20個 ) 標準 : 60分まで無料 (以降、$0.006 / 15秒) プレミアム : $0.009 / 15秒 ※ 標準の場合使用モデルが限定される = < mp3 | mp4 | wav | flac 拡張子ではなく音声エンコーディング FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE wav ( PCM 0 ) , OGG (オーパス) [バッチ形式(有料)のみ MP3追加] < ＞〇 △ ◎

Slide 19

Slide 19 text

桃太郎デスマッチ: まとめ © 2019 Kobe Digital Labo, Inc. All Rights Reserved. ・精度の順で並べると、残念ながら今回は GCP> Azure > AWS の順となった。・ドキュメントきめ細やかさは Azure > GCP > AWS のように感じた (主観) ・開発SDKの豊富さの順でも Azure ＝ GCP > AWS となった (CLI含む) 3大クラウドサービスを比較してみて感じたこと・Azure (精度と導入しやすさバランス) / AWS (AWS他サービスとの連携:S3) / GCP (精度一点重視) ・カスタムせずに汎用的なモデルのみを使用する場合だと GCP が一番精度が高い。・学習済みAIサービスの種類(数)は、Azure ≫ AWS > GCP の順となり、明確な用途があるのであれば Azure が一番手っ取り早く導入できる印象を受けた。・句読点が反映されるのは Azure だけ (標準設定) だった・利用料金でいうと、Azure < AWS = GCP となるので Azure が一番安い。・GCPは細かなチューニングができる分、検証時に詰まるポイントが多いように感じた。