Upgrade to Pro — share decks privately, control downloads, hide ads and more …

桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の...

桃太郎デスマッチ ー Azure / AWS / GCP で Speech-To-Text の結果を比べてみた!

2020/01/23 : Microsoft Ignite The Tour : Osaka
UNC10033 アンカンファレンスセッション
LT登壇資料 / 株式会社神戸デジタル・ラボ

堀尾風仁 Futo Horio

January 23, 2020
Tweet

More Decks by 堀尾風仁 Futo Horio

Other Decks in Business

Transcript

  1. 桃太郎デスマッチ Azure / AWS / GCP で Speech-To-Text の結果を比べてみた! 登壇者

    堀尾 風仁 / 株式会社神戸デジタル・ラボ ハッシュタグ #azuretechlove M i c r o s o f t I g n i t e T h e T o u r : O s a k a 登 壇 資 料 Theater 3 / UNC10033 / 14:50~16:00 (70分)
  2. ・ 堀 尾 風 仁 ・ ・ 神 戸 デ

    ジ タ ル ・ ラ ボ ・ 新 事 業 創 造 係 班 班 長 ・ ・ コ ミ ュ ニ テ ィ オ ー ガ ナ イ ザ ー A B O U T M E https://codezine.jp/article/detail/11433 © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved. © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
  3. 桃太郎を朗読して Speech To Text をすると、 Azure / AWS / GCP

    で どのくらい精度に差が生まれるのだろう? © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
  4. 学習済みAI (人工知能) サービス比較表 : まずは 3大クラウド ( Azure / AWS

    / GCP ) の概要 Cognitive Services AI Service Cloud AI https://aws.amazon.com/machine-learning/?nc1=h_ls https://cloud.google.com/products/ai/building-blocks/ https://azure.microsoft.com/services/cognitive-services/ 機械学習の専門知識がなくても、あらゆる開発者が利用することができます。 必要なのは、見る、聞く、話す、検索する、理解する、そして意思決定を 加速させるための機能をアプリに埋め込む API 呼び出しです。 AWS の事前トレーニング済み AI サービスでは、アプリケーションや ワークフロー用のすぐに使えるインテリジェンスが提供されます。 AWS の AI サービスでは機械学習の経験は必要ありません。 AI を簡単に既存アプリケーションと連携させたり、インテリジェントな アプリケーションを新たに構築したりして、さまざまなユースケースに 対応できます。 サービス (概要) 公式ページ (画面) 提供元 クラウド ( URL ) API (数) 27 種類 12 種類 10 種類 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
  5. Cloud Text-to-Speech API Cloud Speech-to-Text API 決定 (分析/予測) Anomaly Detector

    (プレビュー) Content Moderator Personalizer Amazon Personalize Amazon Forecast Amazon Fraud Detector Recommendations AI (BETA) Cloud Inference API (BETA) AutoML Tables (BETA) 言語 音声 検索 視覚 Immersive Reader (プレビュー) Language Understanding QnA Maker Text Analytics Translator Text Bing Autosuggest Bing Custom Search Bing Entity Search Bing Image Search Bing News Search Bing Spell Check Bing Video Search Bing Visual Search Bing Web Search Speech to Text Text to Speech Speech Translation Speaker Recognition (プレビュー) Computer Vision Custom Vision Face Form Recognizer (プレビュー) Ink Recognizer (プレビュー) Video Indexer Vision AI Video AI Cloud Text-to-Speech API Cloud Speech-to-Text API Translation Natural Language Dialogflow Amazon Kendra Amazon Rekognition Amazon Polly Amazon Transcribe Amazon Textract Amazon Translate Amazon Comprehend Amazon Lex Amazon Codeguru サービス無し 学習済みAI (人工知能) サービス : 3大クラウドのラインナップを調べてみた © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
  6. Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :

    Speech To Text 比較 ( 音声 → テキスト ) スペック比較 サービス名 対応言語 ( 1人 / 複数人 / ストリーミング ) ※1 プログラミング言語 開発ドキュメント ( 日本語対応 ) Speech to Text Amazon Transcribe Cloud Speech-to-Text API カスタム語彙 ( カスタマイズ可能かどうか ) 31 / 記載なし / 6 39 / 2 / 記載なし 120 / 記載なし / 記載なし ◦ 特徴 https://docs.microsoft.com/ja-jp/azure/ cognitive-services/speech-service/speech-to-text ・発話言語特定(4言語) ・シーンに応じて複数モデル選択可 Java, Python + (※CLI) C++, C#, Java, Javascript, Node.js Objective-C, Python, Swift C#, Go, Node.js, JAVA PHP, Python, RUBY + (※CLI) ◦ ・種類豊富なSDK/クイックスタート ・明瞭なサービスの切り分け https://docs.aws.amazon.com/transcribe /latest/dg/what-is-transcribe.html https://cloud.google.com/ products/ai/building-blocks/ ・話者識別 (2~10名) が可能 ・医療業界に特化した認識モデルがある ◦ ※1 同一言語、他方言含む。 © 2019 Kobe Digital Labo, Inc. All Rights Reserved.
  7. 学習済みAI (人工知能) サービス : Speech To Text 比較 ( 音声

    → テキスト ) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 3大クラウドの 音声認識サービスの精度 を比較してみました! 【 評価項目 】 1. 同一音声ファイルをアップロードし精度を検証する。 2. 対応音声ファイル形式 3. 開発のしやすさ ( 環境構築 ) 4. ドキュメントの読みやすさ ( 日本語 ) vs vs
  8. © 2019 Kobe Digital Labo, Inc. All Rights Reserved. 実際にそれぞれの

    クイックスタート を試してみた ( Azure 編 ) 【 事前準備 】 Azrue MarketPlace より Speech Service サブスクリプションキーを発行する 【 手順 】サンプルを Web Apps にホストするまで (作業目安: 10分~15分) 1. Azure-Samples/cognitive-services-speech-sdk の GitHubリポジトリをクローン 2. pip install --upgrade azure-cognitiveservices-speech ( SDKインストール ) 3. quickstart.py に修正を加える (サブスクリプションキー&使用リージョン&ファイルパス) 4. 日本語変換に対応するため speech_config の設定を追加する 5. resource 配下に 対象の音声ファイルを追加 6. $ python quickstart.py を実行 https://github.com/Azure-Samples/cognitive-services-speech-sdk
  9. 実際にそれぞれの クイックスタート を試してみた ( AWS 編 ) © 2019 Kobe

    Digital Labo, Inc. All Rights Reserved. 【 事前準備 】 AWS CLI セットアップ / SDK for Python (boto3) インストール 【 手順 】サンプルを 動作検証するまで (作業目安: 10分~15分) 1. 今回解析する 音声ファイル (mp4) を S3 にアップロードする 2. ご利用開始にあたって (SDK for Python) ページを開く 3. サンプルの Python スクリプトを追加&修正を加える (音声の言語指定&ファイル拡張子&リージョン) 4. python スクリプトを実行 (今回はコンソール画面で結果を確認)
  10. 実際にそれぞれの クイックスタート を試してみた ( GCP 編 ) © 2019 Kobe

    Digital Labo, Inc. All Rights Reserved. 【 手順 】サンプルを 動作検証するまで (作業目安: 20~25分) 1. クライアントライブラリをインストールする 2. サンプルの Python スクリプトを追加&修正を加える (音声ファイルパス&エンコード方式& サンプリング周波数を指定) 4. python スクリプトを実行 ( 結果確認 ) 【 事前準備 】 プロジェクトの作成 / Cloud SDK のインストール / 環境変数の設定 (GOOGLE_APPLICATION_CREDENTIALS )
  11. 実際にそれぞれの クイックスタート を試してみた ( 検証その1 ) © 2019 Kobe Digital

    Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (短文) 】 みなさん、こんにちは。こちらは UNC10033 のアンカンファレンスセッションになります。 ( AWS 結果 : △ ) 皆さん こんにちは こちら は に 始まる 丸 三 さん の アンカンファレンス セッション に なり ます ( Azure 結果 : 〇 ) 皆さんこんにちはこちらはun c一一〇〇さんさんの案カンファレンスセッションになります。 ( GCP 結果 : ◎ ) 音声エンコーディング形式が非対応だったので FLAC に変換 皆さんこんにちはこちらは unc 10033のアンカンファレンスセッションになります
  12. 実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital

    Labo, Inc. All Rights Reserved. 【 同じ音声ファイルを3つのクラウドで検証してみる (長文) 】 むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。 おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。 おばあさんが川でせんたくをしていると、ドンブラコ、ドンブラコと、大きな桃が流れてきました。 「おや、これは良いおみやげになるわ」 おばあさんは大きな桃をひろいあげて、家に持ち帰りました。 そして、おじいさんとおばあさんが桃を食べようと桃を切ってみると、 なんと中から元気の良い男の赤ちゃんが飛び出してきました。 「これはきっと、神さまがくださったにちがいない」 子どものいなかったおじいさんとおばあさんは、大喜びです。 桃から生まれた男の子を、おじいさんとおばあさんは桃太郎と名付けました。 桃太郎はスクスク育って、やがて強い男の子になりました。 この長文を 3大クラウド ( Azure / AWS /GCP ) で試してみると、どうなるか!? vs vs
  13. 実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital

    Labo, Inc. All Rights Reserved. 【 Azure: 結果 】 昔昔あるところにおじいさんとおばあさんが住んでいました。 おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました。 お婆さんが、川で洗濯をしていると、どんぶらこド ンブラコとokina桃が流れてきました。 おや、これは良いおみやげになるわ。 おばあさんは大きな桃を拾い上げて家に持ち帰りました。 そしておじいさんとおばあさんが桃を切って食べようとモモを切っ てみると なんと中から元気の良い男の赤ちゃんが飛び出してきました。 これはきっと神様が下さったに違いない。 子供のいなかったおじいさんとおばあさんは大喜びです。 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました。 桃太郎はすくすく育ってやがてしい男の子になりました。 ⇒誤認識はあるが音の認識はあっている (表記揺れがある)・・・〇
  14. 実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital

    Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔 昔 ある ところ に お おじいさん と おばあさん が 住ん で い まし た お爺さん は 山 へ し ばかり に おば さん は 可愛い 選択 に 行き まし た おば さん が 川 で 選択 を し て いる と ドンブラコ ドンブラコ と 大きな もの が 流れ て き まし た 親 これ は 良い お 土産 に なる わ おば さん は 大きな もの を 拾い上げ て 家 に 持ち帰り まし た そして お 爺 さん と お 婆 さん が 思う 切っ て 食べよ と 桃 を 切っ て みる と なんと 中 から 元気 の 良い 男 の 赤ちゃん が 飛び出し て き まし た これ は きっと 神様 が 下さ た に 違い ない 子供 の い なかっ た お 爺 さん と お 婆 さん は お 喜び です 桃 から 生まれ た 男の子 お おじいさん と おばあさん は 桃太郎 と 名付け まし た 桃太郎 は すくすく 育っ て やがて 強い 男の子 に なり まし た ⇒ かなり誤認識が多い印象 (漢字へのご変換、テキストの過不足)・・・△
  15. 実際にそれぞれの クイックスタート を試してみた ( 検証その2 ) © 2019 Kobe Digital

    Labo, Inc. All Rights Reserved. 【 AWS: 結果 】 昔々あるところにおじいさんとおばあさんが住んでいました おじいさんは山へ芝刈りにおばあさんは川へ洗濯に行きました おばあさんが川で洗濯をしているとどんぶらこどんぶらこと大きな桃が流れてきました おやこれは良いお土産になるわ おばあさん は大きな桃を拾い上げて家に持ち帰りました そしておじいさんとおばあさんが桃を切って食べようと桃を切ってみると なんと中から元気に泳い男の赤ちゃんが飛び出してきました これはきっと神様がくださったに違いない 子供のいなかったおじいさんとおばあさんは大喜びです 桃から生まれた男の子をおじいさんとおばあさんは桃太郎と名付けました 桃太郎はスクスク育ってやがて強い男の子になりました ⇒ ほとんど誤認識がない ( 短文にも長文にもどちらにも対応可能 ) ・・・◎
  16. Cloud Text-to-Speech API Cloud Speech-to-Text API 学習済みAI (人工知能) サービス :

    Speech To Text の比較 (主観含む) サービス名 対応ファイル形式 ドキュメント読みやすさ (※2) Speech to Text Amazon Transcribe Cloud Speech-to-Text API 音声認識の精度 (長文) ※1, ※2 筆者の主観的判断です。 料 金 体 系 開発のしやすさ (※1) © 2019 Kobe Digital Labo, Inc. All Rights Reserved. ◎ △ ◦ ・ドキュメント内の画像も豊富 ・ドキュメント量も多い ・簡潔で分かりやすいが、 トラブルシューティングが少ない ・ドキュメントページのデザインが良い ・必要な情報にすぐに到達できる 12ヶ月60分無料 ( 以降 0.0004USD / 1秒 ) ( ¥158.35 / 時間 ) ※ 15 秒未満のリクエストについては 15 秒分の料金が発生 Free : 1 か月あたり 5 百万文字まで無料 Standard : ¥112 / 時間 同時接続数 ( Free 1個 / Standard: 20個 ) 標準 : 60分まで無料 (以降、$0.006 / 15秒) プレミアム : $0.009 / 15秒 ※ 標準の場合使用モデルが限定される = < mp3 | mp4 | wav | flac 拡張子ではなく音声エンコーディング FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE wav ( PCM 0 ) , OGG (オーパス) [バッチ形式(有料)のみ MP3追加] < > 〇 △ ◎
  17. 桃太郎デスマッチ: まとめ © 2019 Kobe Digital Labo, Inc. All Rights

    Reserved. ・精度の順で並べると、残念ながら今回は GCP> Azure > AWS の順となった。 ・ドキュメントきめ細やかさは Azure > GCP > AWS のように感じた (主観) ・開発SDKの豊富さの順でも Azure = GCP > AWS となった (CLI含む) 3大クラウドサービスを比較してみて感じたこと ・Azure (精度と導入しやすさバランス) / AWS (AWS他サービスとの連携:S3) / GCP (精度一点重視) ・カスタムせずに汎用的なモデルのみを使用する場合だと GCP が一番精度が高い。 ・学習済みAIサービスの種類(数)は、Azure ≫ AWS > GCP の順となり、 明確な用途があるのであれば Azure が一番手っ取り早く導入できる印象を受けた。 ・句読点が反映されるのは Azure だけ (標準設定) だった ・利用料金でいうと、Azure < AWS = GCP となるので Azure が一番安い。 ・GCPは細かなチューニングができる分、検証時に詰まるポイントが多いように感じた。
  18. Thanks © 2019 Kobe Digital Labo, Inc. All Rights Reserved.

    ご清聴ありがとうございました!