Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWSのAIサービスインテグレーション - AIの仕組みを活用した課題解決

貞松政史
November 04, 2020

AWSのAIサービスインテグレーション - AIの仕組みを活用した課題解決

AWSのサービス群にはAIや機械学習に関連するサービスが多数用意されています。現実世界で直面する課題の幾つかは、AWSで用意されているAIサービスそのまま適用、あるいは組み合わせて適用することで解決できます。本セッションでは、Amazon Transcribeを利用した文字起こしシステムやAmazon Rekognition + Amazon Translate + Amazon Pollyの組み合わせによる画像中のテキスト翻訳と読み上げのシステムについて、その仕組みと実際の動作について解説します。

貞松政史

November 04, 2020
Tweet

More Decks by 貞松政史

Other Decks in Technology

Transcript

  1. AWSのAIサービスインテグレーション AIの仕組みを活⽤した課題解決 2020.11.4 Developer.IO Showcase Day4 データアナリティクス事業本部 インテグレーション部 機械学習チーム 貞松

    政史
  2. 2 ⾃⼰紹介 ⽒名 貞松 政史 (サダマツ マサシ) 所属 データアナリティクス事業本部 インテグレーション部

    機械学習チーム 岡⼭オフィス勤務 最近の活動 機械学習を活⽤した 「レコメンドシステムプラン」 を公開しました︕ https://classmethod.jp/services/machine-learning/recommend/
  3. 3 本セッションのダイジェスト Developers.IO “Showcase” →⽬に⾒える形でAIソリューションをご紹介 画像中のテキスト抽出 →翻訳&読み上げアプリ ⾳声からの⽂字起こし →結果の閲覧&編集ツール

  4. 4 本セッションでは話さないこと × AIサービスで使⽤されるアルゴリズムの詳細な解説 × ソースコードレベルでのアプリケーションの解説

  5. 5 本セッションのゴール ◯◯っていうサービスを使えば ××の課題を解決できるかも…︖

  6. 6 本セッションのゴール △△の件はクラスメソッドに相談できそう︕

  7. 7 おしながき 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  8. 8 AWSのAIサービス群 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  9. AWSのAIサービス群 幅広い領域をカバー

  10. 10 AWSのAIサービス群 Amazon Comprehend Amazon Forecast Amazon Lex Amazon Personalize

    Amazon Polly Amazon Rekognition Amazon Textract Amazon Transcribe Amazon Translate AWSのAIサービスは様々な分野をカバー • テキスト解析 • OCR (Optical Character Recognition) • テキスト翻訳 • STT (Speech To Text) • TTS (Text To Speech) • チャットボット • 画像解析 • レコメンデーション • 時系列予測 ※SageMakerをはじめとする機械学習の 開発プラットフォームは除外 ※DeepLensやDeepRacer等、学習寄りの プラットフォームについても除外 「AWS AIサービスについて知る」 https://aws.amazon.com/jp/machine-learning/ai-services/
  11. 11 本セッションに関連するサービス Amazon Polly Amazon Rekognition Amazon Transcribe Amazon Translate

    画像分析・動画分析サービス 物体検出や顔検出、テキスト検出など 機械翻訳サービス 深層学習モデルを使⽤したニューラル機械翻訳 テキスト読み上げ(Text-To-Speech)サービス 男性・⼥性2パターンの⽇本語⾳声に対応 ⾳声⽂字起こし(Speech-To-Text)サービス 発話者の判別やカスタム語彙、単語のフィルタなどに対応
  12. 12 画像内テキストの翻訳読み上げアプリ 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  13. Rekognition + Translate + Pollyを組み合わせた 画像内テキストの翻訳読み上げアプリ 複数のサービスを組み合わせる

  14. 14 例えばこんなケース 英語のメニューやマニュアル、看板や張り紙など その場でサクッと翻訳したい…

  15. 15 解決策を考える Amazon Polly Amazon Rekognition Amazon Translate 画像分析・動画分析サービス 物体検出や顔検出、テキスト検出など

    機械翻訳サービス 深層学習モデルを使⽤したニューラル機械翻訳 テキスト読み上げ(Text-To-Speech)サービス 男性・⼥性2パターンの⽇本語⾳声に対応 カメラで撮影して画像からテキストを抽出 →抽出したテキストを翻訳 →翻訳したテキストを読み上げ
  16. 16 想定されるアーキテクチャ Amazon API Gateway AWS Lambda Amazon Polly Amazon

    Rekognition Amazon Translate Androidアプリ Xamarin.Forms (クロスプラットフォーム対応) ① ② ③
  17. 17 Rekognitionによる画像からのテキスト抽出 Rekognition APIに画像ファイルを渡すと 抽出したテキストのデータが返ってくる

  18. 18 Translateによるテキスト翻訳 Translate APIに以下のパラメータを渡すと 翻訳されたテキストのデータが返ってくる • 翻訳するテキスト • 翻訳元の⾔語 •

    翻訳先の⾔語
  19. 19 Pollyによるテキストの読み上げ (Text-To-Speech) Polly APIに以下のパラメータを渡すと 読み上げ⾳声のmp3データが返ってくる • 読み上げ⽣成するテキスト • 読み上げ⾔語

    • ⾳声タイプ (⽇本語の場合は男性・⼥性⾳声 各1タイプずつ)
  20. 20 カメラで撮影した画像をAPIに投げるアプリ 英語の⽂章が含まれる画像を カメラで撮影 撮影した画像、抽出したテキスト 翻訳したテキストを表⽰して読み上げ

  21. 21 アプリケーションのデモ • 注意喚起の看板をカメラで撮影 • テキスト抽出、翻訳は概ね出来ている • 読み上げも問題なし

  22. 22 実⽤化する際に考えるべきこと • アプリの認証などセキュリティの考慮 • アプリのUI/UX • 取得した結果の保存・蓄積 • メイン処理の精度改善

    など…
  23. 23 おしながき 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  24. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 有⽤なサービスをサポートするツールでさらに便利に

  25. 25 例えばこんなケース できれば⾃動で作成して欲しい… 会議の議事録は必要だけど 毎回の作成が⼤変…

  26. 26 解決策を考える Amazon Transcribe ⾳声⽂字起こし(Speech-To-Text)サービス 発話者の判別やカスタム語彙、単語のフィルタなどに対応 Transcribeを使って録⾳した⾳声から⽂字起こしすれば解決︕

  27. 27 現状のAmazon Transcribeに関する懸念事項 ⽂字起こしの結果が⽣のAPIレスポンス(JSON) ⽇本語の⽂字起こしが精度的に完璧とは⾔い難い (求められるレベルによる)

  28. 28 サポートするアプリを考える • JSONファイルを⾒やすいフォーマットに変換して閲覧したい • ⽂字起こしで不備がある箇所を修正したい • テキストファイルとして保存したい

  29. 29 想定されるアーキテクチャ 29 想定されるアーキテクチャ Amazon Transcribe React.jsアプリケーション AWS Amplify 音声ファイル

    JSONファイル テキストファイル ① ② ④ ③
  30. 30 Transcribeによる⾳声からの⽂字起こし https://youtu.be/gDw97LafoaQ ⽂字起こしするサンプル⾳声ファイル

  31. 31 Transcribeによる⾳声からの⽂字起こし (マネジメントコンソール上での操作) ⾳声の⾔語を設定

  32. 32 Transcribeによる⾳声からの⽂字起こし 発話者の⾃動判別を設定 ⾳声に含まれる発話者数を設定 (マルチチャンネルで録⾳された⾳声 であればその情報を使って判別)

  33. 33 Transcribeによる⾳声からの⽂字起こし 禁⽌フレーズのフィルターを作成して ⽂字起こし結果から除外 専⾨⽤語や固有名詞など、通常は うまく判定できない語彙を登録して ⽂字起こしの処理に利⽤

  34. 34 Transcribeによる⾳声からの⽂字起こし 処理が完了したTranscribe Jobの 詳細画⾯から結果のファイルを ダウンロード

  35. 35 ⽂字起こしテキストの閲覧&編集アプリ JSONファイルを解析して⾒やすいフォーマットで表⽰ その場で修正、テキストファイルとして保存も可能

  36. 36 アプリケーションのデモ Go to demo.

  37. 37 実⽤化する際に考えるべきこと • アプリの認証などセキュリティの考慮 • Transcribeの処理からアプリの画⾯で実⾏したい • 表⽰されるテキストのフォーマット • 保存するテキストのファイル形式(.mdや.docxなど)

    など…
  38. 38 サービスインテグレーションのアイデア 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeによる⽂字起こし + ⽣成した テキストの閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  39. サービスインテグレーションのアイデア 課題やサービスを置き換えてみる

  40. 40 ここまでのデモンストレーションを受けて ◯◯に 使えそう︕ 使いどころが 無さそう…

  41. 41 課題を置き換えてみる カメラで撮影した画像じゃなくて… ⽂書のスキャンファイルを翻訳したい︕

  42. 42 サービスを置き換えてみる Amazon API Gateway AWS Lambda Amazon Polly Amazon

    Rekognition Amazon Translate
  43. 43 サービスを置き換えてみる Amazon API Gateway AWS Lambda Amazon Polly 画像ファイル

    Amazon Textract Amazon Translate ブラウザ(Webアプリ)から ファイルをアップロード OCRサービスのTextractで テキストを抽出 ⼀⾒マッチしないように⾒える事例を読み換えてみる
  44. 44 まとめ 1. AWSのAIサービス群 2. Rekognition + Translate + Pollyを

    組み合わせた画像内テキストの翻訳読み上げアプリ 3. Transcribeで⽣成した⽂字起こしテキストの 閲覧&編集アプリ 4. サービスインテグレーションのアイデア 5. まとめ
  45. 45 まとめ • AWSには幅広い分野をカバーするAIサービス群が存在 • サービスを組み合わせることで様々な課題を解決 • 場合によってはサービスを補助するツールを⽤意すること でさらに便利に利⽤可能 •

    公開されている事例等を読み替えることで抱えている課題 を解決するソリューションが⾒つかる可能性がある
  46. 既存のサービスを活⽤して 早く・安く・巧く課題を解決︕

  47. 47 機械学習システム導⼊⽀援 https://classmethod.jp/services/machine-learning/

  48. None
  49. 本セッションでご紹介したサービスの詳細をご希望の場合は こちらからお問合せください SNS投稿にはこちらをお使いください:#devio_showcase 16:45〜17:30 「AWSのAIサービスインテグレーション - AIの仕組みを活用した課題解決」 Q&A Q&A https://forms.gle/GgE3DzVyWRe2iMv87