Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Startup.fm: re:Cap for startups - Analytics

Startup.fm: re:Cap for startups - Analytics

Startupなお客様のために、@prog893 が厳選した、re:Invent 2020のデータ分析周りのアップデート

563d2e1e4cabf5ca21404f7104c90e91?s=128

Tamirlan 893 Torgayev

March 24, 2021
Tweet

More Decks by Tamirlan 893 Torgayev

Other Decks in Technology

Transcript

  1. Analytics for Startups 2021/3/24

  2. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. re:Cap for startups: Analytics Tamirlan Torgayev @prog893 Startup Solutions Architect Amazon Web Services Japan 2021/03/24
  3. Tamirlan Torgayev (ティーマ) Startup Solutions Architect Amazon Web Services Japan

    メガベンチャーグループ企業に新卒⼊社、 様々なメディアサービスのインフラを⽀援 AWSでスタートアップ⽀援 好きなもの: Amazon Kinesis、 Amazon ECS、 カメラ📸、猫🐈 @prog893
  4. re:Invent 2020でのAnalytics アップデート 1. AQUA for Amazon Redshift プレビュー開始 2.

    Amazon Redshift Data Sharingを発表 3. Amazon Redshiftの⾃動テーブル最適化を発表 4. Amazon RedshiftがJSONと準構造化データ処理に対応 5. Amazon RedshiftがAvailability Zone間の移動に対応 6. Amazon Redshift Federated QueryのMySQL (RDS/Aurora) 対応プレビュー開始 7. Amazon RedshiftのRA3.xlplus インスタンスを発表 8. Amazon Redshift MLのプレビュー開始を発表 9. Amazon Redshiftのマテリアライズドビュー機能のアップデート 10. Amazon Redshiftのコンソールでパートナー製品を統合 11. Amazon Athenaエンジンバージョン2 (v2) 提供開始 12. AWS Glue Elastic Viewsのプレビュー開始 13. AWS Glue DataBrewを発表 14. AWS Lake Formationの機能強化 15. Amazon EMR Studioを発表 16. Amazon EMR on Amazon EKSを発表 17. Amazon EMRがGraviton2インスタンスに対応 18. Amazon Elasticsearch Serviceがversion 7.9をサポート 19. Amazon Elasticsearch ServiceがRemote Reindex機能をサポート 20. Amazon Elasticsearch ServiceがKibanaのガントチャートに対応 21. Amazon Elasticsearch Serviceのセキュリティ機能の拡張 22. Amazon Elasticsearch Serviceがカーディナリティの⾼いデータセット における異常検出をサポート 23. Amazon Elasticsearch ServiceのPipe Processing Languageを発表 24. Amazon AppFlowとAmazon Connect Customer Profileとの連携が可能に 25. Amazon AppFlowとAmazon Honeycodeとの連携が可能に 26. Amazon AppFlowがLookout for Metrics に対応 27. Amazon AppFlowが AWS Secrets Manager に対応 28. Amazon QuickSight Qを発表 29. Amazon QuickSightでセッション容量による価格設定を選択可能に 30. Amazon QuickSightで公開 Web サイトへの埋め込みが可能に 31. Amazon QuickSightが埋め込み分析のための開発者ポータルサイトを 提供開始 32. Amazon QuickSightがAmazon Elasticsearch Service をサポート 33. Amazon QuickSight が新たなグラフタイプをサポート 34. Amazon QuickSight でテキストの配置や折返しを設定可能に 35. Amazon QuickSightがカラムレベルのセキュリティ (CLS)をサポート 36. Amazon QuickSight のフィルタリング機能の UX を改善 37. Amazon QuickSight がOracle Connector をサポート
  5. 本日のアジェンダ 1. AQUA for Amazon Redshift プレビュー開始 2. Amazon Redshift

    Data Sharingを発表 3. Amazon Redshiftの⾃動テーブル最適化を発表 4. Amazon RedshiftがJSONと準構造化データ処理に対応 5. Amazon RedshiftがAvailability Zone間の移動に対応 6. Amazon Redshift Federated QueryのMySQL (RDS/Aurora) 対応プレビュー開始 7. Amazon RedshiftのRA3.xlplus インスタンスを発表 8. Amazon Redshift MLのプレビュー開始を発表 9. Amazon Redshiftのマテリアライズドビュー機能のアップデート 10. Amazon Redshiftのコンソールでパートナー製品を統合 11. Amazon Athenaエンジンバージョン2 (v2) 提供開始 12. AWS Glue Elastic Viewsのプレビュー開始 13. AWS Glue DataBrewを発表 14. AWS Lake Formationの機能強化 15. Amazon EMR Studioを発表 16. Amazon EMR on Amazon EKSを発表 17. Amazon EMRがGraviton2インスタンスに対応 18. Amazon Elasticsearch Serviceがversion 7.9をサポート 19. Amazon Elasticsearch ServiceがRemote Reindex機能をサポート 20. Amazon Elasticsearch ServiceがKibanaのガントチャートに対応 21. Amazon Elasticsearch Serviceのセキュリティ機能の拡張 22. Amazon Elasticsearch Serviceがカーディナリティの⾼いデータセット における異常検出をサポート 23. Amazon Elasticsearch ServiceのPipe Processing Languageを発表 24. Amazon AppFlowとAmazon Connect Customer Profileとの連携が可能に 25. Amazon AppFlowとAmazon Honeycodeとの連携が可能に 26. Amazon AppFlowがLookout for Metrics に対応 27. Amazon AppFlowが AWS Secrets Manager に対応 28. Amazon QuickSight Qを発表 29. Amazon QuickSightでセッション容量による価格設定を選択可能に 30. Amazon QuickSightで公開 Web サイトへの埋め込みが可能に 31. Amazon QuickSightが埋め込み分析のための開発者ポータルサイトを 提供開始 32. Amazon QuickSightがAmazon Elasticsearch Service をサポート 33. Amazon QuickSight が新たなグラフタイプをサポート 34. Amazon QuickSight でテキストの配置や折返しを設定可能に 35. Amazon QuickSightがカラムレベルのセキュリティ (CLS)をサポート 36. Amazon QuickSight のフィルタリング機能の UX を改善 37. Amazon QuickSight がOracle Connector をサポート
  6. Startupにおけるデータ収集のモチベーション • Startupの少ないリソースを効率的に使うには、 データドリブンな意思決定が必要不可⽋ • MVPの成果の可視化 • 急激な市場の変化に応じたビジネス判断 (pivot) •

    機能開発に置ける優先順位づけ • AI/MLによる他社との差別化のために、トレーニングデータが必要 • セグメンテーションによる新規ユーザーの獲得 • パーソナライズされたメッセージによるエンゲージメント強化 • データを収集、活⽤しやすい環境を⽤意することが重要
  7. レイクハウスアーキテクチャとは スケーラブルなデータレイク ⽬的に応じたデータ分析サービス シームレスなデータ移動 統合されたガバナンス パフォーマンスとコスト効率 Amazon DynamoDB Amazon SageMaker

    Amazon Redshift Amazon Elasticsearch Service Amazon EMR Amazon S3 Amazon Aurora Amazon Athena
  8. 今⽇話すこと 1. ⽬的に応じたデータ分析サービス 2. 複数のデータソースを跨ぐデータの分析 3. データソース間でデータを移動、移動先で分析 4. ETLパイプラインの開発コストを抑える⽅法

  9. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved.
  10. © 2021, Amazon Web Services, Inc. or its Affiliates. 目的に応じたデータ分析サービス

    データ特性、活⽤⽅法に応じたデータ分析サービスを提供: • OLAP/DWH: Redshift • Key-value: DynamoDB • 全⽂検索: Elasticsearch Service コスト、パフォーマンス最適化のために適切なデータ分析サービスの選定が必要 課題: • サイロ化された環境における複数のデータソースを跨ぐデータの分析 • 同じデータに対して異なる活⽤⽅法が求められる • 例: DynamoDBにあるkey-valueデータに対して 全⽂検索クエリも実⾏したい → 全⽂検索に最適な分析サービスへ
  11. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved.
  12. Amazon Redshift Federated Queries Redshift Federated Queryを使うことで RDS/Aurora PostgreSQLにクエリが可能 Redshift

    Spectrumを使うことで S3上のデータをクエリ可能 データ移動なしに最新のデータを分析 Redshift、S3、RDS/Auroraに跨ったデータを 統合して分析 New: RDS/Aurora MySQLをサポート (preview) JDBC/ODBC
  13. Amazon Athena Federated Queries リレーショナル/⾮リレーショナル、 オンプレミス/クラウド、オブジェクト、 などのテータソース間のクエリを実現 データソースコネクターを利⽤して Athenaクエリエンジンを拡張できる Athenaエンジンバージョン2で利⽤可能

  14. © 2020, Amazon Web Services, Inc. or its affiliates. All

    rights reserved.
  15. データレイク構築時の代表的な作業フロー データの 取り込み 2 クレンジング、 整形、データの カタログ化 3 セキュリティの設定と適用 4

    データを分析に活用 できるようにする 5 ストレージの準備、 セットアップ 1
  16. Amazon S3 data lake storage AWS Lake Formation AWS Glue

    Blueprints ML Transforms Data catalog Access control l DBMS形式のパーミッション制御 (Grant/Revoke)に基づく中央集権的、 かつ、きめ細やかなアクセスコントロール l 複数のサービス間でセキュリティポリシーを 適⽤可能 l 簡便なインジェストとクリーニングにより、 データエンジニアはより迅速なデータレイク 構築が可能 Amazon Athena Amazon Redshift Spectrum AWS Glue Amazon EMR Amazon QuickSight AWS Lake Formationを活⽤することで セキュアなデータレイクを短期間に構築
  17. Lake FormationとRDBMS • データレイクにRDBMSでのデータを同期することで、 全てのデータを⼀箇所に集め、分析に活⽤することが可能 • しかし、GDPRやコンプライアンス対応において、 ユーザ退会/opt-out時に関連するデータを削除、マスキング、 細かいセキュリティ制御が必要 課題:

    RDBMSでのデータ更新、削除をデータレイクに反映したい、 ⾏レベルのセキュリティ制御を⾏いたい • トランザクションレベル同期をどう実現すれば︖
  18. Lake Formation Governed Tables ACIDトランザクション ロックインなし インポート・エクスポート タイムトラベル

  19. SQLを使い、複数のデータストア間でデータを簡単に組み合わせて複製 AWS Glue Elastic Views

  20. AWS Glue Elastic Views

  21. AWS Glue Elastic Views 対応データソース (preview時点) • ソース • Amazon

    DynamoDB • ターゲット • Amazon Redshift • Amazon Elasticsearch Service • Amazon S3
  22. © 2021, Amazon Web Services, Inc. or its Affiliates. データソースを跨いだ分析

    (Federation)とデータコピーの選定 • Federation: • リアルタイム性があるが、 性能と可用性が他DBに依存 • Redshift/Athena Federated Queries • データコピー: • 高い性能が出せる、可用性は他DBに依存しないが、 同期の実装・管理が難しく、リアルタイム性に劣る • 例: ダブルライト、AWS Database Migration Service、 同期ミドルウェア、AWS Glue Elastic Views
  23. © 2020, Amazon Web Services, Inc. or its affiliates. All

    rights reserved.
  24. データレイクにおけるETLの課題 • データレイクにおいて、S3が中⼼ • S3にデータを取り組む際に、共通形式への変換が不可⽋ → ETL処理を実装 課題: ETLの開発コストを抑えたい •

    S3を使ったETLの実装における結果整合性の制御 • 書き込み後データを読み取る時、古いデータが参照される期間がある • ETLパイプラインの開発コスト • 様々なデータにあった変換コードの実装
  25. Amazon S3 Strong Read-after-Write Consistency 従来、上書きは上書きの後に読み取りを行うと 古いデータが読み取れる可能性があった 書き込みが完了したデータは、以後読み取りを行うと 常に書き込まれたデータが読めるようになった PUT

    File A GET File A または GET File A 結果整合性により 古いデータが読める 可能性がある区間 PUT File A GET File A GET File A 書き込み後には 常に新しいデータを 読み取ることを保証
  26. Amazon S3 Strong Read-after-Write Consistency 独自に結果整合性を制御する手間をかける必要が不要に • GET/PUT/LISTおよびオブジェクトタグ、ACL、メタデータ操作にも 強い整合性が提供される •

    書き込みロックがない点には注意 全リージョンで自動的に有効に、追加料金なしでご利用可能
  27. AWS Glue DataBrew • 分析や処理を開始する前にデータを整形、加⼯するための新しい ビジュアルツール

  28. AWS Glue DataBrew • ⽤意されている250以上の 変換処理を⽤いて効率的に 異常値の排除やフォーマットの 整理を⾏い、分析につなげる • コードを記述することなく分析に

    必要な形に整形でき、 データ分析者やサイエンティストが 容易に前処理を実現できる環境
  29. AWS Glue DataBrew

  30. AWS Glue DataBrew リッチなビジュアルインターフェース によりデータを整形・正規化 250 以上の組み込みの変換機能 を選択し、タスクを⾃動化 データパターンや異常値を把握するための データプロファイル機能

    ⼤規模なデータセットを操作可能 AWS Glue Studio コードを記述せずに ETL ジョブを 視覚的にオーサリング コンソールから数千のジョブを監視 学習コストなしに分散処理を活⽤ 再利⽤可能なコードを使った⾼度な変換
  31. 最後に • それぞれのデータ特性、活⽤⽅法にあったデータ分析サービスを使いましょう • データを移動せず、複数のデータ分析サービスを跨ぐFederated Queryで分析 • Redshift + S3,

    RDS/Aurora MySQL/PostgreSQL: → Redshift Federated Query • Athena: → Athena Federated Query • データ分析サービス間でデータを移動、移動先で分析 • Relational to S3 (Lake Formation): Governed Tables • Aurora/RDS/DynamoDBの組み合わせ: Glue Elastic Views • S3を中⼼にデータを集め、Glue StudioやGlue DataBrewを活⽤することで ETL パイプラインの開発コストを抑える
  32. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved.