Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Startup.fm: re:Cap for startups - Analytics

Startup.fm: re:Cap for startups - Analytics

Startupなお客様のために、@prog893 が厳選した、re:Invent 2020のデータ分析周りのアップデート

Tamirlan 893 Torgayev

March 24, 2021
Tweet

More Decks by Tamirlan 893 Torgayev

Other Decks in Technology

Transcript

  1. Analytics for Startups
    2021/3/24

    View full-size slide

  2. © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
    re:Cap for startups: Analytics
    Tamirlan Torgayev @prog893
    Startup Solutions Architect
    Amazon Web Services Japan
    2021/03/24

    View full-size slide

  3. Tamirlan Torgayev (ティーマ)
    Startup Solutions Architect
    Amazon Web Services Japan
    メガベンチャーグループ企業に新卒⼊社、
    様々なメディアサービスのインフラを⽀援
    AWSでスタートアップ⽀援
    好きなもの: Amazon Kinesis、 Amazon ECS、
    カメラ📸、猫🐈
    @prog893

    View full-size slide

  4. re:Invent 2020でのAnalytics アップデート
    1. AQUA for Amazon Redshift プレビュー開始
    2. Amazon Redshift Data Sharingを発表
    3. Amazon Redshiftの⾃動テーブル最適化を発表
    4. Amazon RedshiftがJSONと準構造化データ処理に対応
    5. Amazon RedshiftがAvailability Zone間の移動に対応
    6. Amazon Redshift Federated QueryのMySQL (RDS/Aurora)
    対応プレビュー開始
    7. Amazon RedshiftのRA3.xlplus インスタンスを発表
    8. Amazon Redshift MLのプレビュー開始を発表
    9. Amazon Redshiftのマテリアライズドビュー機能のアップデート
    10. Amazon Redshiftのコンソールでパートナー製品を統合
    11. Amazon Athenaエンジンバージョン2 (v2) 提供開始
    12. AWS Glue Elastic Viewsのプレビュー開始
    13. AWS Glue DataBrewを発表
    14. AWS Lake Formationの機能強化
    15. Amazon EMR Studioを発表
    16. Amazon EMR on Amazon EKSを発表
    17. Amazon EMRがGraviton2インスタンスに対応
    18. Amazon Elasticsearch Serviceがversion 7.9をサポート
    19. Amazon Elasticsearch ServiceがRemote Reindex機能をサポート
    20. Amazon Elasticsearch ServiceがKibanaのガントチャートに対応
    21. Amazon Elasticsearch Serviceのセキュリティ機能の拡張
    22. Amazon Elasticsearch Serviceがカーディナリティの⾼いデータセット
    における異常検出をサポート
    23. Amazon Elasticsearch ServiceのPipe Processing Languageを発表
    24. Amazon AppFlowとAmazon Connect Customer Profileとの連携が可能に
    25. Amazon AppFlowとAmazon Honeycodeとの連携が可能に
    26. Amazon AppFlowがLookout for Metrics に対応
    27. Amazon AppFlowが AWS Secrets Manager に対応
    28. Amazon QuickSight Qを発表
    29. Amazon QuickSightでセッション容量による価格設定を選択可能に
    30. Amazon QuickSightで公開 Web サイトへの埋め込みが可能に
    31. Amazon QuickSightが埋め込み分析のための開発者ポータルサイトを
    提供開始
    32. Amazon QuickSightがAmazon Elasticsearch Service をサポート
    33. Amazon QuickSight が新たなグラフタイプをサポート
    34. Amazon QuickSight でテキストの配置や折返しを設定可能に
    35. Amazon QuickSightがカラムレベルのセキュリティ (CLS)をサポート
    36. Amazon QuickSight のフィルタリング機能の UX を改善
    37. Amazon QuickSight がOracle Connector をサポート

    View full-size slide

  5. 本日のアジェンダ
    1. AQUA for Amazon Redshift プレビュー開始
    2. Amazon Redshift Data Sharingを発表
    3. Amazon Redshiftの⾃動テーブル最適化を発表
    4. Amazon RedshiftがJSONと準構造化データ処理に対応
    5. Amazon RedshiftがAvailability Zone間の移動に対応
    6. Amazon Redshift Federated QueryのMySQL (RDS/Aurora)
    対応プレビュー開始
    7. Amazon RedshiftのRA3.xlplus インスタンスを発表
    8. Amazon Redshift MLのプレビュー開始を発表
    9. Amazon Redshiftのマテリアライズドビュー機能のアップデート
    10. Amazon Redshiftのコンソールでパートナー製品を統合
    11. Amazon Athenaエンジンバージョン2 (v2) 提供開始
    12. AWS Glue Elastic Viewsのプレビュー開始
    13. AWS Glue DataBrewを発表
    14. AWS Lake Formationの機能強化
    15. Amazon EMR Studioを発表
    16. Amazon EMR on Amazon EKSを発表
    17. Amazon EMRがGraviton2インスタンスに対応
    18. Amazon Elasticsearch Serviceがversion 7.9をサポート
    19. Amazon Elasticsearch ServiceがRemote Reindex機能をサポート
    20. Amazon Elasticsearch ServiceがKibanaのガントチャートに対応
    21. Amazon Elasticsearch Serviceのセキュリティ機能の拡張
    22. Amazon Elasticsearch Serviceがカーディナリティの⾼いデータセット
    における異常検出をサポート
    23. Amazon Elasticsearch ServiceのPipe Processing Languageを発表
    24. Amazon AppFlowとAmazon Connect Customer Profileとの連携が可能に
    25. Amazon AppFlowとAmazon Honeycodeとの連携が可能に
    26. Amazon AppFlowがLookout for Metrics に対応
    27. Amazon AppFlowが AWS Secrets Manager に対応
    28. Amazon QuickSight Qを発表
    29. Amazon QuickSightでセッション容量による価格設定を選択可能に
    30. Amazon QuickSightで公開 Web サイトへの埋め込みが可能に
    31. Amazon QuickSightが埋め込み分析のための開発者ポータルサイトを
    提供開始
    32. Amazon QuickSightがAmazon Elasticsearch Service をサポート
    33. Amazon QuickSight が新たなグラフタイプをサポート
    34. Amazon QuickSight でテキストの配置や折返しを設定可能に
    35. Amazon QuickSightがカラムレベルのセキュリティ (CLS)をサポート
    36. Amazon QuickSight のフィルタリング機能の UX を改善
    37. Amazon QuickSight がOracle Connector をサポート

    View full-size slide

  6. Startupにおけるデータ収集のモチベーション
    • Startupの少ないリソースを効率的に使うには、
    データドリブンな意思決定が必要不可⽋
    • MVPの成果の可視化
    • 急激な市場の変化に応じたビジネス判断 (pivot)
    • 機能開発に置ける優先順位づけ
    • AI/MLによる他社との差別化のために、トレーニングデータが必要
    • セグメンテーションによる新規ユーザーの獲得
    • パーソナライズされたメッセージによるエンゲージメント強化
    • データを収集、活⽤しやすい環境を⽤意することが重要

    View full-size slide

  7. レイクハウスアーキテクチャとは
    スケーラブルなデータレイク
    ⽬的に応じたデータ分析サービス
    シームレスなデータ移動
    統合されたガバナンス
    パフォーマンスとコスト効率
    Amazon
    DynamoDB
    Amazon
    SageMaker
    Amazon
    Redshift
    Amazon
    Elasticsearch
    Service
    Amazon
    EMR
    Amazon
    S3
    Amazon
    Aurora
    Amazon
    Athena

    View full-size slide

  8. 今⽇話すこと
    1. ⽬的に応じたデータ分析サービス
    2. 複数のデータソースを跨ぐデータの分析
    3. データソース間でデータを移動、移動先で分析
    4. ETLパイプラインの開発コストを抑える⽅法

    View full-size slide

  9. © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View full-size slide

  10. © 2021, Amazon Web Services, Inc. or its Affiliates.
    目的に応じたデータ分析サービス
    データ特性、活⽤⽅法に応じたデータ分析サービスを提供:
    • OLAP/DWH: Redshift
    • Key-value: DynamoDB
    • 全⽂検索: Elasticsearch Service
    コスト、パフォーマンス最適化のために適切なデータ分析サービスの選定が必要
    課題:
    • サイロ化された環境における複数のデータソースを跨ぐデータの分析
    • 同じデータに対して異なる活⽤⽅法が求められる
    • 例: DynamoDBにあるkey-valueデータに対して
    全⽂検索クエリも実⾏したい → 全⽂検索に最適な分析サービスへ

    View full-size slide

  11. © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View full-size slide

  12. Amazon Redshift Federated Queries
    Redshift Federated Queryを使うことで
    RDS/Aurora PostgreSQLにクエリが可能
    Redshift Spectrumを使うことで
    S3上のデータをクエリ可能
    データ移動なしに最新のデータを分析
    Redshift、S3、RDS/Auroraに跨ったデータを
    統合して分析
    New: RDS/Aurora MySQLをサポート (preview)
    JDBC/ODBC

    View full-size slide

  13. Amazon Athena Federated Queries
    リレーショナル/⾮リレーショナル、
    オンプレミス/クラウド、オブジェクト、
    などのテータソース間のクエリを実現
    データソースコネクターを利⽤して
    Athenaクエリエンジンを拡張できる
    Athenaエンジンバージョン2で利⽤可能

    View full-size slide

  14. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View full-size slide

  15. データレイク構築時の代表的な作業フロー
    データの
    取り込み
    2
    クレンジング、
    整形、データの
    カタログ化
    3
    セキュリティの設定と適用
    4
    データを分析に活用
    できるようにする
    5
    ストレージの準備、
    セットアップ
    1

    View full-size slide

  16. Amazon S3 data lake storage
    AWS Lake Formation
    AWS
    Glue
    Blueprints ML
    Transforms
    Data
    catalog
    Access
    control
    l DBMS形式のパーミッション制御
    (Grant/Revoke)に基づく中央集権的、
    かつ、きめ細やかなアクセスコントロール
    l 複数のサービス間でセキュリティポリシーを
    適⽤可能
    l 簡便なインジェストとクリーニングにより、
    データエンジニアはより迅速なデータレイク
    構築が可能
    Amazon Athena Amazon Redshift
    Spectrum
    AWS Glue
    Amazon EMR Amazon QuickSight
    AWS Lake Formationを活⽤することで
    セキュアなデータレイクを短期間に構築

    View full-size slide

  17. Lake FormationとRDBMS
    • データレイクにRDBMSでのデータを同期することで、
    全てのデータを⼀箇所に集め、分析に活⽤することが可能
    • しかし、GDPRやコンプライアンス対応において、
    ユーザ退会/opt-out時に関連するデータを削除、マスキング、
    細かいセキュリティ制御が必要
    課題: RDBMSでのデータ更新、削除をデータレイクに反映したい、
    ⾏レベルのセキュリティ制御を⾏いたい
    • トランザクションレベル同期をどう実現すれば︖

    View full-size slide

  18. Lake Formation Governed Tables
    ACIDトランザクション ロックインなし インポート・エクスポート タイムトラベル

    View full-size slide

  19. SQLを使い、複数のデータストア間でデータを簡単に組み合わせて複製
    AWS Glue Elastic Views

    View full-size slide

  20. AWS Glue Elastic Views

    View full-size slide

  21. AWS Glue Elastic Views 対応データソース (preview時点)
    • ソース
    • Amazon DynamoDB
    • ターゲット
    • Amazon Redshift
    • Amazon Elasticsearch Service
    • Amazon S3

    View full-size slide

  22. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データソースを跨いだ分析 (Federation)とデータコピーの選定
    • Federation:
    • リアルタイム性があるが、
    性能と可用性が他DBに依存
    • Redshift/Athena Federated Queries
    • データコピー:
    • 高い性能が出せる、可用性は他DBに依存しないが、
    同期の実装・管理が難しく、リアルタイム性に劣る
    • 例: ダブルライト、AWS Database Migration Service、
    同期ミドルウェア、AWS Glue Elastic Views

    View full-size slide

  23. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View full-size slide

  24. データレイクにおけるETLの課題
    • データレイクにおいて、S3が中⼼
    • S3にデータを取り組む際に、共通形式への変換が不可⽋
    → ETL処理を実装
    課題: ETLの開発コストを抑えたい
    • S3を使ったETLの実装における結果整合性の制御
    • 書き込み後データを読み取る時、古いデータが参照される期間がある
    • ETLパイプラインの開発コスト
    • 様々なデータにあった変換コードの実装

    View full-size slide

  25. Amazon S3 Strong Read-after-Write Consistency
    従来、上書きは上書きの後に読み取りを行うと
    古いデータが読み取れる可能性があった
    書き込みが完了したデータは、以後読み取りを行うと
    常に書き込まれたデータが読めるようになった
    PUT File A
    GET File A
    または
    GET File A
    結果整合性により
    古いデータが読める
    可能性がある区間
    PUT File A
    GET File A
    GET File A
    書き込み後には
    常に新しいデータを
    読み取ることを保証

    View full-size slide

  26. Amazon S3 Strong Read-after-Write Consistency
    独自に結果整合性を制御する手間をかける必要が不要に
    • GET/PUT/LISTおよびオブジェクトタグ、ACL、メタデータ操作にも
    強い整合性が提供される
    • 書き込みロックがない点には注意
    全リージョンで自動的に有効に、追加料金なしでご利用可能

    View full-size slide

  27. AWS Glue DataBrew
    • 分析や処理を開始する前にデータを整形、加⼯するための新しい
    ビジュアルツール

    View full-size slide

  28. AWS Glue DataBrew
    • ⽤意されている250以上の
    変換処理を⽤いて効率的に
    異常値の排除やフォーマットの
    整理を⾏い、分析につなげる
    • コードを記述することなく分析に
    必要な形に整形でき、
    データ分析者やサイエンティストが
    容易に前処理を実現できる環境

    View full-size slide

  29. AWS Glue DataBrew

    View full-size slide

  30. AWS Glue DataBrew
    リッチなビジュアルインターフェース
    によりデータを整形・正規化
    250 以上の組み込みの変換機能
    を選択し、タスクを⾃動化
    データパターンや異常値を把握するための
    データプロファイル機能
    ⼤規模なデータセットを操作可能
    AWS Glue Studio
    コードを記述せずに ETL ジョブを
    視覚的にオーサリング
    コンソールから数千のジョブを監視
    学習コストなしに分散処理を活⽤
    再利⽤可能なコードを使った⾼度な変換

    View full-size slide

  31. 最後に
    • それぞれのデータ特性、活⽤⽅法にあったデータ分析サービスを使いましょう
    • データを移動せず、複数のデータ分析サービスを跨ぐFederated Queryで分析
    • Redshift + S3, RDS/Aurora MySQL/PostgreSQL:
    → Redshift Federated Query
    • Athena:
    → Athena Federated Query
    • データ分析サービス間でデータを移動、移動先で分析
    • Relational to S3 (Lake Formation): Governed Tables
    • Aurora/RDS/DynamoDBの組み合わせ: Glue Elastic Views
    • S3を中⼼にデータを集め、Glue StudioやGlue DataBrewを活⽤することで
    ETL パイプラインの開発コストを抑える

    View full-size slide

  32. © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

    View full-size slide