Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する 「データレイク」は今やデータ活用に欠かせないものとなりました。 一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか? 「データレイク向けの関連サービスとか多くてなんかよくわからない」 「最初からデータレイクの構築は、ハードル高くて時間もコストもかかるでしょ?」 「手軽に始めたいけど、将来的にスケールできるようにもしておきたい・・・」 「とりあえず今はMySQLとかにデータ入れてるけど、次は何をすればいい?もっといいやり方ないの?」 この度そんなスタートアップのお客様向けに、データレイクセミナーの開催を決定いたしました! これからデータレイクを始めたい方にも、データレイクをさらに効果的に活用したい方にもおすすめです。

Tamirlan 893 Torgayev

June 29, 2021
Tweet

More Decks by Tamirlan 893 Torgayev

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Tamirlan Torgayev @prog893
    Startup Solutions Architect
    Amazon Web Services Japan
    2021/06/29
    スタートアップのための
    データレイク構築の流れ
    Startup.fm – Analytics編

    View full-size slide

  2. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Tamirlan Torgayev (ティーマ)
    Startup Solutions Architect
    Amazon Web Services Japan
    メガベンチャーグループ企業に新卒⼊社、
    様々なメディアサービスのインフラを⽀援
    AWSでスタートアップ⽀援
    好きなもの: Amazon Kinesis、 Amazon ECS、
    カメラ!、猫"
    @prog893

    View full-size slide

  3. © 2021, Amazon Web Services, Inc. or its Affiliates.
    本⽇のアジェンダ
    • Startupにおけるデータ収集のモチベーション
    • レイクハウスアーキテクチャ
    • Startup における、データレイク構築フェーズの説明
    • データレイクTips
    • まとめ

    View full-size slide

  4. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupにおける
    データ収集のモチベーション

    View full-size slide

  5. © 2021, Amazon Web Services, Inc. or its Affiliates.
    なぜデータ分析をするのでしょうか︖

    View full-size slide

  6. © 2021, Amazon Web Services, Inc. or its Affiliates.
    ビジネス課題に対して
    データに基づく意思決定をするため
    カンや思いこみに頼らない、データに裏付けされた事実による判断
    仮説に基づく新しい施策の効果を、データを⽤いて検証
    次に何をすべきかを判断するために、まず現状を把握

    View full-size slide

  7. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupにおけるデータ収集のモチベーション
    • Startupの少ないリソースを効率的に使うには、
    データドリブンな意思決定が必要不可⽋
    • MVPの成果の可視化
    • 急激に変化する市場の変化に応じたビジネス判断 (pivot)
    • 機能開発に置ける優先順位づけ
    • AI/MLによる他社との差別化のために、トレーニングデータが必要
    • セグメンテーションによる新規ユーザーの獲得
    • パーソナライズされたメッセージによるエンゲージメント強化
    • データを収集、活⽤しやすい環境を⽤意することが重要

    View full-size slide

  8. © 2021, Amazon Web Services, Inc. or its Affiliates.
    仮説検証における指標と元データの例
    既存のマーケティングでは顧客に有効にアプローチできない
    • 指標 新商品売上やプロモーションの反応率
    • データ EC サイトや既存店舗の売上データ,各種ログ
    顧客のサービス継続率が低下してきている
    • 指標 顧客満⾜度やサービス継続率
    • データ ユーザマスタ,CRM マスタ,サービス利⽤ログ
    取引の監査に膨⼤な⼯数がかかり適切に⾏えていない
    • 指標 監査に要する時間や検知数
    • データ 過去の取引情報

    View full-size slide

  9. © 2021, Amazon Web Services, Inc. or its Affiliates.
    従来のデータ分析の課題
    • 多種多様で増え続けるデータ
    • データストアがバラバラ、
    さまざまなデータストア、データ種類をまたいだ分析が難しい
    • ⼀つの何かにデータを集めれば分析しやすくなるが…
    • 課題: サイロ化、スケーリング、コスト、分析要件の追加/変更

    View full-size slide

  10. © 2021, Amazon Web Services, Inc. or its Affiliates.
    レイクハウスアーキテクチャ

    View full-size slide

  11. © 2021, Amazon Web Services, Inc. or its Affiliates.
    レイクハウスアーキテクチャとは
    スケーラブルなデータレイク
    ⽬的に応じたデータ分析サービス
    シームレスなデータ移動
    統合されたガバナンス
    パフォーマンスとコスト効率
    Amazon
    DynamoDB
    Amazon
    SageMaker
    Amazon
    Redshift
    Amazon
    Elasticsearch
    Service
    Amazon
    EMR
    Amazon
    S3
    Amazon
    Aurora
    Amazon
    Athena

    View full-size slide

  12. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startup における、
    データレイク構築フェーズの説明

    View full-size slide

  13. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    最⼩限のデータレイク
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  14. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    最⼩限のデータレイク
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  15. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 0: データレイクの⼟台を作ろう
    • Amazon S3にデータを集める
    • S3にデータをロードするためのパイプラインの⽤意
    • セキュリティ周りの設定
    • S3に集めたデータの整形: AWS Glue, AWS Glue DataBrew
    • Extract (抽出) + Transform (変換) + Load (格納) = ETL処理
    • 分析しやすい形への変換
    • Parquetのような列指向フォーマットを使う (後述)
    • JOIN等しやすくするための加⼯
    • 正規化、JSONへの変換、不正な値の排除
    • マネージドサービスの活⽤
    • Glue: Spark (PySpark, Scala) または Python
    • DataBrew: GUIでノンコーディング

    View full-size slide

  16. © 2021, Amazon Web Services, Inc. or its Affiliates.
    © 2021, Amazon Web Services, Inc. or its Affiliates.
    AWS Glue
    サーバーレスで ETL とデータ取込み
    • データストアをクロールし、
    データフォーマットの識別とスキーマを
    サジェストの上、マネージドなカタログ
    リポジトリ(Glue Data Catalog) で管理
    • Apache Spark / Python で ETL ジョブ
    を実⾏する環境のプロビジョニング、
    設定、および、スケーリングを
    サーバーレスで
    • ETL ジョブ実⾏に必要な⼀連の作業を
    ⾃動化
    • ジョブに使⽤されたリソースの
    料⾦のみの⽀払い
    AWS Glue
    Data Catalog
    & Crawler
    Serverless
    Engine
    Orchestration
    AWS Glue

    View full-size slide

  17. © 2021, Amazon Web Services, Inc. or its Affiliates.
    AWS Glue を使ったETL処理
    データソース サーバーレス
    エンジン
    AWS Glue
    変換ジョブを実⾏して
    データをターゲットに
    ロード
    変換対象の
    データを抽出 データソース

    View full-size slide

  18. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  19. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  20. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 1: 最⼩限のデータレイク、S3 + Glue + Athena
    • S3とGlueを⽤いて、データを収集してETL処理を⾏う
    パイプラインができた
    • Amazon Athenaを追加すれば、S3にあるデータをクエリ可能
    • Athenaを使って分析を⾏うには、どこにどういうデータがあるか、
    どういうスキーマかを⽰すメタデータが必要
    • Glue Crawlerを使ってメタデータ⽣成、Glue Data Catalogに登録
    • Glue Data Catalogがメタデータストアの役割を担う
    • Athenaでクエリを実⾏する際に、クエリ実⾏に必要なファイルを
    Glue Data Catalogを参照して特定し、必要なものだけダウンロード
    • これだけで最⼩限のデータレイク完成︕

    View full-size slide

  21. © 2021, Amazon Web Services, Inc. or its Affiliates.
    © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Athena
    サーバーレス、インタラクティブ・クエリーサービス
    クエリーごとの課⾦
    クエリー単位のデータスキャン量
    に応じた課⾦体系
    スキャン対象となるデータの圧縮
    により、クエリ単位のコストを
    30〜90%削減可能
    ストレージはS3
    ANSI準拠のSQL
    JDBC/ODBC ドライバー
    複数のフォーマット、圧縮タイプ、
    複雑な結合とデータタイプ
    SQL
    サーバーレス: インフラストラ
    クチャーおよびアドミンは不要
    Amazon QuickSightとも統合
    簡単
    即時にクエリー
    セットアップ費⽤ゼロ
    S3 をポイントしてクエリを開始

    View full-size slide

  22. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Glue Data Catalog
    Apache Hiveメタストア互換のメタデータリポジトリ
    • データカタログにメタデータを作成するにはクローラー、Glue API、Hive DDL (Athena/EMR/Redshift Spectrum)
    の3つの⽅法が利⽤可能
    • テーブル、テーブルバージョン、パーティション、データベースのことをオブジェクトという
    (料⾦単位に関連する)
    • データソースとして、Amazon DynamoDB、Amazon S3、Amazon Redshift、Amazon RDS、
    Amazon VPC内のRDB on Amazon EC2 (Oracle/Microsoft SQL Server/MySQL/PostgreSQL)、
    JDBC接続可能なオンプレミスDBが指定可能
    • メタデータをAmazon Redshift Spectrum、Amazon Athena、Amazon EMRに連携可能
    • メタストアの管理が不要の為、運⽤負荷を低減できる
    DynamoDB S3
    Redshift RDS
    RDB on EC2
    オンプレミスDB
    (JDBC接続)
    データソース
    メタデータ保存
    Glue ETL Athena
    Redshift
    Spectrum
    EMR
    連携可能なサービス
    Hive互換アプリ
    データカタログ参照
    メタデータ取得
    データカタログ
    クローラー
    データカタログの連携イメージ

    View full-size slide

  23. © 2021, Amazon Web Services, Inc. or its Affiliates.
    AWS Glue を使ったETL処理の全体像
    データソース
    クローラ データカタログ
    サーバーレス
    エンジン
    ①データをクロール
    ②メタデータ
    を管理
    AWS Glue
    ③⼿動、スケジュール、イベントで起動
    ⑤変換ジョブを実⾏して
    データをターゲットに
    ロード
    ④変換対象の
    データを抽出
    スケジューラ
    データソース

    View full-size slide

  24. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  25. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  26. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 2: 可視化してみよう
    • Athenaが利⽤できる状態になっていれば、Amazon QuickSightを使って
    データの可視化、BIダッシュボードの作成、GUIでの分析を
    ⾏うことが可能
    • ⾼度な分析をするには、データを把握することが重要
    • そのためには可視化が有効
    • また、BI (GUI)を⽤意することで技術者でない⽅による
    データを確認、分析しやすくなる

    View full-size slide

  27. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon QuickSight
    クラウド向けに構築された初のBIサービス、セッションごとの料⾦設と
    機械学習機能(MLインサイト)を搭載
    伸縮性のある
    スケーリング
    サーバーやソフトウェアを導⼊、管
    理、運⽤は不要
    スモールスタートし、10,000以上に
    スケール可能
    使った分だけのお⽀払い
    事前コスト不要
    利⽤しないユーザのコスト不要
    サーバーレス
    ダッシュボードを
    数分で作成可能
    単⼀のサーバーをプロ
    ビジョニングせずに、
    グローバルに展開
    AWSとフル・インテ
    グレーション
    AWSデータへのセキュアで
    プライベートなアクセス
    AWS IAMによるS3データレイクの
    パーミッションの統合
    APIサポート
    プログラムでユーザーをオンボー
    ドし、コンテンツを管理
    アプリに簡単に埋め込み可能

    View full-size slide

  28. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon QuickSight
    機械学習機ベースのインサイト
    専⾨家不要で使える
    インサイト(洞察)機能を提供
    1. MLベースの異常検知
    ⾃動的に異常値を発⾒し、報告
    2. MLベースの予測
    過去の値から将来を予測
    3. ⾃動ナラティブ
    分かりやすい⽂章で分析結果を提供
    4. ML予測
    SageMaker のモデルと連動

    View full-size slide

  29. © 2021, Amazon Web Services, Inc. or its Affiliates.
    • Webアプリにダッシュボードを埋め込んで利⽤
    • SSOや、⾏レベルアクセス、監査等にも対応
    • 価格体系 (https://aws.amazon.com/jp/quicksight/pricing/)
    • Enterprise Edition
    • Author: $24/ユーザ/⽉ or $18/ユーザ/⽉(1年間契約)
    • Reader: 30分利⽤あたり$0.30、上限は$5/ユーザ/⽉
    • 異常検知のための費⽤は別途
    Amazon QuickSight

    View full-size slide

  30. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  31. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  32. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 3: さらに⼤規模に、RedshiftとEMR
    • 処理するデータが増えたら、Redshift・EMRを検討
    • 選定基準:
    • 同時実⾏SQL数が少ない、データ更新が少ない: Athena
    • Apache Ecosystemなものを使いたい(Hadoop, Spark, など): EMR
    • RDBMS感覚で使えるデータウェアハウス: Redshift
    • WLM、キャッシュ、3rd party BI連携
    • Redshift、EMRはS3からのデータのインポートに対応
    • さらに
    • Redshift Spectrumを使うことで
    RedshiftにあるデータとS3上のデータをJOIN可能
    • EMRではEMRFSを使うことで、HDFSと同様にS3にアクセス可能

    View full-size slide

  33. © 2021, Amazon Web Services, Inc. or its Affiliates.
    © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon EMR
    • Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール
    • S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒
    • Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能
    • EMRで使われるSparkは最適化されている
    https://aws.amazon.com/jp/blogs/news/performance-updates-to-apache-spark-in-amazon-emr-5-24-up-to-13x-
    better-performance-compared-to-amazon-emr-5-16/
    ローコスト
    EC2スポットとリザーブドインス
    タンスでコストを50〜80%削減
    フレキシブルな秒単位の課⾦
    S3をストレージとして利⽤
    EMRFSコネクタを使⽤し、
    S3上のデータを⾼パフォーマンスで
    安全に処理
    最新バージョン
    30⽇以内に最新のオープンソース
    フレームワークに更新
    フルマネージド
    クラスタのセットアップ、
    ノードのプロビジョニング、
    クラスタのチューニングは不要
    簡単

    View full-size slide

  34. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Redshift
    最もポピュラーかつ⾼速なクラウドのデータウェアハウス
    最も⾼速な
    パフォーマンス
    とスケーラビリティ
    3倍⾼速(with RA3)*
    10倍⾼速(with AQUA)*
    オンデマンドで無制限の
    コンピュートリソースを追加し
    無制限の同時接続を実現
    低コスト
    コンピュートとストレージを分離、
    コスト最適化されたワークロード
    トラディショナルなDWHの
    1/10のコスト($1000/TB/年)
    他のクラウドDWHと⽐較して
    最⼤75%のコスト削減および
    予測可能なコスト
    データレイクと
    AWSサービスとの
    統合
    データウェアハウス、
    データレイク、オペレーショナル
    データベースにまたがる
    膨⼤なデータに対する分析
    様々なアナリティクスサービスへの
    フェデーレテッドクエリーを実現
    セキュア
    AWSグレードのセキュリティ機能
    (eg. VPC, encryption with KMS,
    CloudTrail)
    全ての主要な認証を取得済み
    (SOC, PCI, DSS, ISO,
    FedRAMP, HIPPA)
    *他のクラウドDWHとの⽐較

    View full-size slide

  35. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  36. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    ⾼速化
    AI/ML

    View full-size slide

  37. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 4: ETLとデータ分析の⺠主化
    • 各部⾨の多様なニーズに応えるために、データ分析専⾨家のみならず、
    業務部⾨の⽅でもETLやデータ分析を⾏える環境の整備
    • Line of Business (LOB)
    • ETLの⺠主化:
    • ファイルインポートのためのインタフェースの⽤意
    • ETL処理のパターン化 and/or GUIツール (Glue DataBrew)
    • データ分析の⺠主化:
    • 専⾨知識を必要としないBIツール
    • 代表的なもの: Redash、Tableau、QuickSight
    • 適切なセキュリティポリシとガバナンスの設計
    • 既存のデータを扱いやすい形に

    View full-size slide

  38. © 2021, Amazon Web Services, Inc. or its Affiliates.
    • 分析や処理を開始する前に必要となるデータ
    の前処理(クリーニングや正規化等)を迅速に
    実施するための新しいビジュアルツール
    • ノンコーディングで視覚的にデータの前処理
    を実施することができるため、データ分析者
    やサイエンティストが容易に利⽤可能
    • 250以上の構築済み変換処理を⽤意。これら
    を利⽤して効率的に異常値の排除やフォー
    マットの整理を⾏い、分析処理や学習処理に
    注⼒することができる
    AWS Glue DataBrew
    データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール
    https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual-
    data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/

    View full-size slide

  39. © 2021, Amazon Web Services, Inc. or its Affiliates.
    © 2021, Amazon Web Services, Inc. or its Affiliates.
    AWS Glue DataBrew
    ワークスペース

    View full-size slide

  40. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    AI/ML

    View full-size slide

  41. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    AI/ML

    View full-size slide

  42. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 5: もっと速く
    • クエリパフォーマンス
    • クエリ最適化
    • データの置き⽅の最適化
    • Redshift、EMRのパフォーマンスチューニング
    • Redshift RA3, AQUA
    • QuickSight SPICE
    • データ反映⾼速化
    • Kinesis Data Streams、Kinesis Data Analytics、Kinesis Data Firehoseを
    活⽤したストリーミングデータ処理
    • Amazon Elasticsearch Serviceへの直接格納
    !
    !

    View full-size slide

  43. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データの置き⽅の最適化 – 列指向フォーマット
    • データを列指向フォーマットに変換 (Apache Parquet, Avro)
    • ⾏ではなく、列でデータをまとめる
    • クエリパフォーマンス向上、コスト最適化:
    • SELECTしていない列が読み込まれない
    • 各ファイルに含まれているデータに関するメタデータがあるため、
    クエリの対象データを含まないファイルを読み込まない最適化が可能
    (predicate pushdown, partition pruning)
    • 列では近しいデータが格納されるパターンが⾒られるため、
    圧縮効率が向上 (例: ⽇付、true/falseフラグ)
    • Parquet/Avroにおいて、AthenaやSparkが効率的に処理を⾏える
    おすすめ: Parquet + Snappy圧縮

    View full-size slide

  44. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データの置き⽅の最適化 – パーティション分割とバケット化
    • パーティション分割
    • テーブルをいくつかに分割し、⽇付や国、地域といった
    カラムの値単位でまとめることで、スキャン対象データを減らす:
    s3://athena-examples/flight/parquet/year=1991/month=1/day=1/
    • バケット化
    • ひとつ以上のカラムを指定し、それらのカラムの値に基づいて
    データを複数のファイルに分割
    • 例えば、user_idでパーティション分割を⾏うと、
    アクティブとそうでないユーザがいるため、
    パーティションサイズにばらつきが出る
    • user_idでのバケット化では、hash(user_id) % bucket_count
    のように分割が⾏われるため、スキャン対象データを減らしつつ、
    サイズのばらつきを防げる
    • バケット化がパーティション分割の後に⾏われる
    参考: https://aws.amazon.com/jp/blogs/big-data/top-
    10-performance-tuning-tips-for-amazon-athena/

    View full-size slide

  45. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データの置き⽅の最適化 – 実現のために
    • Parquetへの変換、バケット化、パーティション分割は
    Glue Jobで簡単に実装できます
    • Glue Jobの開発に役⽴つGlue StudioというGUIを使うことで、
    開発をさらに楽に

    View full-size slide

  46. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Redshift RA3インスタンス
    • コンピュートとストレージを分離し
    スケーリングと⽀払いを独⽴
    • データの格納:
    永続ストレージとしての S3 と
    キャッシュとしてのローカル SSD
    • アクセス頻度の⾼いブロックは
    キャッシュにとどまり、
    あまりアクセスされないブロックは
    ⾃動的にキャッシュアウト
    Amazon
    Redshift
    JDBC/ODBC
    Redshift フォーマットファイル
    広帯域ネットワーキング

    View full-size slide

  47. © 2021, Amazon Web Services, Inc. or its Affiliates.
    48
    AQUA (Advanced Query Accelerator) for Amazon Redshift
    新たな分散型ハードウェアアクセラレーション処理レイヤにより、
    追加コストなしに他のクラウドデータウェアハウスの10倍の性能を実現
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    コン
    ピュート
    ノード
    AQUA
    ノード
    AWSデザインの
    カスタムプロセッサ
    AQUA
    ノード
    AWSデザインの
    カスタムプロセッサ
    AQUA
    ノード
    AWSデザインの
    カスタムプロセッサ
    AQUA
    ノード
    AWSデザインの
    カスタムプロセッサ
    並列処理
    AQUA ノードに処理をプッシュダウンすることで
    コンピュートノードとマネージドストレージの間
    のデータ移動を最⼩化
    AQUA ノードは AWS がデザインした分析処理向け
    のカスタムプロセッサを備え、
    データの圧縮、暗号化、フィルタリングや集計の処
    理を従来の CPU よりも遥かに⾼速に処理
    RA3 インスタンスのみで追加コスト不要で利⽤可能
    現⾏の Redshift の SQL やその他オペレーションは
    変更する必要なくそのまま利⽤が可能
    Redshift マネージドストレージ
    スケールアウト

    View full-size slide

  48. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    クエリ最適化
    置き⽅の最適化
    チューニング
    ⾼速化リソース
    リアルタイム処理
    AI/ML

    View full-size slide

  49. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    クエリ最適化
    置き⽅の最適化
    チューニング
    ⾼速化リソース
    リアルタイム処理
    AI/ML

    View full-size slide

  50. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Phase 6: そしてAI/MLへ
    • S3に収集される⼤量のデータを使って、AI/ML技術を活⽤しよう
    • レコメンデーション: Amazon Personalize
    • 予測: Amazon Forecast
    • 不正検知: Amazon Fraud Detector
    • 異常検知: Amazon Lookout for Metrics
    • カスタムでモデルを作る: SageMaker
    • Redshift ML、Athena ML、Aurora ML
    https://aws.amazon.com/jp/blogs/news/amazon-redshift-ml-is-now-generally-available-use-sql-to-
    create-machine-learning-models-and-make-predictions-from-your-data/

    View full-size slide

  51. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Personalize
    • ユーザー向けにパーソナライズしたレコメンデーションを
    簡単に追加できる機械学習サービス
    質の⾼い推薦
    数クリックで学習
    簡単に使える
    リアルタイムイベントを
    反映したレコメンデーション

    View full-size slide

  52. © 2021, Amazon Web Services, Inc. or its Affiliates.
    ML 開発ライフサイクル全体をカバーする20以上のツール
    Amazon
    SageMaker
    最も完全なエンドツー
    エンドの ML サービス
    ML 開発を加速する
    ML ⽤に最適化された統合機能を備えたカスタム統合コードを作成
    するコストを排除
    コスト削減
    世界初の統合開発環境(IDE)
    データサイエンティストの⽣産性を⾼める

    View full-size slide

  53. © 2021, Amazon Web Services, Inc. or its Affiliates.
    54
    Amazon SageMaker
    PREPARE
    SageMaker Ground Truth
    Label training data for machine learning
    SageMaker Data Wrangler NEW
    Aggregate and prepare data for
    machine learning
    SageMaker Processing
    Built-in Python, BYO R/Spark
    SageMaker Feature Store NEW
    Store, update, retrieve, and share
    features
    SageMaker Clarify NEW
    Detect bias and understand
    model predictions
    BUILD
    SageMaker Studio Notebooks
    Jupyter notebooks with elastic compute
    and sharing
    Built-in and Bring
    your-own Algorithms
    Dozens of optimized algorithms or bring
    your own
    Local Mode
    Test and prototype on your local machine
    SageMaker Autopilot
    Automatically create machine learning
    models with full visibility
    SageMaker JumpStart NEW
    Pre-built solutions for common use cases
    TRAIN & TUNE
    Managed Training
    Distributed infrastructure
    management
    SageMaker Experiments
    Capture, organize, and compare
    every step
    Automatic
    Model Tuning
    Hyperparameter optimization
    Distributed Training NEW
    Training for large datasets
    and models
    SageMaker Debugger NEW
    Debug and profile training runs
    Managed Spot Training
    Reduce training cost by 90%
    DEPLOY & MANAGE
    Managed Deployment
    Fully managed, ultra low latency,
    high throughput
    Kubernetes & Kubeflow
    Integration
    Simplify Kubernetes-based
    machine learning
    Multi-Model Endpoints
    Reduce cost by hosting multiple models
    per instance
    SageMaker Model Monitor
    Maintain accuracy of deployed models
    SageMaker Edge Manager NEW
    Manage and monitor models on
    edge devices
    SageMaker Pipelines NEW
    Workflow orchestration and automation
    Amazon SageMaker
    SageMaker Studio
    Integrated development environment (IDE) for
    ML

    View full-size slide

  54. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    クエリ最適化
    置き⽅の最適化
    チューニング
    ⾼速化リソース
    リアルタイム処理
    AI/ML
    SageMaker
    Personalize
    Forecast
    Fraud Detector
    Lookout for
    Metrics
    Redshift ML
    Athena ML

    View full-size slide

  55. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Startupのための、データレイクの構築フェーズ
    データレイクの⼟台
    S3, Glue
    最⼩限のデータレイク
    Athena, Glue Crawler,
    Glue Data Catalog
    可視化
    QuickSight
    ⼤規模化
    Redshift, EMR
    Redshift Spectrum
    EMRFS
    ⺠主化
    LOB, BI,
    Glue DataBrew
    ⾼速化
    クエリ最適化
    置き⽅の最適化
    チューニング
    ⾼速化リソース
    リアルタイム処理
    AI/ML
    SageMaker
    Personalize
    Forecast
    Fraud Detector
    Lookout for
    Metrics
    Redshift ML
    Athena ML
    各々のニーズに応じて、
    順番を変えていきましょう︕

    View full-size slide

  56. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips [新コーナー]

    View full-size slide

  57. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips その1: ⽣データを残そう
    • S3上でETL処理、変換や集約などが⾏われる
    • 後からなんらかの処理をやり直したい、やり⽅を変えたい
    となった時のために、全てのデータをETL等の加⼯前の状態で残す
    • S3のストレージクラスを活⽤することで頻繁にアクセスしない
    データの保管にかかるコストを削減可能

    View full-size slide

  58. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips その2: EMRを使ったETLも可能
    • HadoopやSparkなどのApache Ecosystemの方が使いなられている
    という方は、Glueの他、EMRを使ってETLパイプラインを構築する
    ことも可能
    • スポットインスタンスやGraviton2を使うことで、
    コスト削減、パフォーマンス向上

    View full-size slide

  59. © 2021, Amazon Web Services, Inc. or its Affiliates.
    • 前世代(M5)のインスタンスと⽐較して、Graviton2 ベース (M6g)
    インスタンスでの Spark ワークロードのコストが最⼤ 35% 削減、
    パフォーマンスが最⼤ 15% 向上
    • Apache Spark ⽤ EMR ランタイムと M6g インスタンスを組合せて実⾏
    すると、オープンソースの Apache Spark と M5 インスタンスの
    組合せで実⾏する場合と⽐べて、総コストが最⼤ 76% 削減、
    パフォーマンスが 3.6 倍向上
    • EMR-6.0.0 を除く、EMR-5.30 以降のバージョンで利⽤可能
    EMR: ARM (Graviton2) インスタンスをサポート
    低コストでパフォーマンスが向上
    参考: https://aws.amazon.com/jp/about-aws/whats-
    new/2020/10/amazon-emr-provides-lower-cost-improved-performance/

    View full-size slide

  60. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips その3: ETLのためのサービスの選定
    • ETL処理の代表的なサービス: Glue Job、Glue DataBrew、EMR…
    • …結局、どれを選べばいいか︖
    • AWS Glue DataBrew:
    • GUIでETL処理を実装、ノンコーディング
    • サーバーレス
    • AWS Glue:
    • ⾼い⾃由度
    • サーバーレス
    • Amazon EMR:
    • ⾼い⾃由度
    • 並列分散処理が得意
    • スポットインスタンスやGraviton2を使うことでコスト削減

    View full-size slide

  61. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips その4: QuickSightを使った
    End-user向けダッシュボード
    • End-userに提供したいダッシュボードは、QuickSightを使って実現可能
    • Federated login (IdP)やemail追加でend-user⽤のユーザを作成、
    end-user⾃らがQuickSightにアクセス可能
    • 例えば、SaaS製品としてアプリケーションを提供する場合、
    メトリクス、効果測定の機能をQuickSightで提供できる
    • QuickSightでは例えばどのようなものが作れるの?
    • 公開サンプルを参照:
    https://aws.amazon.com/jp/quicksight/gallery/

    View full-size slide

  62. © 2021, Amazon Web Services, Inc. or its Affiliates.
    データレイク Tips その5: JDBC/ODBC + BI = ❤
    • Redshift、Athena⽤のJDBC/ODBCドライバが提供されています
    • Redshift: https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/configuring-connections.html
    • Athena: https://docs.aws.amazon.com/ja_jp/athena/latest/ug/athena-bi-tools-jdbc-odbc.html
    • JDBC/ODBC接続に対応するBIツール等と接続できます︕
    • 例: Tableau + Athena
    https://help.tableau.com/current/pro/desktop/en-us/examples_amazonathena.htm
    • 既存のBI環境をAWS上のデータレイクで拡張、
    パフォーマンス向上、コスト最適化
    • JDBC/ODBCを使わない連携が可能なBIツールもある
    • 例: Redash + Athena
    https://redash.io/help/data-sources/querying/amazon-athena

    View full-size slide

  63. © 2021, Amazon Web Services, Inc. or its Affiliates.
    まとめ

    View full-size slide

  64. © 2021, Amazon Web Services, Inc. or its Affiliates.
    まとめ
    • データレイクの構築はS3を中⼼に
    • S3にデータを収集し、整形することができれば、
    Athena、Redshift、EMRなどの幅広い分析サービスを使えます
    • あとから切り替えや追加も可能︕
    • 常に変わり続けるStartupは特に、これが特に重要
    • 元データを保持しておくと、後から加⼯⽅法を変更可能
    • Glue DataBrewを使えばコードなしでデータ加⼯(ETL)を実現可能
    S3+Athena+QuickSightでデータレイクを始めてみませんか︕

    View full-size slide