Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

© 2021, Amazon Web Services, Inc. or its Affiliates. Tamirlan
Torgayev @prog893 Startup Solutions Architect Amazon Web Services Japan 2021/06/29 スタートアップのためのデータレイク構築の流れ Startup.fm – Analytics編

© 2021, Amazon Web Services, Inc. or its Affiliates. Tamirlan
Torgayev (ティーマ) Startup Solutions Architect Amazon Web Services Japan メガベンチャーグループ企業に新卒⼊社、様々なメディアサービスのインフラを⽀援 AWSでスタートアップ⽀援好きなもの: Amazon Kinesis、 Amazon ECS、カメラ!、猫" @prog893

© 2021, Amazon Web Services, Inc. or its Affiliates. 本⽇のアジェンダ
• Startupにおけるデータ収集のモチベーション • レイクハウスアーキテクチャ • Startup における、データレイク構築フェーズの説明 • データレイクTips • まとめ

© 2021, Amazon Web Services, Inc. or its Affiliates. Startupにおける
データ収集のモチベーション

© 2021, Amazon Web Services, Inc. or its Affiliates. ビジネス課題に対して
データに基づく意思決定をするためカンや思いこみに頼らない、データに裏付けされた事実による判断仮説に基づく新しい施策の効果を、データを⽤いて検証次に何をすべきかを判断するために、まず現状を把握

© 2021, Amazon Web Services, Inc. or its Affiliates. Startupにおけるデータ収集のモチベーション
• Startupの少ないリソースを効率的に使うには、データドリブンな意思決定が必要不可⽋ • MVPの成果の可視化 • 急激に変化する市場の変化に応じたビジネス判断 (pivot) • 機能開発に置ける優先順位づけ • AI/MLによる他社との差別化のために、トレーニングデータが必要 • セグメンテーションによる新規ユーザーの獲得 • パーソナライズされたメッセージによるエンゲージメント強化 • データを収集、活⽤しやすい環境を⽤意することが重要

© 2021, Amazon Web Services, Inc. or its Affiliates. 仮説検証における指標と元データの例
既存のマーケティングでは顧客に有効にアプローチできない • 指標新商品売上やプロモーションの反応率 • データ EC サイトや既存店舗の売上データ，各種ログ顧客のサービス継続率が低下してきている • 指標顧客満⾜度やサービス継続率 • データユーザマスタ，CRM マスタ，サービス利⽤ログ取引の監査に膨⼤な⼯数がかかり適切に⾏えていない • 指標監査に要する時間や検知数 • データ過去の取引情報

© 2021, Amazon Web Services, Inc. or its Affiliates. 従来のデータ分析の課題
• 多種多様で増え続けるデータ • データストアがバラバラ、さまざまなデータストア、データ種類をまたいだ分析が難しい • ⼀つの何かにデータを集めれば分析しやすくなるが… • 課題: サイロ化、スケーリング、コスト、分析要件の追加/変更

© 2021, Amazon Web Services, Inc. or its Affiliates. レイクハウスアーキテクチャとは
スケーラブルなデータレイク⽬的に応じたデータ分析サービスシームレスなデータ移動統合されたガバナンスパフォーマンスとコスト効率 Amazon DynamoDB Amazon SageMaker Amazon Redshift Amazon Elasticsearch Service Amazon EMR Amazon S3 Amazon Aurora Amazon Athena

© 2021, Amazon Web Services, Inc. or its Affiliates. Startup
における、データレイク構築フェーズの説明

© 2021, Amazon Web Services, Inc. or its Affiliates. Startupのための、データレイクの構築フェーズ
データレイクの⼟台最⼩限のデータレイク可視化⼤規模化⺠主化⾼速化 AI/ML

© 2021, Amazon Web Services, Inc. or its Affiliates. Phase
0: データレイクの⼟台を作ろう • Amazon S3にデータを集める • S3にデータをロードするためのパイプラインの⽤意 • セキュリティ周りの設定 • S3に集めたデータの整形: AWS Glue, AWS Glue DataBrew • Extract (抽出) + Transform (変換) + Load (格納) = ETL処理 • 分析しやすい形への変換 • Parquetのような列指向フォーマットを使う (後述) • JOIN等しやすくするための加⼯ • 正規化、JSONへの変換、不正な値の排除 • マネージドサービスの活⽤ • Glue: Spark (PySpark, Scala) または Python • DataBrew: GUIでノンコーディング

© 2021, Amazon Web Services, Inc. or its Affiliates. ©
2021, Amazon Web Services, Inc. or its Aﬃliates. AWS Glue サーバーレスで ETL とデータ取込み • データストアをクロールし、データフォーマットの識別とスキーマをサジェストの上、マネージドなカタログリポジトリ(Glue Data Catalog) で管理 • Apache Spark / Python で ETL ジョブを実⾏する環境のプロビジョニング、設定、および、スケーリングをサーバーレスで • ETL ジョブ実⾏に必要な⼀連の作業を⾃動化 • ジョブに使⽤されたリソースの料⾦のみの⽀払い AWS Glue Data Catalog & Crawler Serverless Engine Orchestration AWS Glue

© 2021, Amazon Web Services, Inc. or its Aﬃliates. AWS
Glue を使ったETL処理データソースサーバーレスエンジン AWS Glue 変換ジョブを実⾏してデータをターゲットにロード変換対象のデータを抽出データソース

© 2021, Amazon Web Services, Inc. or its Aﬃliates. Startupのための、データレイクの構築フェーズ
データレイクの⼟台 S3, Glue 最⼩限のデータレイク可視化⼤規模化⺠主化⾼速化 AI/ML

データレイクの⼟台 S3, Glue 最⼩限のデータレイク可視化⼤規模化⺠主化⾼速化 AI/ML

1: 最⼩限のデータレイク、S3 + Glue + Athena • S3とGlueを⽤いて、データを収集してETL処理を⾏うパイプラインができた • Amazon Athenaを追加すれば、S3にあるデータをクエリ可能 • Athenaを使って分析を⾏うには、どこにどういうデータがあるか、どういうスキーマかを⽰すメタデータが必要 • Glue Crawlerを使ってメタデータ⽣成、Glue Data Catalogに登録 • Glue Data Catalogがメタデータストアの役割を担う • Athenaでクエリを実⾏する際に、クエリ実⾏に必要なファイルを Glue Data Catalogを参照して特定し、必要なものだけダウンロード • これだけで最⼩限のデータレイク完成︕

2021, Amazon Web Services, Inc. or its Affiliates. Amazon Athena サーバーレス、インタラクティブ・クエリーサービスクエリーごとの課⾦クエリー単位のデータスキャン量に応じた課⾦体系スキャン対象となるデータの圧縮により、クエリ単位のコストを 30〜90%削減可能ストレージはS3 ANSI準拠のSQL JDBC/ODBC ドライバー複数のフォーマット、圧縮タイプ、複雑な結合とデータタイプ SQL サーバーレス: インフラストラクチャーおよびアドミンは不要 Amazon QuickSightとも統合簡単即時にクエリーセットアップ費⽤ゼロ S3 をポイントしてクエリを開始

© 2021, Amazon Web Services, Inc. or its Aﬃliates. Glue
Data Catalog Apache Hiveメタストア互換のメタデータリポジトリ • データカタログにメタデータを作成するにはクローラー、Glue API、Hive DDL (Athena/EMR/Redshift Spectrum) の3つの⽅法が利⽤可能 • テーブル、テーブルバージョン、パーティション、データベースのことをオブジェクトという (料⾦単位に関連する) • データソースとして、Amazon DynamoDB、Amazon S3、Amazon Redshift、Amazon RDS、 Amazon VPC内のRDB on Amazon EC2 (Oracle/Microsoft SQL Server/MySQL/PostgreSQL)、 JDBC接続可能なオンプレミスDBが指定可能 • メタデータをAmazon Redshift Spectrum、Amazon Athena、Amazon EMRに連携可能 • メタストアの管理が不要の為、運⽤負荷を低減できる DynamoDB S3 Redshift RDS RDB on EC2 オンプレミスDB (JDBC接続) データソースメタデータ保存 Glue ETL Athena Redshift Spectrum EMR 連携可能なサービス Hive互換アプリデータカタログ参照メタデータ取得データカタログクローラーデータカタログの連携イメージ

© 2021, Amazon Web Services, Inc. or its Aﬃliates. AWS
Glue を使ったETL処理の全体像データソースクローラデータカタログサーバーレスエンジン ①データをクロール ②メタデータを管理 AWS Glue ③⼿動、スケジュール、イベントで起動 ⑤変換ジョブを実⾏してデータをターゲットにロード ④変換対象のデータを抽出スケジューラデータソース

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化⼤規模化⺠主化⾼速化 AI/ML

© 2021, Amazon Web Services, Inc. or its Aﬃliates. Phase
2: 可視化してみよう • Athenaが利⽤できる状態になっていれば、Amazon QuickSightを使ってデータの可視化、BIダッシュボードの作成、GUIでの分析を⾏うことが可能 • ⾼度な分析をするには、データを把握することが重要 • そのためには可視化が有効 • また、BI (GUI)を⽤意することで技術者でない⽅によるデータを確認、分析しやすくなる

© 2021, Amazon Web Services, Inc. or its Aﬃliates. Amazon
QuickSight クラウド向けに構築された初のBIサービス、セッションごとの料⾦設と機械学習機能（MLインサイト）を搭載伸縮性のあるスケーリングサーバーやソフトウェアを導⼊、管理、運⽤は不要スモールスタートし、10,000以上にスケール可能使った分だけのお⽀払い事前コスト不要利⽤しないユーザのコスト不要サーバーレスダッシュボードを数分で作成可能単⼀のサーバーをプロビジョニングせずに、グローバルに展開 AWSとフル・インテグレーション AWSデータへのセキュアでプライベートなアクセス AWS IAMによるS3データレイクのパーミッションの統合 APIサポートプログラムでユーザーをオンボードし、コンテンツを管理アプリに簡単に埋め込み可能

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon
QuickSight 機械学習機ベースのインサイト専⾨家不要で使えるインサイト（洞察）機能を提供 1. MLベースの異常検知⾃動的に異常値を発⾒し、報告 2. MLベースの予測過去の値から将来を予測 3. ⾃動ナラティブ分かりやすい⽂章で分析結果を提供 4. ML予測 SageMaker のモデルと連動

© 2021, Amazon Web Services, Inc. or its Affiliates. •
Webアプリにダッシュボードを埋め込んで利⽤ • SSOや、⾏レベルアクセス、監査等にも対応 • 価格体系 (https://aws.amazon.com/jp/quicksight/pricing/) • Enterprise Edition • Author: $24/ユーザ/⽉ or $18/ユーザ/⽉（1年間契約） • Reader: 30分利⽤あたり$0.30、上限は$5/ユーザ/⽉ • 異常検知のための費⽤は別途 Amazon QuickSight

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化⺠主化⾼速化 AI/ML

© 2021, Amazon Web Services, Inc. or its Aﬃliates. Phase
3: さらに⼤規模に、RedshiftとEMR • 処理するデータが増えたら、Redshift・EMRを検討 • 選定基準: • 同時実⾏SQL数が少ない、データ更新が少ない: Athena • Apache Ecosystemなものを使いたい(Hadoop, Spark, など): EMR • RDBMS感覚で使えるデータウェアハウス: Redshift • WLM、キャッシュ、3rd party BI連携 • Redshift、EMRはS3からのデータのインポートに対応 • さらに • Redshift Spectrumを使うことで RedshiftにあるデータとS3上のデータをJOIN可能 • EMRではEMRFSを使うことで、HDFSと同様にS3にアクセス可能

© 2021, Amazon Web Services, Inc. or its Aﬃliates. ©
2021, Amazon Web Services, Inc. or its Affiliates. Amazon EMR • Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール • S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒ • Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能 • EMRで使われるSparkは最適化されている https://aws.amazon.com/jp/blogs/news/performance-updates-to-apache-spark-in-amazon-emr-5-24-up-to-13x- better-performance-compared-to-amazon-emr-5-16/ ローコスト EC2スポットとリザーブドインスタンスでコストを50〜80%削減フレキシブルな秒単位の課⾦ S3をストレージとして利⽤ EMRFSコネクタを使⽤し、 S3上のデータを⾼パフォーマンスで安全に処理最新バージョン 30⽇以内に最新のオープンソースフレームワークに更新フルマネージドクラスタのセットアップ、ノードのプロビジョニング、クラスタのチューニングは不要簡単

Redshift 最もポピュラーかつ⾼速なクラウドのデータウェアハウス最も⾼速なパフォーマンスとスケーラビリティ 3倍⾼速（with RA3）* 10倍⾼速（with AQUA）* オンデマンドで無制限のコンピュートリソースを追加し無制限の同時接続を実現低コストコンピュートとストレージを分離、コスト最適化されたワークロードトラディショナルなDWHの 1/10のコスト（$1000/TB/年）他のクラウドDWHと⽐較して最⼤75%のコスト削減および予測可能なコストデータレイクと AWSサービスとの統合データウェアハウス、データレイク、オペレーショナルデータベースにまたがる膨⼤なデータに対する分析様々なアナリティクスサービスへのフェデーレテッドクエリーを実現セキュア AWSグレードのセキュリティ機能 (eg. VPC, encryption with KMS, CloudTrail) 全ての主要な認証を取得済み（SOC, PCI, DSS, ISO, FedRAMP, HIPPA） *他のクラウドDWHとの⽐較

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化⾼速化 AI/ML

4: ETLとデータ分析の⺠主化 • 各部⾨の多様なニーズに応えるために、データ分析専⾨家のみならず、業務部⾨の⽅でもETLやデータ分析を⾏える環境の整備 • Line of Business (LOB) • ETLの⺠主化: • ファイルインポートのためのインタフェースの⽤意 • ETL処理のパターン化 and/or GUIツール (Glue DataBrew) • データ分析の⺠主化: • 専⾨知識を必要としないBIツール • 代表的なもの: Redash、Tableau、QuickSight • 適切なセキュリティポリシとガバナンスの設計 • 既存のデータを扱いやすい形に

分析や処理を開始する前に必要となるデータの前処理(クリーニングや正規化等)を迅速に実施するための新しいビジュアルツール • ノンコーディングで視覚的にデータの前処理を実施することができるため、データ分析者やサイエンティストが容易に利⽤可能 • 250以上の構築済み変換処理を⽤意。これらを利⽤して効率的に異常値の排除やフォーマットの整理を⾏い、分析処理や学習処理に注⼒することができる AWS Glue DataBrew データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual- data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/

2021, Amazon Web Services, Inc. or its Affiliates. AWS Glue DataBrew ワークスペース

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化 AI/ML

5: もっと速く • クエリパフォーマンス • クエリ最適化 • データの置き⽅の最適化 • Redshift、EMRのパフォーマンスチューニング • Redshift RA3, AQUA • QuickSight SPICE • データ反映⾼速化 • Kinesis Data Streams、Kinesis Data Analytics、Kinesis Data Firehoseを活⽤したストリーミングデータ処理 • Amazon Elasticsearch Serviceへの直接格納 ! !

© 2021, Amazon Web Services, Inc. or its Affiliates. データの置き⽅の最適化
– 列指向フォーマット • データを列指向フォーマットに変換 (Apache Parquet, Avro) • ⾏ではなく、列でデータをまとめる • クエリパフォーマンス向上、コスト最適化: • SELECTしていない列が読み込まれない • 各ファイルに含まれているデータに関するメタデータがあるため、クエリの対象データを含まないファイルを読み込まない最適化が可能 (predicate pushdown, partition pruning) • 列では近しいデータが格納されるパターンが⾒られるため、圧縮効率が向上 (例: ⽇付、true/falseフラグ) • Parquet/Avroにおいて、AthenaやSparkが効率的に処理を⾏えるおすすめ: Parquet + Snappy圧縮

– パーティション分割とバケット化 • パーティション分割 • テーブルをいくつかに分割し、⽇付や国、地域といったカラムの値単位でまとめることで、スキャン対象データを減らす: s3://athena-examples/flight/parquet/year=1991/month=1/day=1/ • バケット化 • ひとつ以上のカラムを指定し、それらのカラムの値に基づいてデータを複数のファイルに分割 • 例えば、user_idでパーティション分割を⾏うと、アクティブとそうでないユーザがいるため、パーティションサイズにばらつきが出る • user_idでのバケット化では、hash(user_id) % bucket_count のように分割が⾏われるため、スキャン対象データを減らしつつ、サイズのばらつきを防げる • バケット化がパーティション分割の後に⾏われる参考: https://aws.amazon.com/jp/blogs/big-data/top- 10-performance-tuning-tips-for-amazon-athena/

– 実現のために • Parquetへの変換、バケット化、パーティション分割は Glue Jobで簡単に実装できます • Glue Jobの開発に役⽴つGlue StudioというGUIを使うことで、開発をさらに楽に

Redshift RA3インスタンス • コンピュートとストレージを分離しスケーリングと⽀払いを独⽴ • データの格納: 永続ストレージとしての S3 とキャッシュとしてのローカル SSD • アクセス頻度の⾼いブロックはキャッシュにとどまり、あまりアクセスされないブロックは⾃動的にキャッシュアウト Amazon Redshift JDBC/ODBC Redshift フォーマットファイル広帯域ネットワーキング

© 2021, Amazon Web Services, Inc. or its Affiliates. 48
AQUA (Advanced Query Accelerator) for Amazon Redshift 新たな分散型ハードウェアアクセラレーション処理レイヤにより、追加コストなしに他のクラウドデータウェアハウスの10倍の性能を実現コンピュートノードコンピュートノードコンピュートノードコンピュートノード AQUA ノード AWSデザインのカスタムプロセッサ AQUA ノード AWSデザインのカスタムプロセッサ AQUA ノード AWSデザインのカスタムプロセッサ AQUA ノード AWSデザインのカスタムプロセッサ並列処理 AQUA ノードに処理をプッシュダウンすることでコンピュートノードとマネージドストレージの間のデータ移動を最⼩化 AQUA ノードは AWS がデザインした分析処理向けのカスタムプロセッサを備え、データの圧縮、暗号化、フィルタリングや集計の処理を従来の CPU よりも遥かに⾼速に処理 RA3 インスタンスのみで追加コスト不要で利⽤可能現⾏の Redshift の SQL やその他オペレーションは変更する必要なくそのまま利⽤が可能 Redshift マネージドストレージスケールアウト

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化クエリ最適化置き⽅の最適化チューニング⾼速化リソースリアルタイム処理 AI/ML

6: そしてAI/MLへ • S3に収集される⼤量のデータを使って、AI/ML技術を活⽤しよう • レコメンデーション: Amazon Personalize • 予測: Amazon Forecast • 不正検知: Amazon Fraud Detector • 異常検知: Amazon Lookout for Metrics • カスタムでモデルを作る: SageMaker • Redshift ML、Athena ML、Aurora ML https://aws.amazon.com/jp/blogs/news/amazon-redshift-ml-is-now-generally-available-use-sql-to- create-machine-learning-models-and-make-predictions-from-your-data/

Personalize • ユーザー向けにパーソナライズしたレコメンデーションを簡単に追加できる機械学習サービス質の⾼い推薦数クリックで学習簡単に使えるリアルタイムイベントを反映したレコメンデーション

© 2021, Amazon Web Services, Inc. or its Affiliates. ML
開発ライフサイクル全体をカバーする20以上のツール Amazon SageMaker 最も完全なエンドツーエンドの ML サービス ML 開発を加速する ML ⽤に最適化された統合機能を備えたカスタム統合コードを作成するコストを排除コスト削減世界初の統合開発環境（IDE）データサイエンティストの⽣産性を⾼める

© 2021, Amazon Web Services, Inc. or its Affiliates. 54
Amazon SageMaker PREPARE SageMaker Ground Truth Label training data for machine learning SageMaker Data Wrangler NEW Aggregate and prepare data for machine learning SageMaker Processing Built-in Python, BYO R/Spark SageMaker Feature Store NEW Store, update, retrieve, and share features SageMaker Clarify NEW Detect bias and understand model predictions BUILD SageMaker Studio Notebooks Jupyter notebooks with elastic compute and sharing Built-in and Bring your-own Algorithms Dozens of optimized algorithms or bring your own Local Mode Test and prototype on your local machine SageMaker Autopilot Automatically create machine learning models with full visibility SageMaker JumpStart NEW Pre-built solutions for common use cases TRAIN & TUNE Managed Training Distributed infrastructure management SageMaker Experiments Capture, organize, and compare every step Automatic Model Tuning Hyperparameter optimization Distributed Training NEW Training for large datasets and models SageMaker Debugger NEW Debug and profile training runs Managed Spot Training Reduce training cost by 90% DEPLOY & MANAGE Managed Deployment Fully managed, ultra low latency, high throughput Kubernetes & Kubeflow Integration Simplify Kubernetes-based machine learning Multi-Model Endpoints Reduce cost by hosting multiple models per instance SageMaker Model Monitor Maintain accuracy of deployed models SageMaker Edge Manager NEW Manage and monitor models on edge devices SageMaker Pipelines NEW Workflow orchestration and automation Amazon SageMaker SageMaker Studio Integrated development environment (IDE) for ML

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化クエリ最適化置き⽅の最適化チューニング⾼速化リソースリアルタイム処理 AI/ML SageMaker Personalize Forecast Fraud Detector Lookout for Metrics Redshift ML Athena ML

データレイクの⼟台 S3, Glue 最⼩限のデータレイク Athena, Glue Crawler, Glue Data Catalog 可視化 QuickSight ⼤規模化 Redshift, EMR Redshift Spectrum EMRFS ⺠主化 LOB, BI, Glue DataBrew ⾼速化クエリ最適化置き⽅の最適化チューニング⾼速化リソースリアルタイム処理 AI/ML SageMaker Personalize Forecast Fraud Detector Lookout for Metrics Redshift ML Athena ML 各々のニーズに応じて、順番を変えていきましょう︕

Tips その1: ⽣データを残そう • S3上でETL処理、変換や集約などが⾏われる • 後からなんらかの処理をやり直したい、やり⽅を変えたいとなった時のために、全てのデータをETL等の加⼯前の状態で残す • S3のストレージクラスを活⽤することで頻繁にアクセスしないデータの保管にかかるコストを削減可能

Tips その2: EMRを使ったETLも可能 • HadoopやSparkなどのApache Ecosystemの方が使いなられているという方は、Glueの他、EMRを使ってETLパイプラインを構築することも可能 • スポットインスタンスやGraviton2を使うことで、コスト削減、パフォーマンス向上

前世代(M5)のインスタンスと⽐較して、Graviton2 ベース (M6g) インスタンスでの Spark ワークロードのコストが最⼤ 35% 削減、パフォーマンスが最⼤ 15% 向上 • Apache Spark ⽤ EMR ランタイムと M6g インスタンスを組合せて実⾏すると、オープンソースの Apache Spark と M5 インスタンスの組合せで実⾏する場合と⽐べて、総コストが最⼤ 76% 削減、パフォーマンスが 3.6 倍向上 • EMR-6.0.0 を除く、EMR-5.30 以降のバージョンで利⽤可能 EMR: ARM (Graviton2) インスタンスをサポート低コストでパフォーマンスが向上参考: https://aws.amazon.com/jp/about-aws/whats- new/2020/10/amazon-emr-provides-lower-cost-improved-performance/

Tips その3: ETLのためのサービスの選定 • ETL処理の代表的なサービス: Glue Job、Glue DataBrew、EMR… • …結局、どれを選べばいいか︖ • AWS Glue DataBrew: • GUIでETL処理を実装、ノンコーディング • サーバーレス • AWS Glue: • ⾼い⾃由度 • サーバーレス • Amazon EMR: • ⾼い⾃由度 • 並列分散処理が得意 • スポットインスタンスやGraviton2を使うことでコスト削減

Tips その4: QuickSightを使った End-user向けダッシュボード • End-userに提供したいダッシュボードは、QuickSightを使って実現可能 • Federated login (IdP)やemail追加でend-user⽤のユーザを作成、 end-user⾃らがQuickSightにアクセス可能 • 例えば、SaaS製品としてアプリケーションを提供する場合、メトリクス、効果測定の機能をQuickSightで提供できる • QuickSightでは例えばどのようなものが作れるの? • 公開サンプルを参照: https://aws.amazon.com/jp/quicksight/gallery/

Tips その5: JDBC/ODBC + BI = ❤ • Redshift、Athena⽤のJDBC/ODBCドライバが提供されています • Redshift: https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/conﬁguring-connections.html • Athena: https://docs.aws.amazon.com/ja_jp/athena/latest/ug/athena-bi-tools-jdbc-odbc.html • JDBC/ODBC接続に対応するBIツール等と接続できます︕ • 例: Tableau + Athena https://help.tableau.com/current/pro/desktop/en-us/examples_amazonathena.htm • 既存のBI環境をAWS上のデータレイクで拡張、パフォーマンス向上、コスト最適化 • JDBC/ODBCを使わない連携が可能なBIツールもある • 例: Redash + Athena https://redash.io/help/data-sources/querying/amazon-athena

© 2021, Amazon Web Services, Inc. or its Affiliates. まとめ
• データレイクの構築はS3を中⼼に • S3にデータを収集し、整形することができれば、 Athena、Redshift、EMRなどの幅広い分析サービスを使えます • あとから切り替えや追加も可能︕ • 常に変わり続けるStartupは特に、これが特に重要 • 元データを保持しておくと、後から加⼯⽅法を変更可能 • Glue DataBrewを使えばコードなしでデータ加⼯(ETL)を実現可能 S3+Athena+QuickSightでデータレイクを始めてみませんか︕

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm...

Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

More Decks by Tamirlan 893 Torgayev

Other Decks in Technology

Featured

Transcript