Slide 1

Slide 1 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. スタートアップ企業が データ分析基盤を AWS 上に構築する理由 D a t a b r i c k s o n A W S S t a r t u p D a y 針原 佳貴 シニア スタートアップ 機械学習 ソリューションアーキテクト アマゾン ウェブ サービス ジャパン合同会社

Slide 2

Slide 2 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. 針原 佳貴 (Yoshitaka Haribara, Ph.D.) シニア スタートアップ 機械学習 ソリューションアーキテクト ⽇本のスタートアップ企業の クラウド利⽤を中⼼に、 機械学習プロジェクトや 量⼦コンピューティング案件も担当。 好きな AWS のサービス: Amazon SageMaker, Amazon Braket

Slide 3

Slide 3 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. 本⽇お話しする内容 • スタートアップ企業でのデータ分析にまつわる課題 • AWS が考えるモダンデータアーキテクチャ • Databricks on AWS リファレンスアーキテクチャ

Slide 4

Slide 4 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. スタートアップ企業でのデータ分析にまつわる課題・相談 • 🧑💻 「そろそろ本格的にデータ分析に取り組みたい」 § これまでアドホックな分析を⾏ってきたが、ビジネス KPI を正しく測定 するために分析基盤を整えて本格的なデータ分析を⾏いたい。 基盤構築について相談したい。 • 👥 「チームが増えてきたのでデータ分析基盤を整えたい」 § 各チーム、データ管理のルールや分析ツールがバラバラ。 セキュリティ・監査や、 データを整理して管理を楽にしたい。 データ分析基盤を集約・統⼀したい。 • 🤖 「集まったデータで AI / 機械学習をやりたい」 § AI / 機械学習をやりたいのだが、データサイエンティストの採⽤が難しい。 何から始めれば良いか悩んでいる。 4

Slide 5

Slide 5 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. D A T A W A R E H O U S E D A T A L A K E データ分析にまつわる課題を⽣むもの P E O P L E D A T A 人のサイロ データ サイロ C O S T L E G A C Y T E C H ビジネス起因の サイロ デ ー タ ・ 人 ・ ビ ジ ネ ス の サ イ ロ に よ る 分 断

Slide 6

Slide 6 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. モダンデータアーキテクチャ 5つの柱 Catalog Governance Analytics Databases Machine Learning Data Lakes Business Intelligence 統⼀的な分析 機械学習との統合 低いコストで⾼いパフォーマンス 全ての⼈へのインサイト データアクセス、セキュリティ、ガバナンス

Slide 7

Slide 7 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. モダンデータアーキテクチャ Catalog Governance Data Sources People, Apps, and Devices Analytics Databases Machine Learning Data Lakes Business Intelligence

Slide 8

Slide 8 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. End-to-end のデータライフサイクル 取り込み 保存 変換 & カタログ 分析 & 可視化 予測 共有 リアルタイムを 含むあらゆる データソース エクサバイト 規模の 任意のデータ量 データ準備、 変換、および シームレスな データアクセス あらゆるユース ケースに対応す る end-to-end の分析と視覚化 最も包括的な AI/ML サービス わずか数⾏の コードで 統⼀的なセキュリティ、ガバナンス、データアクセス

Slide 9

Slide 9 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. 幅広く 最もコスト効率の良い 分析サービス Amazon Athena インタラクティブな分析 Amazon EMR ビッグデータ処理 Amazon OpenSearch Service ログ分析と検索 Amazon Kinesis and Amazon MSK リアルタイム分析 Amazon Redshift データウエアハウス Amazon S3, AWS Lake Formation, AWS Glue Data Catalog ガバナンス & データレイク 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 Amazon QuickSight 可視化 AWS Glue, AWS Data Exchange, and Amazon AppFlow データ統合 & 3rd パーティ データ

Slide 10

Slide 10 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Analytics データ統合、ETL、カタログ データウエアハウス ビッグデータ処理 インタラクティブな分析 リアルタイム分析 リアルタイム分析 可視化 データレイクの構築管理とガバナンス SaaS 統合 ログ分析と検索 クラウドでのデータ分析を容易にする サーバーレスのフルスタック

Slide 11

Slide 11 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Databases Logs Streams On-premises 典型的なアーキテクチャ AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 Amazon QuickSight Amazon S3 AWS Glue ETL #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。

Slide 12

Slide 12 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight AWS Glue ETL 取り込み Databases Logs Streams On-premises #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 Amazon S3 Amazon AppFlow Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (Amazon MSK) AWS Data Exchange AWS Database Migration Service (AWS DMS) AWS Glue AWS DataSync AWS Transfer Family

Slide 13

Slide 13 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight AWS Glue ETL 保存 Amazon S3 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 Amazon Redshift

Slide 14

Slide 14 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon S3 ⾼い耐久性、可⽤性、 スケーラビリティ オブジェクトレベル の アクセス制御 Intelligent Tiering による 簡単なコスト最適化 セキュリティ、 コンプライアンス、監査 に対応 数多くの⽅法で データを取り込み可能 分析サービスの ポートフォリオ アーカイブを含む コールドストレージ に対応 Amazon S3 のデータレイク 最 ⾼ ⽔ 準 の ス ケ ー ラ ビ リ テ ィ 、 デ ー タ 可 ⽤ 性 、 セ キ ュ リ テ ィ 、 パ フ ォ ー マ ン ス を 提 供 す る オ ブ ジ ェ ク ト ス ト レ ー ジ サ ー ビ ス

Slide 15

Slide 15 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight 変換 & カタログ AWS Glue Data Catalog #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 AWS Glue ETL Amazon S3

Slide 16

Slide 16 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions AWS Glue Data Catalog #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives AWS Glue ETL Amazon S3 分析 & 可視化 Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 Amazon QuickSight

Slide 17

Slide 17 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. #6: Share Sharing new insights to take intelligent, data-driven actions AWS Glue Data Catalog #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives AWS Glue ETL Amazon S3 予測と共有 Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker Amazon QuickSight #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。

Slide 18

Slide 18 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Databases Logs Streams On-premises 典型的なアーキテクチャ (再掲) AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。 Amazon QuickSight Amazon S3 AWS Glue ETL

Slide 19

Slide 19 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. End-to-end のデータライフサイクル (再掲) 取り込み 保存 変換 & カタログ 分析 & 可視化 予測 共有 リアルタイムを 含むあらゆる データソース エクサバイト 規模の 任意のデータ量 データ準備、 変換、および シームレスな データアクセス あらゆるユース ケースに対応す る end-to-end の分析と視覚化 最も包括的な AI/ML サービス わずか数⾏の コードで 統⼀的なセキュリティ、ガバナンス、データアクセス

Slide 20

Slide 20 text

© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon DataZone D a t a M e s h に よ る セ キ ュ リ テ ィ 、 ガ バ ナ ン ス 、 デ ー タ ア ク セ ス の 統 合 D a t a b r i c k s な ど の パ ー ト ナ ー ソ リ ュ ー シ ョ ン と も 連 携 Amazon DataZone Data producers Data consumers

Slide 21

Slide 21 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Achieving your modern data architecture A N T 2 0 5 - R Santosh Chandrachood General Manager AWS Glue https://youtu.be/vDDJ9eWaUt0

Slide 22

Slide 22 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. Databricks on AWS 25

Slide 23

Slide 23 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. Databricks on AWS 高い信頼性とパフォーマンス データレイクでトランザクションを実現する Delta Lake と、高度に最適化された Apache Spark をベースにしたスケーラブルなデータ パイプラインを提供 AWS サービスとの連携 AWS が提供するデータストアやカタログ、 機械学習サービスとシームレスに連携し、 Amazon Redshift, Amazon EC2 Spot, AWS Graviton にも対応 多様なツール / 言語に対応 BI ツールや SQL に加え、Python や R といったプログラミング言語をサポート 機械学習のライフサイクル管理 MLflow で実験の追跡やデプロイなど 機械学習ライフサイクルを管理 26 7 つの AWS Competencies • Data & Analytics ISV Competency • Life Sciences ISV Competency • Retail ISV Competency • Machine Learning ISV Competency • Digital Customer Experience ISV Competency • Energy ISV Competency • Financial Services Technology Competency

Slide 24

Slide 24 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. Databricks on AWS リファレンスアーキテクチャ 27

Slide 25

Slide 25 text

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. Thank you! Yoshitaka Haribara [email protected] Twitter: @_hariby