Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 / Databricks on AWS

スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 / Databricks on AWS

Yoshitaka Haribara

February 15, 2023
Tweet

More Decks by Yoshitaka Haribara

Other Decks in Technology

Transcript

  1. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. スタートアップ企業が データ分析基盤を AWS 上に構築する理由 D a t a b r i c k s o n A W S S t a r t u p D a y 針原 佳貴 シニア スタートアップ 機械学習 ソリューションアーキテクト アマゾン ウェブ サービス ジャパン合同会社
  2. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. 針原 佳貴 (Yoshitaka Haribara, Ph.D.) シニア スタートアップ 機械学習 ソリューションアーキテクト ⽇本のスタートアップ企業の クラウド利⽤を中⼼に、 機械学習プロジェクトや 量⼦コンピューティング案件も担当。 好きな AWS のサービス: Amazon SageMaker, Amazon Braket
  3. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. 本⽇お話しする内容 • スタートアップ企業でのデータ分析にまつわる課題 • AWS が考えるモダンデータアーキテクチャ • Databricks on AWS リファレンスアーキテクチャ
  4. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. スタートアップ企業でのデータ分析にまつわる課題・相談 • 🧑💻 「そろそろ本格的にデータ分析に取り組みたい」 § これまでアドホックな分析を⾏ってきたが、ビジネス KPI を正しく測定 するために分析基盤を整えて本格的なデータ分析を⾏いたい。 基盤構築について相談したい。 • 👥 「チームが増えてきたのでデータ分析基盤を整えたい」 § 各チーム、データ管理のルールや分析ツールがバラバラ。 セキュリティ・監査や、 データを整理して管理を楽にしたい。 データ分析基盤を集約・統⼀したい。 • 🤖 「集まったデータで AI / 機械学習をやりたい」 § AI / 機械学習をやりたいのだが、データサイエンティストの採⽤が難しい。 何から始めれば良いか悩んでいる。 4
  5. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. D A T A W A R E H O U S E D A T A L A K E データ分析にまつわる課題を⽣むもの P E O P L E D A T A 人のサイロ データ サイロ C O S T L E G A C Y T E C H ビジネス起因の サイロ デ ー タ ・ 人 ・ ビ ジ ネ ス の サ イ ロ に よ る 分 断
  6. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. モダンデータアーキテクチャ 5つの柱 Catalog Governance Analytics Databases Machine Learning Data Lakes Business Intelligence 統⼀的な分析 機械学習との統合 低いコストで⾼いパフォーマンス 全ての⼈へのインサイト データアクセス、セキュリティ、ガバナンス
  7. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. モダンデータアーキテクチャ Catalog Governance Data Sources People, Apps, and Devices Analytics Databases Machine Learning Data Lakes Business Intelligence
  8. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. End-to-end のデータライフサイクル 取り込み 保存 変換 & カタログ 分析 & 可視化 予測 共有 リアルタイムを 含むあらゆる データソース エクサバイト 規模の 任意のデータ量 データ準備、 変換、および シームレスな データアクセス あらゆるユース ケースに対応す る end-to-end の分析と視覚化 最も包括的な AI/ML サービス わずか数⾏の コードで 統⼀的なセキュリティ、ガバナンス、データアクセス
  9. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 幅広く 最もコスト効率の良い 分析サービス Amazon Athena インタラクティブな分析 Amazon EMR ビッグデータ処理 Amazon OpenSearch Service ログ分析と検索 Amazon Kinesis and Amazon MSK リアルタイム分析 Amazon Redshift データウエアハウス Amazon S3, AWS Lake Formation, AWS Glue Data Catalog ガバナンス & データレイク 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 Amazon QuickSight 可視化 AWS Glue, AWS Data Exchange, and Amazon AppFlow データ統合 & 3rd パーティ データ
  10. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS Analytics データ統合、ETL、カタログ データウエアハウス ビッグデータ処理 インタラクティブな分析 リアルタイム分析 リアルタイム分析 可視化 データレイクの構築管理とガバナンス SaaS 統合 ログ分析と検索 クラウドでのデータ分析を容易にする サーバーレスのフルスタック
  11. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Databases Logs Streams On-premises 典型的なアーキテクチャ AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 Amazon QuickSight Amazon S3 AWS Glue ETL #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。
  12. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight AWS Glue ETL 取り込み Databases Logs Streams On-premises #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 Amazon S3 Amazon AppFlow Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Managed Streaming for Apache Kafka (Amazon MSK) AWS Data Exchange AWS Database Migration Service (AWS DMS) AWS Glue AWS DataSync AWS Transfer Family
  13. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight AWS Glue ETL 保存 Amazon S3 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 Amazon Redshift
  14. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon S3 ⾼い耐久性、可⽤性、 スケーラビリティ オブジェクトレベル の アクセス制御 Intelligent Tiering による 簡単なコスト最適化 セキュリティ、 コンプライアンス、監査 に対応 数多くの⽅法で データを取り込み可能 分析サービスの ポートフォリオ アーカイブを含む コールドストレージ に対応 Amazon S3 のデータレイク 最 ⾼ ⽔ 準 の ス ケ ー ラ ビ リ テ ィ 、 デ ー タ 可 ⽤ 性 、 セ キ ュ リ テ ィ 、 パ フ ォ ー マ ン ス を 提 供 す る オ ブ ジ ェ ク ト ス ト レ ー ジ サ ー ビ ス
  15. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions Amazon QuickSight 変換 & カタログ AWS Glue Data Catalog #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 AWS Glue ETL Amazon S3
  16. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. #5: Predict Adding ML-based intelligence to applications without needing ML skills #6: Share Sharing new insights to take intelligent, data-driven actions AWS Glue Data Catalog #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives AWS Glue ETL Amazon S3 分析 & 可視化 Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 Amazon QuickSight
  17. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #4: Analyze & Visualize Analyzing data using any of ad hoc queries, distributed frameworks and search engines, and visualize the data on dashboards #2: Store Storing both transactional data in databases and analytical data in data warehouses and data lakes at any scale. Databases Logs Streams On-premises #1: Ingest Ingesting data from any source including on-premise sources and data that is generated in real-time. #6: Share Sharing new insights to take intelligent, data-driven actions AWS Glue Data Catalog #3: Transform & Catalog Making it easy to access their data and keeping their data in sync regardless of where it lives AWS Glue ETL Amazon S3 予測と共有 Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker Amazon QuickSight #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。
  18. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Databases Logs Streams On-premises 典型的なアーキテクチャ (再掲) AWS Glue Data Catalog Amazon Redshift Amazon Athena Amazon EMR Amazon SageMaker #1: 取り込み オンプレミスのソースやリアルタイムで ⽣成されるデータなど、あらゆるソース からデータを取り込み。 #2: 保存 トランザクションデータをデータベース に、分析データをデータウェアハウスと データレイクにあらゆる規模で保存。 #3: 変換 & カタログ データに簡単にアクセスできるようにし、 データがどこにあるかに関係なくデータ を同期。 #4: 分析 & 可視化 アドホッククエリ、分散フレームワーク、 検索エンジンのいずれかを使⽤してデー タを分析し、ダッシュボードでデータを 視覚化。 #5: 予測 ML スキルを必要とせずに ML ベースの インテリジェンスをアプリケーションに 追加。 #6: 共有 新しい知⾒を共有して、インテ リジェントでデータドリブンな ⾏動を取る。 Amazon QuickSight Amazon S3 AWS Glue ETL
  19. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. End-to-end のデータライフサイクル (再掲) 取り込み 保存 変換 & カタログ 分析 & 可視化 予測 共有 リアルタイムを 含むあらゆる データソース エクサバイト 規模の 任意のデータ量 データ準備、 変換、および シームレスな データアクセス あらゆるユース ケースに対応す る end-to-end の分析と視覚化 最も包括的な AI/ML サービス わずか数⾏の コードで 統⼀的なセキュリティ、ガバナンス、データアクセス
  20. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon DataZone D a t a M e s h に よ る セ キ ュ リ テ ィ 、 ガ バ ナ ン ス 、 デ ー タ ア ク セ ス の 統 合 D a t a b r i c k s な ど の パ ー ト ナ ー ソ リ ュ ー シ ョ ン と も 連 携 Amazon DataZone Data producers Data consumers
  21. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Achieving your modern data architecture A N T 2 0 5 - R Santosh Chandrachood General Manager AWS Glue https://youtu.be/vDDJ9eWaUt0
  22. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. Databricks on AWS 25
  23. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. Databricks on AWS 高い信頼性とパフォーマンス データレイクでトランザクションを実現する Delta Lake と、高度に最適化された Apache Spark をベースにしたスケーラブルなデータ パイプラインを提供 AWS サービスとの連携 AWS が提供するデータストアやカタログ、 機械学習サービスとシームレスに連携し、 Amazon Redshift, Amazon EC2 Spot, AWS Graviton にも対応 多様なツール / 言語に対応 BI ツールや SQL に加え、Python や R といったプログラミング言語をサポート 機械学習のライフサイクル管理 MLflow で実験の追跡やデプロイなど 機械学習ライフサイクルを管理 26 7 つの AWS Competencies • Data & Analytics ISV Competency • Life Sciences ISV Competency • Retail ISV Competency • Machine Learning ISV Competency • Digital Customer Experience ISV Competency • Energy ISV Competency • Financial Services Technology Competency
  24. スタートアップ企業がデータ分析基盤を AWS 上に構築する理由 © 2023, Amazon Web Services, Inc. or

    its affiliates. © 2023, Amazon Web Services, Inc. or its affiliates. Thank you! Yoshitaka Haribara [email protected] Twitter: @_hariby