$30 off During Our Annual Pro Sale. View Details »

TROCCO®︎とAmazon S3で始める コスト安なデータ分析ジャーニーの実現方法

TROCCO®︎とAmazon S3で始める コスト安なデータ分析ジャーニーの実現方法

primeNumber DATA SUMMIT 2025で登壇した際の資料です

Avatar for Kouki Kishida

Kouki Kishida

December 05, 2025
Tweet

More Decks by Kouki Kishida

Other Decks in Technology

Transcript

  1. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 1 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 岸⽥ 晃季 P R I M E N U M B E R D A T A S U M M I T 2 0 2 5 アマゾン ウェブ サービス ジャパン合同会社 スタートアップソリューションアーキテクト TROCCO®とAmazon S3で始める コスト安なデータ分析ジャーニーの実現⽅法
  2. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 8 想定聴講者 8 Draft • データ分析基盤のコストに悩むエンジニア • ⼿軽に分析基盤を導⼊しつつ将来的に拡張性も担保したい⽅
  3. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 9 9 Draft DataSource Dashboard
  4. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 10 10 Draft Connector Data Warehouse Join Dashboard DataSource
  5. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 11 11 Draft 🔥 Connector 1 Connector 2 Connector 3 Data Warehouse Join Dashboard 🔥
  6. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 12 12 Draft 🔥 Connector 1 Connector 2 Connector 3 Dashboard 🔥 Data Warehouse Join 🔥 🔥
  7. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 13 13 Draft 🔥 🔥 Connector 1 Connector 2 Connector 3 Data Warehouse Dashboard 🔥 🔥
  8. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 14 14 Draft 🔥 🔥 Connector 1 Connector 2 Connector 3 Data Warehouse Dashboard 🔥 🔥 🔥 🔥 他のData Warehouse 🔥
  9. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 15 事業のスケール時に起きるデータ分析基盤における課題 15 Draft 増える分析対象のデータとコネクターのメンテナンス負荷 制御できなくなった⼤量のクエリと爆増するコスト 組織によって異なるデータ基盤サービス 要望に応じて増え続ける中間テーブルと変換ジョブ
  10. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 16 これらの課題を解決するアプローチ 16 Draft 増えゆくデータソース コネクターのメンテナンス 発散するデータクエリとコスト 乱⽴するデータ分析基盤サービス
  11. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 17 これらの課題を解決するアプローチ 17 Draft Amazon S3
  12. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 18 アーキテクチャの⽅向性・考え⽅ 18 Draft Amazon S3
  13. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 19 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. 初期フェーズ
  14. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 20 これらの課題を解決するアプローチ 20 Draft TROCCO®によるUI上での簡単なパイプライン設定 Amazon S3 によりコストを最⼩限かつ スケールする構成に (テーブルはAWS Glue Data Catalogにて定義する) Amazon S3 AWS Glue Data Catalog
  15. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 21 STEP1 初期フェーズ 21 Draft
  16. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 22 22 Draft STEP1 初期フェーズ Raw Data Amazon Athena Mart Data
  17. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 24 © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. スケールフェーズ
  18. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 25 これらの課題を解決するアプローチ 25 Draft dbtを⽤いることで発散する中間テーブルおよび その依存関係、変換ジョブを管理する Apache Icebergにより性能を向上しコストを削減 クエリエンジンを使い分け、コストの最適化を図る (他にも様々なメリットが…) dbtの対応アダプタとして dbtが提供する dbt-athena, dbt-redshift (https://github.com/dbt-labs/dbt-adapters) AWSが提供するdbt-glue(https://github.com/aws-samples/dbt-glue)を利⽤可能
  19. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 26 多様な規模のデータを効率よく柔軟に扱える オープンテーブルフォーマット 2017 年当時 Amazon S3 に 60 PB のデータを格納 していた Netflix 社が開発 (2018 年 Apache Software Foundation 寄贈) • 複数のツールが整合性と⼀貫性を維持しながら 同じテーブルを操作できる • パフォーマンス最適化の様々な機構を備える • テーブル構造の変化に柔軟に対応 • テーブルのバージョン管理や過去状態の参照を実現 26 Apache Icebergとは 参照元︓https://www.youtube.com/watch?v=nWwQMlrjhy0
  20. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 27 27 速い(≒ 安い) Apache Icebergを導⼊するメリット 便利 オープン
  21. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 28 28 速い(≒ 安い) • メタデータの⼯夫と統計情報により全般的な性能を最適化 • 従来のデータレイクでは性能やリソース効率に課題を抱える処理を効率化 便利 • 同時実⾏時の整合性と⼀貫性確保、テーブル構造の柔軟な変更、タイムトラベル やスナップショット管理機能など、データ活⽤の⾼度な要件に対応できる オープン • 幅広いツールが Iceberg フォーマットを共有することで ストレージのデータをコピーせずにテーブルを操作できる Apache Icebergを導⼊するメリット
  22. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 29 29 速い(≒ 安い) • メタデータの⼯夫と統計情報により全般的な性能を最適化 • 従来のデータレイクでは性能やリソース効率に課題を抱える処理を効率化 便利 • 同時実⾏時の整合性と⼀貫性確保、テーブル構造の柔軟な変更、タイムトラベル やスナップショット管理機能など、データ活⽤の⾼度な要件に対応できる オープン • 幅広いツールが Iceberg フォーマットを共有することで ストレージのデータをコピーせずにテーブルを操作できる Apache Icebergを導⼊するメリット
  23. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 30 30 Draft STEP2 スケールフェーズ︓データの書き込み Raw data Raw Data (Iceberg Table) Mart Data (Iceberg Table) MySQL / PostgreSQL ※ ※Professional Plan 限定 (https://documents.trocco.io/docs/cdc-job-definition) CDC転送機能
  24. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 31 STEP2 スケールフェーズ︓データの読み込み Mart Data (Iceberg Table) BIと連携し業務に絡む分析ワークロードの場合 開発⽬的でコストを抑えたい場合 Developer PdM Analyzer Sales Query Engine Dashboard PyIceberg
  25. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 32 STEP2 スケールフェーズ︓データの変換 Amazon S3 上のIcebergテーブルを変換する場合︓ • Amazon Athena or AWS Glueを利⽤することでGlueのCatalogと連携可能 • データが軽量(数百GB程度)かつSQLで加⼯処理が定義可能な場合は Amazon Athenaを利⽤する • データが数TB、あるいは複雑な加⼯処理を定義する場合はAWS Glueの Sparkジョブを検討する • dbtを組み合わせることで、データモデルおよびジョブの管理が可能になる(実 ⾏環境が別途必要*) DWH上のデータ変換の場合︓ dbtとTROCCO®を利⽤することで視覚的にデータの変換ワークフローの設 定・実⾏・管理ができる * AWS Lambda, Amazon ECS, Amazon Managed Workflow for Apache Airflow など
  26. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 33 今回紹介した アーキテクチャの サンプルを公開しています 以下リリース予定 ・Apache Iceberg 対応 ・duckdb+dbtの超お⼿軽基盤 https://github.com/aws-samples/startup-data-pipeline-samples/tree/main
  27. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 34 まとめ TROCCO® とAmazon S3を利⽤することで、初期から低コストでスケール 可能な分析基盤を作ることができる Apache Icebergを利⽤することで様々なクエリエンジンからクエリが可能 になり、より拡張可能なデータ基盤にシフトすることができる
  28. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon Confidential and Trademark. 37 Thank you! © 2025, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Confidential and Trademark. Kouki Kishida Startup Solutions Architect