Upgrade to Pro — share decks privately, control downloads, hide ads and more …

zero-ETLが金融業界にもたらすものとは?

Hikaru Kawagoe
January 10, 2024
740

 zero-ETLが金融業界にもたらすものとは?

Hikaru Kawagoe

January 10, 2024
Tweet

More Decks by Hikaru Kawagoe

Transcript

  1. 2 かわごえ / Hikaru KAWAGOE • Simplex Inc. • Architect/CCoE/育成

    等… • Community Builder (DevTool) • 2023 Japan AWS Top Engineer
  2. ETLの課題 15 データのマッピング、異常検 知、データの不整合・競 合・・・などなどそもそもメ ンテナンスが手間 大容量のデータを高速に処理 をするためには料金が膨れ上 がる、DBからデータを読み取 る際にはDBに負荷がかかるた

    めワークロードに影響が出る 増え続けるデータの種類やシ ステムに対応するためにコー ドの変更やデプロイなど時間 を要する。結果、データ分析 や機械学習で利用できるまで にかかる時間が増加しデータ の鮮度が劣化していく
  3. ETLの課題 16 データのマッピング、異常検 知、データの不整合・競 合・・・などなどそもそもメ ンテナンスが手間 大容量のデータを高速に処理 をするためには大きなサイズ のインフラを並列に。結果と して料金が膨れ上がる

    増え続けるデータの種類やシ ステムに対応するためにコー ドの変更やデプロイなど時間 を要する。結果、データ分析 や機械学習で利用できるまで にかかる時間が増加 手間もコストも時間もかかる苦痛な作業 (AWS re:Invent 2022 Keynote)
  4. zero-ETLとは何か@公式ドキュメント “ETLデータパイプラインを構築する必要性を排除し または最小限に抑える一連の統合” 18 https://aws.amazon.com/jp/what-is/zero-etl/ Federated Querying Streaming ingestion Instant

    replication データの移動させる必要がな く、さまざまなデータソース に対してクエリを実行可能 複数のデータソースからリア ルタイムデータをストリーミ ングし、瞬時に分析可能に データベースからデータウェ アハウスへデータを即座に継 続的にレプリケーションする
  5. パターン1 Federated querying 19 Amazon OpenSearch Service Amazon Simple Storage

    Service (Amazon S3) AWS Lambda データの取り込み OpenSearch w/ S3
  6. パターン1 Federated querying 20 Amazon OpenSearch Service Amazon Simple Storage

    Service (Amazon S3) AWS Glue Data Catalog Amazon OpenSearch Service Amazon Simple Storage Service (Amazon S3) AWS Lambda データの取り込み 直接クエリ OpenSearch w/ S3
  7. zero-ETLじゃないけど あなたはひょっとしてzero-ETL? • Redshift • auto-copy from Amazon S3 •

    Streaming Ingestion(w/ MSK and Kinesis Data Stream) • OpenSearch • Amazon OpenSearch Ingestion • w/ DynamoDBのzero-ETLも実際はこれ • zero-ETLと名前をつけたものと付けてないものの違いってなんなんだろか (単なるタイミング?) 27 https://dev.classmethod.jp/articles/dynamodb-to-opensearch-cdk/
  8. zero-ETL の全体像 28 Amazon DynamoDB Amazon Aurora Amazon S3 Amazon

    Redshift Amazon OpenSearch Service Amazon RDS Kinesis Data Stream Amazon MSK Replication Streaming Ingestion Replication 不明 Replication Federated Querying ※ OpenSearch Ingestionは割愛
  9. System C zero-ETLが金融業界にもたらすものとは 34 System A System D System B

    Amazon Redshift そもそもリアルタイム性を 捨てている データベースにクエリ実行 すると負荷がかかり本番 ワークロードに影響が 高速に処理するためにコス トが 複雑すぎて運用が辛い 作り込みのオンパレード ランタイムのサポート終了 使いこなせる人どこ?