Slide 1

Slide 1 text

zero-ETLが金融業界にもたらすものとは? 2024/1/10 @Fin-JAWS re:Invent 金融 re:Cap シンプレクス株式会社 河越光 1

Slide 2

Slide 2 text

2 かわごえ / Hikaru KAWAGOE • Simplex Inc. • Architect/CCoE/育成 等… • Community Builder (DevTool) • 2023 Japan AWS Top Engineer

Slide 3

Slide 3 text

おことわり 発言は個人の見解に基づくものであり、所属組織 を代表するものではありません 3

Slide 4

Slide 4 text

4 アイスブレイク 今年(2024) ラスベガスへ行く人へ

Slide 5

Slide 5 text

WynnのBuffetは美味いぞ 5

Slide 6

Slide 6 text

WynnのBuffetは美味いぞ 6

Slide 7

Slide 7 text

7 ここからやっと本題

Slide 8

Slide 8 text

2022年のAWS re:Invent 8

Slide 9

Slide 9 text

2022年のAWS re:Inventから約1年 2023年11月 9

Slide 10

Slide 10 text

そしてその1ヶ月後のAWS re:Invent 2023 10

Slide 11

Slide 11 text

zero-ETLと名前がつくものたち(2024/01/10現在) 11 Amazon DynamoDB Amazon Aurora Amazon S3 Amazon Redshift Amazon OpenSearch Service Amazon RDS

Slide 12

Slide 12 text

re:Invent期間中に私が考えていたzero-ETLの概念 12 ETL

Slide 13

Slide 13 text

re:Invent期間中に私が考えていたzero-ETLの概念 ETLの「管理」が不要 13 ETL Managed by AWS

Slide 14

Slide 14 text

re:Invent期間中に私が考えていたzero-ETLの概念 ETLの「管理」が不要 14 ETL Managed by AWS 半分正解だったけど 半分ぐらいはどうやら不正解だった

Slide 15

Slide 15 text

ETLの課題 15 データのマッピング、異常検 知、データの不整合・競 合・・・などなどそもそもメ ンテナンスが手間 大容量のデータを高速に処理 をするためには料金が膨れ上 がる、DBからデータを読み取 る際にはDBに負荷がかかるた めワークロードに影響が出る 増え続けるデータの種類やシ ステムに対応するためにコー ドの変更やデプロイなど時間 を要する。結果、データ分析 や機械学習で利用できるまで にかかる時間が増加しデータ の鮮度が劣化していく

Slide 16

Slide 16 text

ETLの課題 16 データのマッピング、異常検 知、データの不整合・競 合・・・などなどそもそもメ ンテナンスが手間 大容量のデータを高速に処理 をするためには大きなサイズ のインフラを並列に。結果と して料金が膨れ上がる 増え続けるデータの種類やシ ステムに対応するためにコー ドの変更やデプロイなど時間 を要する。結果、データ分析 や機械学習で利用できるまで にかかる時間が増加 手間もコストも時間もかかる苦痛な作業 (AWS re:Invent 2022 Keynote)

Slide 17

Slide 17 text

zero-ETLとは何か@公式ドキュメント 17 https://aws.amazon.com/jp/what-is/zero-etl/ “ETLデータパイプラインを構築する必要性を排除し または最小限に抑える一連の統合”

Slide 18

Slide 18 text

zero-ETLとは何か@公式ドキュメント “ETLデータパイプラインを構築する必要性を排除し または最小限に抑える一連の統合” 18 https://aws.amazon.com/jp/what-is/zero-etl/ Federated Querying Streaming ingestion Instant replication データの移動させる必要がな く、さまざまなデータソース に対してクエリを実行可能 複数のデータソースからリア ルタイムデータをストリーミ ングし、瞬時に分析可能に データベースからデータウェ アハウスへデータを即座に継 続的にレプリケーションする

Slide 19

Slide 19 text

パターン1 Federated querying 19 Amazon OpenSearch Service Amazon Simple Storage Service (Amazon S3) AWS Lambda データの取り込み OpenSearch w/ S3

Slide 20

Slide 20 text

パターン1 Federated querying 20 Amazon OpenSearch Service Amazon Simple Storage Service (Amazon S3) AWS Glue Data Catalog Amazon OpenSearch Service Amazon Simple Storage Service (Amazon S3) AWS Lambda データの取り込み 直接クエリ OpenSearch w/ S3

Slide 21

Slide 21 text

パターン1 Federated querying 21 https://speakerdeck.com/nagamina96/re-invent-2023-re-cap- opensearchtos3nozeroetltong-he-sitemita https://www.youtube.com/watch?v=ol-UBfYcKUI

Slide 22

Slide 22 text

パターン2 Streaming ingestion 22

Slide 23

Slide 23 text

パターン3 Instant replication 23 https://aws.amazon.com/jp/blogs/big-data/announcing-zero-etl-integrations-with-aws-databases-and-amazon-redshift/ Redshift w/ Aurora w/ RDS w/ DynamoDB

Slide 24

Slide 24 text

パターン3 Instant replication 24 https://www.docswell.com/s/hmatsu47/ZGX4PM-2023-12-17-160927 https://www.youtube.com/watch?v=5g8KJbvSCJ4

Slide 25

Slide 25 text

あらためてzero-ETLとは(私見) AWSのどこかにデータがあれば ワークロードに可能な限り影響を与えずに 最小の作業・メンテナンスで ニアリアルタイムでデータの鮮度を落とさずに データ分析を可能にする統合 25

Slide 26

Slide 26 text

あらためてzero-ETLとは(私見) AWSのどこかにデータがあれば ワークロードに可能な限り影響を与えずに 最小の作業・メンテナンスで ニアリアルタイムでデータの鮮度を落とさずに データ分析を可能にする統合 26 zero-ETLって名前はついてないけど zero-ETLなサービスってそれなりにいるのでは?

Slide 27

Slide 27 text

zero-ETLじゃないけど あなたはひょっとしてzero-ETL? • Redshift • auto-copy from Amazon S3 • Streaming Ingestion(w/ MSK and Kinesis Data Stream) • OpenSearch • Amazon OpenSearch Ingestion • w/ DynamoDBのzero-ETLも実際はこれ • zero-ETLと名前をつけたものと付けてないものの違いってなんなんだろか (単なるタイミング?) 27 https://dev.classmethod.jp/articles/dynamodb-to-opensearch-cdk/

Slide 28

Slide 28 text

zero-ETL の全体像 28 Amazon DynamoDB Amazon Aurora Amazon S3 Amazon Redshift Amazon OpenSearch Service Amazon RDS Kinesis Data Stream Amazon MSK Replication Streaming Ingestion Replication 不明 Replication Federated Querying ※ OpenSearch Ingestionは割愛

Slide 29

Slide 29 text

29 zero-ETLが金融業界にもたらすものとは?

Slide 30

Slide 30 text

zero-ETLが金融業界にもたらすものとは データを利用した金融ビジネスの展開が容易になっていく • AIでも分析でも、データが一元化されていることが大前提 • ニアリアルタイムかつ複数のシステムを横断してデータを活用することによっ て、よりパーソナライズされた金融サービスの展開などが可能に • 既存のワークロードには影響を出さないようにこれを実現するのは非常に難易 度が高く、実現に踏み込みきれていない金融機関もあるのでは 30

Slide 31

Slide 31 text

System C zero-ETLが金融業界にもたらすものとは 31 System A System D System B

Slide 32

Slide 32 text

System C zero-ETLが金融業界にもたらすものとは 32 System A System D System B Amazon Redshift

Slide 33

Slide 33 text

System C zero-ETLが金融業界にもたらすものとは 33 System A System D System B Amazon Redshift

Slide 34

Slide 34 text

System C zero-ETLが金融業界にもたらすものとは 34 System A System D System B Amazon Redshift そもそもリアルタイム性を 捨てている データベースにクエリ実行 すると負荷がかかり本番 ワークロードに影響が 高速に処理するためにコス トが 複雑すぎて運用が辛い 作り込みのオンパレード ランタイムのサポート終了 使いこなせる人どこ?

Slide 35

Slide 35 text

System C zero-ETLが金融業界にもたらすものとは 35 System A System D System B Amazon Redshift zero-ETL

Slide 36

Slide 36 text

一方で・・・ • zero-ETLでデータの統合に関する課題は解消できるかもしれないが、AIやアナリティ クスといったETL以外の部分がより課題として浮き出てくるのでは? • データ分析の民主化にむけて・・・ • SQLや可視化などのアナリティクスに関するスキル • 正しくデータの読み解き議論するためのベースライン • データに基づいた意思決定を行う文化の醸成 36

Slide 37

Slide 37 text

まとめ(1) • zero-ETLはそれぞれのデータソースの特性に合わせて、ニアリアルタイムかつワーク ロードに影響が出ない形での分析が可能な実装がされていそう • ETLの辛い箇所をいい感じに解消できる統合だと思うので今後も注目していきたい • zero-ETLによって、簡単にニアリアルタイムでのデータ統合が可能になることで、よ り高度なデータドリブンな金融サービスの展開が容易に 37

Slide 38

Slide 38 text

まとめ(2) WynnのBuffetは美味いぞ 38

Slide 39

Slide 39 text

39 ご清聴ありがとうございました