AWSで始めるサーバーレスなデータ分析基盤

AWSではじめるサーバーレスなデータ分析基盤株式会社モリサワ岡田晃 JAWS-UG東京ランチタイムLT会 #28

自己紹介岡田晃 / @afooooil 所属: 株式会社モリサワポジション: データエンジニア /
データサイエンティスト最近興味のある技術: Apache Iceberg, DuckDB

データを分析、活用するための基盤。 • プロダクトなどからデータを収集して、 • 扱いやすい形に加工を行い、 • BIツールなどに連携し、活用するデータ分析基盤とは？収集加工
活用

構築、運用にかかるコストを下げたかった。 • 自分のロールはデータ分析、活用 + 基盤の整備。 ◦ サーバーレスにすることで浮くリソースを分析業務に配分できる。サーバーレスに絶対のこだわりがあるわけではなく、要件で必要になることがあれば、ECSやRedshiftを利用する。 •
コスト軽減が目的でありサーバーレス化はあくまで手段である。なぜサーバーレス？

データ分析基盤のアーキテクチャ収集: DynamoDBのPITRをLambdaでRawデータのS3へコピー。加工: Athenaを用いて加工して、データレイクのS3へ移動。データレイクではApache Icebergを利用。活用: QuickSight(BIツール)をもちいてユーザーへデータ提供。

Apache Icebergとは？ Apache IcebergとはOpen Table Formatのひとつ。 - 個々のファイルの集合をあたかも一つのテーブルのように扱える。 - 従来のデータレイクにある課題を解決する次世代のフォーマットとして注目され
ている。嬉しい特徴の一つとして、レコードの追加、更新、削除を容易に効率的に行うことがあげられる。ここでは紹介しませんが、Icebergには他にも様々な魅力的な機能があります。

Icebergは何が嬉しいか？ SQLを用いてS3上のデータの追加、更新、削除が行える • INSERT, MERGE, DELETEが使える • データソースの変更の差分を継続的にデータレイクに取り込むことも可能 • 一方でS3にあるファイルを直接触らなくて良い
そのためStepFunctionsでAthenaのクエリを定期的に実行するだけでデータ変換が可能になる。 Redshiftの導入も視野に入れていたが、Icebergをデータレイクに導入した。 DynamoDBからSageMaker Lakehouse(Icebergテーブル)へのZeroETL も可能になっており導入に向けて検証中

まとめ • Lambda, Athena, QuickSightなどを使うことで、AWS上でサーバレスなデータ分析基盤を構築することが可能。 • Apache Icebergではデータの追加、更新、削除が効率的、容易に行うことができる。
• Apache Icebergをデータレイクに採用することでデータレイクの構築、運用にかかるコストを低減できる。

AWSで始めるサーバーレスなデータ分析基盤

AWSで始めるサーバーレスなデータ分析基盤

afooooil

More Decks by afooooil

Featured

Transcript

AWSではじめるサーバーレスなデータ分析基盤株式会社モリサワ岡田晃 JAWS-UG東京ランチタイムLT会 #28

自己紹介岡田晃 / @afooooil 所属: 株式会社モリサワポジション: データエンジニア /

データを分析、活用するための基盤。 • プロダクトなどからデータを収集して、 • 扱いやすい形に加工を行い、 • BIツールなどに連携し、活用するデータ分析基盤とは？収集加工

Apache Icebergとは？ Apache IcebergとはOpen Table Formatのひとつ。 - 個々のファイルの集合をあたかも一つのテーブルのように扱える。 - 従来のデータレイクにある課題を解決する次世代のフォーマットとして注目され

まとめ • Lambda, Athena, QuickSightなどを使うことで、AWS上でサーバレスなデータ分析基盤を構築することが可能。 • Apache Icebergではデータの追加、更新、削除が効率的、容易に行うことができる。