Slide 1

Slide 1 text

AWSではじめるサーバーレスな データ分析基盤 株式会社モリサワ 岡田 晃 JAWS-UG東京 ランチタイムLT会 #28

Slide 2

Slide 2 text

自己紹介 岡田 晃 / @afooooil 所属: 株式会社モリサワ ポジション: データエンジニア / データサイエンティスト 最近興味のある技術: Apache Iceberg, DuckDB

Slide 3

Slide 3 text

データを分析、活用するための基盤。 ● プロダクトなどからデータを収集して、 ● 扱いやすい形に加工を行い、 ● BIツールなどに連携し、活用する データ分析基盤とは? 収集 加工 活用

Slide 4

Slide 4 text

構築、運用にかかるコストを下げたかった。 ● 自分のロールはデータ分析、活用 + 基盤の整備。 ○ サーバーレスにすることで浮くリソースを分析業務に配分できる。 サーバーレスに絶対のこだわりがあるわけではなく、要件で必要になることがあれ ば、ECSやRedshiftを利用する。 ● コスト軽減が目的でありサーバーレス化はあくまで手段である。 なぜサーバーレス?

Slide 5

Slide 5 text

データ分析基盤のアーキテクチャ 収集: DynamoDBのPITRをLambdaでRawデータのS3へコピー。 加工: Athenaを用いて加工して、データレイクのS3へ移動。 データレイクではApache Icebergを利用。 活用: QuickSight(BIツール)をもちいてユーザーへデータ提供。

Slide 6

Slide 6 text

Apache Icebergとは? Apache IcebergとはOpen Table Formatのひとつ。 - 個々のファイルの集合をあたかも一つのテーブルのように扱える。 - 従来のデータレイクにある課題を解決する次世代のフォーマットとして注目され ている。 嬉しい特徴の一つとして、レコードの追加、更新、削除を容易に効率的に行う ことがあげられる。 ここでは紹介しませんが、Icebergには他にも様々な魅力的な機能があり ます。

Slide 7

Slide 7 text

Icebergは何が嬉しいか? SQLを用いてS3上のデータの追加、更新、削除が行える ● INSERT, MERGE, DELETEが使える ● データソースの変更の差分を継続的にデータレイクに取り込むことも可能 ● 一方でS3にあるファイルを直接触らなくて良い そのためStepFunctionsでAthenaのクエリを定期的に実行するだけで データ変換が可能になる。 Redshiftの導入も視野に入れていたが、Icebergをデータレイクに導入した。 DynamoDBからSageMaker Lakehouse(Icebergテーブル)へのZeroETL も可能になっており導入に向けて検証中

Slide 8

Slide 8 text

まとめ ● Lambda, Athena, QuickSightなどを使うことで、AWS上でサーバレスな データ分析基盤を構築することが可能。 ● Apache Icebergではデータの追加、更新、削除が効率的、容易に行うことが できる。 ● Apache Icebergをデータレイクに採用することでデータレイクの構築、運用 にかかるコストを低減できる。