Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWSで始めるサーバーレスなデータ分析基盤

Avatar for afooooil afooooil
October 22, 2025
220

 AWSで始めるサーバーレスなデータ分析基盤

JAWS-UG東京 ランチタイムLT会 #28(https://jawsug.connpass.com/event/367465/) で発表させていただいた資料です。

Avatar for afooooil

afooooil

October 22, 2025
Tweet

Transcript

  1. 自己紹介 岡田 晃 / @afooooil 所属: 株式会社モリサワ ポジション: データエンジニア /

    データサイエンティスト 最近興味のある技術: Apache Iceberg, DuckDB
  2. Apache Icebergとは? Apache IcebergとはOpen Table Formatのひとつ。 - 個々のファイルの集合をあたかも一つのテーブルのように扱える。 - 従来のデータレイクにある課題を解決する次世代のフォーマットとして注目され

    ている。 嬉しい特徴の一つとして、レコードの追加、更新、削除を容易に効率的に行う ことがあげられる。 ここでは紹介しませんが、Icebergには他にも様々な魅力的な機能があり ます。
  3. Icebergは何が嬉しいか? SQLを用いてS3上のデータの追加、更新、削除が行える • INSERT, MERGE, DELETEが使える • データソースの変更の差分を継続的にデータレイクに取り込むことも可能 • 一方でS3にあるファイルを直接触らなくて良い

    そのためStepFunctionsでAthenaのクエリを定期的に実行するだけで データ変換が可能になる。 Redshiftの導入も視野に入れていたが、Icebergをデータレイクに導入した。 DynamoDBからSageMaker Lakehouse(Icebergテーブル)へのZeroETL も可能になっており導入に向けて検証中