Upgrade to Pro — share decks privately, control downloads, hide ads and more …

祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい

Niino
December 12, 2024

祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい

2024年12月11日(水)に開催されたAWS re:Invent ふりかえり勉強会「クラスメソッド re:Growth 2024 大阪」で発表した資料です。
https://classmethod.connpass.com/event/333283/

Niino

December 12, 2024
Tweet

More Decks by Niino

Other Decks in Technology

Transcript

  1. Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの

    データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表
  2. Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの

    データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表
  3. データの一貫性、高性能なクエリ処理、スナップショット管理などの 機能を提供するデータレイクのテーブルフォーマット Icebergとは 従来のテーブルフォーマット Iceberg データファイルを編集できない UPDATE/DELETE/MERGEによる データの編集・削除が可能 トランザクションがサポート されておらずデータの一貫性を保てない

    ACIDトランザクションによる 同時アクセス時の整合性を担保 過去のデータの状態を参照できない テーブルのタイムトラベル機能 ファイルの物理的な構造を元に パーティション構造を参照 メタデータを元にパーティション構造を把握 する、より精度の高いパーティショニング
  4. データの一貫性、高性能なクエリ処理、スナップショット管理などの 機能を提供するデータレイクのテーブルフォーマット Icebergとは 従来のテーブルフォーマット Iceberg データファイルを編集できない UPDATE/DELETE/MERGEによる データの編集・削除が可能 トランザクションがサポート されておらずデータの一貫性を保てない

    ACIDトランザクションによる 同時アクセス時の整合性を担保 過去のデータの状態を復元できない テーブルのタイムトラベル機能 ファイルの物理的な構造を元に パーティション構造を参照 メタデータを元にパーティション構造を把握 する、より精度の高いパーティショニング 比較的安価な データレイクで データウェアハウス のようにデータ操作可能
  5. Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの

    データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表
  6. Amazon Data Firehose が Amazon S3 の Iceberg テーブルへの データベース変更の継続的な

    レプリケーションをサポート (※11月発表、プレビュー)
  7. ⚫ データベース(PostgreSQL、MySQL)の変更をIcebergテーブル (S3上)にリアルタイムで複製 ⚫ CDC(Change Data Capture)ストリームを設定可能 Amazon Data Firehose

    からAmazon S3 の Apache Iceberg テーブルへの データベース変更の継続的なレプリケーション(プレビュー) 変更が発生 Icebergテーブル に即反映
  8. S3 Tablesが解決すること 観点 従来のS3+Iceberg S3 Tables メンテナンス ・メタデータ管理が手動 ・VACUUMやOPTIMIZE実行 追加作業不要でS3が自動で最適化

    パフォーマンス ・データ編集のたびに発生 する小さなデータファイル で性能低下 ・手動で最適化が必要 • クエリが最大3倍高速 • トランザクションが最大10倍向上 • 自動でコンパクション実行
  9. Amazon S3 Metadataが解決すること 課題 従来 S3 Metadata 検索 大量オブジェクトからメタデータを キーにした検索が困難

    高速な検索が可能 様々な条件で効率的に検索 管理 カスタム開発が必要 運用負荷が高い 完全マネージド メンテナンス不要 分析 データ準備に時間がかかる ツール連携が複雑 既存ツールと簡単に連携 自動更新でデータが最新