Slide 1

Slide 1 text

2024/12/11 niino Iceberg祭開幕! re:Invent 2024データレイク関連 アップデート10分総ざらい

Slide 2

Slide 2 text

スピーカー niino(𝕏:@kniino1234) • データ事業本部 機械学習チーム • 2023~2024 Japan AWS Top Engineer (Analytics) • re:Invent 2024の思い出:日本でお留守番 2

Slide 3

Slide 3 text

Iceberg祭、開幕

Slide 4

Slide 4 text

Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表

Slide 5

Slide 5 text

Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表

Slide 6

Slide 6 text

押さえておきたい データレイクのキーワード

Slide 7

Slide 7 text

構造化・非構造化を問わず、様々な形式の生データをそのまま大量に保存する データレイクとは Amazon Redshift Amazon S3 Amazon QuickSight Amazon Athena 様々な データ発生源 データレイク データウェアハウス BI/ML 加工 クエリ

Slide 8

Slide 8 text

データの一貫性、高性能なクエリ処理、スナップショット管理などの 機能を提供するデータレイクのテーブルフォーマット Icebergとは 従来のテーブルフォーマット Iceberg データファイルを編集できない UPDATE/DELETE/MERGEによる データの編集・削除が可能 トランザクションがサポート されておらずデータの一貫性を保てない ACIDトランザクションによる 同時アクセス時の整合性を担保 過去のデータの状態を参照できない テーブルのタイムトラベル機能 ファイルの物理的な構造を元に パーティション構造を参照 メタデータを元にパーティション構造を把握 する、より精度の高いパーティショニング

Slide 9

Slide 9 text

データの一貫性、高性能なクエリ処理、スナップショット管理などの 機能を提供するデータレイクのテーブルフォーマット Icebergとは 従来のテーブルフォーマット Iceberg データファイルを編集できない UPDATE/DELETE/MERGEによる データの編集・削除が可能 トランザクションがサポート されておらずデータの一貫性を保てない ACIDトランザクションによる 同時アクセス時の整合性を担保 過去のデータの状態を復元できない テーブルのタイムトラベル機能 ファイルの物理的な構造を元に パーティション構造を参照 メタデータを元にパーティション構造を把握 する、より精度の高いパーティショニング 比較的安価な データレイクで データウェアハウス のようにデータ操作可能

Slide 10

Slide 10 text

Iceberg関連のアップデートがいろいろありました ⚫ Amazon Data Firehose がAmazon S3 の Iceberg テーブルへの データベース変更の継続的なレプリケーションをサポート(※11月発表) ⚫ Apache Icebergテーブルに最適化されたストレージ Amazon S3 Tables ⚫ S3オブジェクトの追加・変更時に自動的にメタデータを生成し、 Icebergテーブルに保存するAmazon S3 Metadata(プレビュー) ⚫ S3上のデータレイクとAmazon Redshiftを統合し、IcebergのAPI を 利用して横断的なデータへのアクセスを実現する Amazon SageMaker Lakehouseを発表

Slide 11

Slide 11 text

Amazon Data Firehose が Amazon S3 の Iceberg テーブルへの データベース変更の継続的な レプリケーションをサポート (※11月発表、プレビュー)

Slide 12

Slide 12 text

⚫ データベース(PostgreSQL、MySQL)の変更をIcebergテーブル (S3上)にリアルタイムで複製 ⚫ CDC(Change Data Capture)ストリームを設定可能 Amazon Data Firehose からAmazon S3 の Apache Iceberg テーブルへの データベース変更の継続的なレプリケーション(プレビュー) 変更が発生 Icebergテーブル に即反映

Slide 13

Slide 13 text

リアルタイム分析基盤 ⚫ 運用データベースの変更をデータレイクへの即時反映 ⚫ Icebergテーブルのデータマートで最新データでの分析が可能 ⚫ Glueなどで作成するデータパイプラインが不要に 例えばこんなことに使えそう AWS Glue Crawler Data Firehose

Slide 14

Slide 14 text

Amazon S3 Tables

Slide 15

Slide 15 text

⚫ Iceberg形式のテーブルデータに最適化されたストレージサービス ⚫ 従来と比べて最大3倍のクエリ性能と10倍のトランザクション処理 ⚫ 自動でテーブルメンテナンスを実行して最適化 ⚫ Lake Formationを使ってGlue Data Catalogとの統合も可能 (プレビュー) Amazon S3 Tables 引用:https://dev.classmethod.jp/articles/reinvent2024-amazon-s3-tables/

Slide 16

Slide 16 text

S3 Tablesが解決すること 観点 従来のS3+Iceberg S3 Tables メンテナンス ・メタデータ管理が手動 ・VACUUMやOPTIMIZE実行 追加作業不要でS3が自動で最適化 パフォーマンス ・データ編集のたびに発生 する小さなデータファイル で性能低下 ・手動で最適化が必要 • クエリが最大3倍高速 • トランザクションが最大10倍向上 • 自動でコンパクション実行

Slide 17

Slide 17 text

ストリーミングデータやログなど、大量 の小さなファイルが継続的に生成され、 読み取り頻度が高いデータをテーブル化 ⚫ 従来よりパフォーマンスに優れ、 自動でコンパクションなどの最適化 を実施してくれる ⚫ Data Firehoseからの配信先に S3 Tablesを指定できる こんなことに使えそう https://dev.classmethod.jp/articles/data-firehose-s3-tables-athena/

Slide 18

Slide 18 text

S3 Metadata

Slide 19

Slide 19 text

S3オブジェクトの作成・削除、メタデータ変更を S3 Tablesの仕組みを使い、自動でIcebergテーブルとして管理 Amazon S3 Metadata(プレビュー)

Slide 20

Slide 20 text

Amazon S3 Metadataが解決すること 課題 従来 S3 Metadata 検索 大量オブジェクトからメタデータを キーにした検索が困難 高速な検索が可能 様々な条件で効率的に検索 管理 カスタム開発が必要 運用負荷が高い 完全マネージド メンテナンス不要 分析 データ準備に時間がかかる ツール連携が複雑 既存ツールと簡単に連携 自動更新でデータが最新

Slide 21

Slide 21 text

いつ、どのIPアドレスから、どのファイルを変更したかを特定 ⚫ 「特定のユーザーが削除したファイルを確認したい」 ⚫ 「システム障害時に変更されたファイルを特定したい」 ユーザー指定のメタデータを利用してトレーニング用画像データを特定 ⚫ 「靴の画像だけを検索したい」 ⚫ 「未アノテーションの商品画像を特定」 S3 MetadataのテーブルをQuickSightでダッシュボード化も可能! ユースケース妄想

Slide 22

Slide 22 text

Iceberg祭、開幕

Slide 23

Slide 23 text

⚫ Icebergを利用したデータレイク構築がますますシンプルになり、 使いやすくなるアップデートが登場 ⚫ データウェアハウスから分析用データマートをS3にオフロードし、 S3 Tablesで高パフォーマンスを保ちながらコスト削減が期待できそう ⚫ Lake Formationと組み合わせてきめ細かなアクセス制御、 ガバナンス機能により安全で効率的なデータレイク運用を実現 まとめ

Slide 24

Slide 24 text

No content