Amazon S3 Tablesことはじめ

Amazon S3 Tables ことはじめ rinda2001 2025/2

• 自己紹介 • Amazon S3 Tablesとは • S3 Tablesを試してみる •
S3 Tablesの削除 • S3 Tablesの料金 • S3 Tablesその他の使い方 • まとめ目次

自己紹介

自己紹介 Akihiro Takamura （rinda2001） @rinda2001 テックリードエス・ビー・エス株式会社（S.B.S. inc.） Amplify /
ECS / Codeシリーズ React/Next.js/ReactNativeと戯れる日々リングフィットアドベンチャー5年生（現在6周目突入） HOP!STEP!DANCEというswitchのダンスゲームで６曲踊れるようになりました

Amazon S3 Tablesとは

Amazon S3 Tablesとは • re:Invent 2024で発表 • 普通のS3バケットに比べて、SQLでデータアクセスするのに最適化されてる新しいバケット •
Athena/EMR/Redshift/QuickSightなどと連携 • Apache Icebergにネイティブで対応

つまり、S3 Tablesとは

Apache Icebergに最適化されたクラウドオブジェクトストアです 🤔

Apache Icebergとは • Open Table Formatという規格の１種です ‣ Apache Icerbergというソフトがあるわけではなく、規格です ‣
Netflixが開発して現在はApacheに移譲 ‣ Netflixには2018年時点で60PBのデータレイクがあり、これをなんとか効率よく扱う必要に迫られて開発したらしい ‣ 次世代データレイクの基盤になりうる技術で注目度アゲアゲ⬆ • 有名どこでは他にApache HudiとDelta Lakeというのがあります ‣ Apache Icebergはこれらの中でも大きく成長して人気があります • データレイクが抱える様々な課題を解決するために作られました

Open Table Formatが出てきた理由 • データ分析のデータストアはParquet保存が標準 ‣ これでしばらくは良かったけど色々課題が出てきた ‣ アクセスするのが大変！（パスとかファイル形式とか指定が必要） ‣
列の追加や削除をしたくなっちゃった！（スキーマの進化） ‣ レコードの追加・更新・削除が大変！ ‣ でっかいParquetのうちの１レコードを更新するには？？ ‣ 変更したとしても、過去のある時点の断面を復元できない ‣ 個人情報保護法対応で、一旦ストアしたデータについて、ユーザが明示的に保存を拒否した場合、削除しないといけないとかなんとか ‣ 同時書き込み・読み込みの独立性が担保できない！ ‣ ファイルが増えるとクエリが遅いし高コスト！ ‣ パーティショニング（年・月・日でファイルを分ける等）とかのテクがあるけど、これをやるとクエリするユーザもこのパーティション（物理構造）を意識して SQL書く必要が出てくる（できない） • 複雑なことが増えてきて管理が大変！なのを解決するためにOpen Table Formatが出てきました。

Apache Icebergを使うとなにがうれしいのか

Apache Icebergを使うメリット • SQLでデータレイクを簡単に操作できる ‣ CRUD全部可能。Mergeもできる。 ‣ 物理ファイルを意識することなく、普通のRDBのようにデータレイクを扱える ‣ 変更はメタデータのみでデータファイル自体は影響なし
• スキーマ変更ができる ‣ 列追加、ドロップ、列名変更、並べ替え ‣ 変更はメタデータのみでデータファイル自体は影響なし • タイムトラベルとロールバック ‣ 過去のある時点のデータでクエリ、過去のある時点までロールバックができる • 一貫したトランザクション ‣ ACIDを実現。commitされていない変更の影響を受けない • 高速なクエリ ‣ 高速スキャンプランニング、データファイルのフィルタリングなど高速化・効率化を実現 • 色々なサービスとの連携 ‣ Icebergに準拠しているサービスと簡単に連携が可能

つまり、S3 Tablesとは（再）

Amazon S3 Tablesとは（再） • ざっくり言うと ‣ 参照だけじゃなくてレコードの更新もできちゃうGlue Data Catalogで管理されたデータレイクみたいな使い方ができます

Amazon S3 Tablesとは（再） • Apach Icebergにネイティブで対応する新しいS3バケット ‣ クエリ速度最大３倍 ‣
トランザクション処理最大１０倍 ‣ レコードのCRUDに対応 ‣ スキーマの変更に対応 ‣ 一貫したトランザクションに対応 ‣ タイムトラベル・ロールバックに対応 • 表形式データを格納するために特別に設計 ‣ 自動コンパクションでデータを最適化 ‣ Namespaceで複数のテーブルをグルーピング ‣ IAMでアクセス制御

ちなみに

S3はもともとIcebergにも対応できる • S3 TablesがなくてもS3でIcebergは対応できていました。 ‣ Athenaの Create Tableや、GlueクローラーでIcebergを指定してテーブルを作成し、S3バケットに保存、利用することが
できていました • S3 Tablesはコンパクションやパフォーマンス最適化など、ネイティブでIcebergに対応した新しいバケットタイプという位置づけです • S3 Tablesはオブジェクトストレージというより、ほんとにDatabaseのTableと捉えるほうがしっくりきます

S3 Tablesを試してみる

S3 Tablesの使い方 • S3 Tablesは以下の感じで使っていきます • まずはとにかくTable Bucketを作ります Table Bucketを作る
Tableを作るデータを入れるクエリする

Table Bucketを作る • マネコンからバケット名を指定するだけ ‣ S3にTable bucketsというメニューが増えてる ‣ Table Bucketを作るとGlue
Data Catalogがセットアップされて自動的に統合される ‣ Table Bucketはアカウント/リージョン毎に１回だけでOK ‣ CLIやTFCDKでも作れます。

Table Bucketを作る（補足） • AWSの分析サービスとの統合（Public Preview） ‣ Table Bucket作成時、統合をON/OFFする選択がある ‣ ONにするとAthenaやRedshiftからクエリできるようになる
‣ 内部的にはLakeFormationが使われる ‣ LakeFormationがS3Tablesにアクセスするためのサービスロールが作られる ‣ S3tablescatalogというデータカタログが自動的に作られる

S3 Tablesの使い方 Table Bucketを作る Tableを作るデータを入れるクエリする

Tableを作る • Tableを作るにはいくつか方法があります ‣ Spark sessionで接続してcreate table ‣ EMRから ‣
Sparkシェルから ‣ GlueETLジョブから ‣ AWS CLIでcreate-table • 今回は簡単にAWS CLIで作っていきます ‣ 事前にaws-cliを最新化しておいてください ‣ 資料の手順はaws-cli/2.24.7で実施しています

Tableを作る • まずNamespaceを作ります ‣ 2025/2時点マネコンから作れないのでCLIで作ります BXTTUBCMFTDSFBUFOBNFTQBDF UBCMFCVDLFUBSOઌ΄Ͳ࡞੒ͨ͠5BCMF#VDLFUͷ"3/ OBNFTQBDF೚ҙͷ໊લ໊ۭؒ

Tableを作る • 次にテーブルのスキーマをこんな感じでJSONファイルとして作ります \ lUBCMF#VDLFU"3/zzઌ΄Ͳ࡞੒ͨ͠5BCMF#VDLFUͷ"3/ lOBNFTQBDFzlઌ΄Ͳ࡞੒໊ͨ͠લ໊ۭؒ lOBNFzz೚ҙͷςʔϒϧ໊ GPSNBU*$&#&3( NFUBEBUB\ JDFCFSH\
TDIFNB\ pFMET< \OBNFJE UZQFJOU SFRVJSFEUSVF^ \OBNFOBNF UZQFTUSJOH^ \OBNFWBMVF UZQFJOU^ > ^ ^ ^ ^

Tableを作る • CLIからテーブルを作ります • うまくいっていればマネコン->S3からTable BucketにTableがつくられていることを確認できます BXTTUBCMFTDSFBUFUBCMFDMJJOQVUKTPOpMFTUBCMFTEFNPKTPO

データを入れる • S3 Tablesにデータを入れるにはいくつか方法があります ‣ Spark sessionで接続してinsert table ‣
EMRから ‣ Sparkシェルから ‣ GlueETLジョブから ‣ Athenaで接続して insert table ‣ Firehoseから入れる • 今回はAthenaで接続して操作します

AthenaでS3 Tablesに接続する設定 • S3 TablesはLakeFormationでアクセス権を制御しているので、まずLakeFormationの設定をします ‣ LakeFormation -> Data
permissions -> Grant

AthenaでS3 Tablesに接続する設定 • Principalsで権限を与える対象を設定 ‣ 通常は今マネコンにアクセスしているIAM User or IAM Role
‣ ↓の環境ではマネコンにAWS SSOから入っているのでSSOで割り当てられるロールを指定してます

AthenaでS3 Tablesに接続する設定 • アクセス可能にするリソースを指定 ‣ Named Data Catalog resoucesを選択 ‣
Catalogsから「AWSアカウントID:s3tablescatalog」を選択 ‣ これを選択しておくとS3 Tablesの全部のnamespace/tableが対象になります。適宜対象を絞ってください。

AthenaでS3 Tablesに接続する設定 • アクセス権を設定 ‣ 今回はSuper userを選択していますが適宜（略）

データを入れる • Athenaを開き、以下を選択 ‣ Catalog: TableBucket名 ‣ Database: NameSpace名 •
これで接続できるのでINSERT文を実行すればOK

クエリする • AthenaからSELECTしてみる ‣ もちろんEMRやRedshift Spectrum、QuickSightとかでもクエリできます

クエリする • AthenaからUPDATEしてみる

クエリする • AthenaからTimeTravel Queryしてみる ‣ タイムトラベルクエリは以下のように特定時刻を指定してクエリするとその時点での断面データで結果を返します 4&-&$5 '30.FYBNQMF@UBCMF '035*.&45".1"40'5*.&45".165$`

S3 Tables 削除

S3 Tables 削除方法 • ちょっとだけ注意点あり ‣ マネコンからはTableBucketを作れるが、削除できない ‣ 2025/2/19時点 ‣
aws cliからの削除が必要 ‣ 削除順がある ‣ Table -> Namespace -> TableBucketの順に削除する ‣ 同一Bucket内にNamespaceが複数ある場合、マネコンでは全部見れない（？）ようなので、その場合はCLIで参照する必要あり

削除用コマンド • テーブルの削除 • NameSpaceの削除(Table全部削除後） • Table Bucketの削除 BXTTUBCMFTEFMFUFUBCMF= UBCMFCVDLFUBSOUBCMFCVDLFUͷ"3/=
OBNFTQBDFର৅ͷ໊લۭؒ= OBNFςʔϒϧ໊ BXTTUBCMFTEFMFUFOBNFTQBDF= UBCMFCVDLFUBSOUBCMFCVDLFUͷ"3/= OBNFTQBDFର৅ͷ໊લۭؒ BXTTUBCMFTEFMFUFUBCMFCVDLFU= UBCMFCVDLFUBSOUBCMFCVDLFUͷ"3/

S3 Tables の料金

S3 Tablesの料金 • ざっくり説明：S3の料金＋αがかかる ‣ 1000オブジェクト毎のオブジェクト数課金 ‣ メンテナンス（コンパクション）課金 ‣ ストレージ保管サイズ課金も（少しだけ）高い
種類概要料⾦ S3標準との⽐較ストレージ料⾦オブジェクト数 $0.025/⽉/1000オブジェクト毎 S3標準にはこの課⾦はないサイズ $0.0288/⽉/GB S3標準は$0.025/GBなのでS3 Tablesは少しだけ⾼いリクエスト料⾦ PUT/COPY/POST/LIST $0.0047/1000リクエスト毎 S3標準と同等 GET/SELECT/その他 $0.00037/1000リクエスト毎 S3標準と同等メンテナンス料⾦オブジェクト数 $0.004/1000オブジェクト毎 S3標準にはこの課⾦はないサイズ $0.05/1GB毎 S3標準にはこの課⾦はない

S3 Tablesその他の使い方

その他の方法 • 紹介しきれなかったのでリンクでまとめます ‣ 構築系 ‣ CDK for Terraformを使ってS3 Tablesをデプロイ
‣ データ投入・操作系 ‣ Glueジョブを使ってS3のファイルをS3Tablesに投入 ‣ Glueジョブを使ってS3のファイルをS3TablesにUPSERT ‣ Firehoseを使ってS3Tablesに投入 ‣ Sparkシェルで接続してS3 TablesにCRUD ‣ AWSCLIでS3Tablesのスキーマ定義ができるように ‣ パフォーマンス比較 ‣ S3TablesとIcebergTablesOnS3のパフォーマンス比較 ‣ その他 ‣ re:Invent2024でのS3Tables発表内容の翻訳

まとめ

まとめ • S3 Tablesは新しいバケットタイプ ‣ データレイクに最適化されたテーブル（≠ファイル） ‣ CRUDする感じでSQLで利用 by Spark/Athena…
‣ コンパクション等、管理面はAWSがやってくれる • Apache Iceberg形式に対応 ‣ 様々なサービスからアクセス可能（AWS内/外） ‣ 既存のデータレイクの様々な課題を解消 ‣ 次世代データレイクの主軸となりそう

参考文献 • データレイクの新しいカタチ：Open Table Formatの紹介 • Apache Icebergtテーブルの概要と活用メリット • re:Invent2024AWSがS3Tablesを発表–大規模表形式データ管理の新機能

Amazon S3 Tablesことはじめ

Amazon S3 Tablesことはじめ

More Decks by rinda2001

Other Decks in Technology

Featured

Transcript