Slide 1

Slide 1 text

© NTT Communications Corporation All Rights Reserved. Amazon S3 Tablesと外部分析基盤連携について NTTコミュニケーションズ株式会社 イノベーションセンター 露﨑 浩太

Slide 2

Slide 2 text

© NTT Communications Corporation All Rights Reserved. 2 自己紹介 名前: 露崎 浩太 所属: NTTコミュニケーションズ株式会社 お仕事:Cloud CoE、他 経歴: 以前はオンプレクラウド関係の仕事をしていましたが2023年 からNTTコミュニケーションズ株式会社でクラウド、生成AI、 データレイクに関する仕事をしています。 Pythonとかチョットデキル re:Inventは今回が2回目

Slide 3

Slide 3 text

© NTT Communications Corporation All Rights Reserved. 3 Amazon S3 Tables

Slide 4

Slide 4 text

© NTT Communications Corporation All Rights Reserved. 4 Amazon S3 Tables – 背景 • Amazon S3: Simple Storage Service • “Amazon S3 を使用して、データレイク、ウェブサイト、モバイルアプリ ケーション、バックアップおよび復元、アーカイブ、エンタープライズア プリケーション、IoT デバイス、ビッグデータ分析など、広範なユース ケースのデータを容量にかかわらず、保存して保護することができま す。” • 分析基盤の歴史 • Apache HadoopはAWSと同期 (2006年リリース) • 2010年代以降にクラウドベースの分析基盤移行が加速 • EMR(2009)、Redshift(2012)、Athena(2016) • Snowflake(2012)、Databricks(2013) • 分析基盤用のデータがS3の保存データの中で大きくなってき た ref: https://www.youtube.com/watch?v=1U7yX4HTLCI ref: https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/Welcome.html

Slide 5

Slide 5 text

© NTT Communications Corporation All Rights Reserved. 5 Open Table Format (OTF) • 分析データのファイルフォーマット • Parquet, Avro, OCR, json • 分析効率のため複数のファイルに分割して保存 • データカタログ機能はファイルとデータの関係を示すメタ データを提供 • AWS: Glue Data Catalog • OSS: Apache Iceberg, DeltaLake, Apache Hudi • 2024年 Iceberg関連のアナウンスが多かった • SnowflakeがPolaris Catalogを発表 • DatabricksがTabluar社(Icebergの開発元)を買収 • Amazon S3 TablesがIceberge Catalog機能を提供 ref: https://www.youtube.com/watch?v=1U7yX4HTLCI

Slide 6

Slide 6 text

© NTT Communications Corporation All Rights Reserved. 6 Amazon S3 Tables • Amazon S3 Tables • 表形式専用のbucket • 既存のbucketに対するoptionでなく専用のリソースとして提供 • パフォーマンス/セキュリティ/コスト • テーブル形式でのアクセスに最適化されたストレージを提供 • AWSのIAM/Role/ARNベースでのアクセスコントロール • 定期的なコンパクション、不要なデータの自動的なガベッジコレク ション • データアクセスの透過性 • Iceberg Catalogとして利用可能 • Glue、Lake Formationと連携してAWSのサービスから利用 可能 ref: https://www.youtube.com/watch?v=1U7yX4HTLCI

Slide 7

Slide 7 text

© NTT Communications Corporation All Rights Reserved. 7 Amazon S3 Tablesの設定

Slide 8

Slide 8 text

© NTT Communications Corporation All Rights Reserved. 8 Amazon S3 Table Bucket

Slide 9

Slide 9 text

© NTT Communications Corporation All Rights Reserved. 9 Amazon S3 Tables 操作の仕方 • 公式Tutorial (EMR) • https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-tables-getting- started.html • Athena, Glue, Redshift... etc. • https://dev.classmethod.jp/articles/amazon-s3-tables-tokyo-region-ga/

Slide 10

Slide 10 text

© NTT Communications Corporation All Rights Reserved. 10 AWSのプロダクトから触るならGlueがあるし せっかくオープンフォーマットなのだから 別の基盤からも操作したい

Slide 11

Slide 11 text

© NTT Communications Corporation All Rights Reserved. 11 やってみました

Slide 12

Slide 12 text

© NTT Communications Corporation All Rights Reserved. 12 デモについて • 紹介するもの • OSS Sparkのデモ • Azure Databricksのデモ • 大変だったこと • 基本的に日本語のドキュメントはない、英語もほとんどない • GithubのIssue探してて見つかった唯一のOSS Sparkの設定方法 • https://medium.com/@mattgillard/my-s3-tables-experiment-a789493c5512 • OSS Hadoop-AWSのdocsを参照し手探りで実施 • https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/ • 調べた限りではIceberg REST API用のToken等は存在せずAWS-Hadoop ARNベースでのアクセス形式のみをサ ポート • NOTE • YouTubeの中継があるとのことなのでクレデンシャルを事故らないよう動画にしました • 時間省略のためREADのデモだけやります。EMRのTutorialで作ったTableを参照します。

Slide 13

Slide 13 text

© NTT Communications Corporation All Rights Reserved. 13 デモ1: OSS Spark

Slide 14

Slide 14 text

© NTT Communications Corporation All Rights Reserved. 14 デモ2: Azure Databricks

Slide 15

Slide 15 text

© NTT Communications Corporation All Rights Reserved. 15 Issues on Github https://github.com/awslabs/s3-tables-catalog/issues/26

Slide 16

Slide 16 text

© NTT Communications Corporation All Rights Reserved. 16 まとめ • re:Invent 2024で発表されたAmazon S3 TablesはIceberg Catalogとストレージのas a service • AWS内外のサービスからアクセス可能 • まだちょっとドキュメントが少ない、制約事項があるのでみんなで育てましょう 連絡先: NTTコミュニケーションズ株式会社 イノベーションセンター クラウドCoE プロジェクト [email protected]

Slide 17

Slide 17 text

© NTT Communications Corporation All Rights Reserved. 17