Apache Iceberg The Definitive Guide 輪読会 - 2章 The Architecture of Apache Iceberg

Chapter 2. The Architecture of Apache Iceberg べりんぐ 2024/7/15 Apache
Iceberg: The Definitive Guide 輪読会

べりんぐ • Data Engineering Hobbyist • Twitter: @_Bassari • 技術ブログ書いてます
https://bering.hatenadiary.com/ • 趣味の傍ら、Sotaro Hikitaとして Amazon Web Services で働いています本発表は個人の見解であり、所属企業を代表するものではありません

Chapter 2. The Architecture of Apache Iceberg • Apache Iceberg
のTable Format としてのアーキテクチャを学ぶ章 • Iceberg のエッセンスは Table Format としての仕様定義「Apache Iceberg」という独立したソフトウェアが存在するわけではない Iceberg Table Spec Iceberg Projectは主要なクエリエンジン向けのライブラリを提供 Table Format を理解すれば、Iceberg の仕組みがわかる • Iceberg Table Spec Version Spec の前方互換性が失われるタイミングでインクリメント後方互換性は失われない現在の最新はversion 2 (version 3が開発中) Definitive Guide の内容はv2準拠 • 各ソフトウェアがTable Specを何処まで / どのようにサポートするかは各自の実装次第である点は注意が必要

The Data Layer • テーブルの実データを管理するレイヤー • 基本的にはData Layerの情報を元にクエリ結果を返却一部メタデータレイヤのみで返せるクエリもある
(e.g. max value for column X) • Data File と Delete File の 2 種 • 可用性、堅牢性、コスト効率、パフォーマンス、スケーラビリティ、セキュリティに優れたストレージに配置 • ストレージによっては独自の連携機能がサポートされているものもある e.g. spark.sql.catalog.my_catalog.s3.delete.tags.m y_key3=my_val3 spark.sql.catalog.my_catalog.s3.delete- enabled=false https://iceberg.apache.org/docs/1.5.1/aws/#s3-tags

Data Files • テーブルの実データを管理する • Apache Parquet (列指向), Apache ORC
(列指向)、 Apache Avro(行指向)をサポート • 大規模データのOLAPには Parquet, Streaming データの ingestion には Avro を使用する、などの使い分け • ファイルフォーマットの抽象化によるfuture-proofの確保

Apache Parquet • 大規模なデータ処理に最適化された列指向データフォーマット • Row Group / Column
/ Page単位でデータを管理しており、特定のカラムに対するクエリが高速 • 符号化方式の工夫や、規則的にインクリメント& 連続して同じデータが格納されやすい性質上、圧縮率が高い • スキーマや統計情報等のメタデータを保持しており、効率的な操作が可能あるカラムの最小値が10で最大値が50の場合、値が 100以上のレコードを探すクエリはそのデータブロックをスキップする、など • カラムナフォーマットのきほん〜データウェアハウスを支える技術〜

ちなみに https://www.youtube.com/ watch?v=axbmLqmxuo4 https://people.apache.org/committers-by-project.html

Copy on Write と Merge on Read ① • Iceberg
ではテーブルの更新、削除＆読み込み方法として Merge on Read(MoR) とCopy on Write(CoW) を選択可能＊Apache Hudi の MoR, CoW とは仕組みが異なるので注意が必要更新、削除読み込み更新、削除速度読み込み速度 Copy on Write 更新、削除後の data fileを作成 data fileを読み込み遅い速い Merge on Read delete fileを作成 delete file でdata fileをフィルタ速い遅い • オペレーションごとにMerge on Read と Copy on Write を選択可能 write.delete.mode write.update.mode write.merge.mode

Delete Files: Positional Delete / Equality Delete positional delete equality
delete • ファイルとファイル内の行インデックスの地点によって削除状態にあるレコードを特定 • テーブルの特定のカラムの値で削除状態にあるレコードを特定 • ユニークではない値を示す場合は1つの複数のレコードがフィルタリング=削除される場合もある • delete file はシーケンス番号によって適用対象のdata file を特定する

Copy on Write と Merge on Read ② • Iceberg
ではテーブルの更新、削除＆読み込み方法として Merge on Read(MoR) とCopy on Write(CoW) を選択可能更新、削除読み込み更新、削除速度読み込み速度 Copy on Write 更新、削除後の data fileを作成 data fileを読み込み遅い速い Merge on Read delete fileを作成 delete file でdata fileをフィルタ速い遅い • Positional Delete と Equality Delete のどちらを使用するかは通常はエンジン側が自動で決定する（ユーザが意識する必要はない） • MoR は更新、削除を高速化するが、読み取りにはオーバーヘッドが発生する定期的な compaction ジョブによるテーブルメンテナンスの設計が重要になる → 詳細は Chapter 4 「 Optimizing The Performance Of Iceberg Tables 」へ

The Metadata Layer • Metadata files, manifest lists, manifest filesの三層
• テーブルに対する全てのオペレーションを追跡しており、それによって Time travel やSchema Evolutionなどが実現される • 各レイヤのファイルは json や avroなどで構成される • Data file 同様に信頼性の高いストレージに保存することが重要 ← metadata file ← manifest file ← manifest list

Manifest Files • 1 つ以上の data layer のファイルを管理する avro •
1 つ以上の data file と delete fileを管理する（data file / delete file のどちらかのみ。クエリエンジンは先にdelete fileを参照するため） • 管理対象のファイルパスに加えて、所属するパーティションや統計情報を保持しているクエリエンジンはmanifest file を参照することでデータ操作を最適化できる • Manifest file のサンプル

Iceberg における統計情報 (Hive Style との違い) • 統計情報の保存方法 Iceberg: data
file, manifest file, manifest list, puffin fileで分散管理 → 統計情報が分散管理されているため、テーブルサイズが大きくなっても統計情報の管理がボトルネックになりにくい Hive Style: テーブルやパーティション単位で保存 → 統計情報を保持するカタログ等がボトルネックになる場合がある • 統計情報の収集タイミング Iceberg: データ書き込み時に、エンジンやツールが各データファイルのサブセットに対して統計情報を収集・書き込み → データ書き込み時に統計情報を都度更新するため、コンスタントに最新の状態を維持できる Hive Style:パーティション全体やテーブル全体を読み取って統計を計算 → 計算コストが高く、鮮度の高い統計情報の維持が難しい

Manifest Lists • Iceberg Table のある時点での snapshot を管理する avro
• 自身が管理する snapshot に紐づく全ての manifest file のメタデータを保持 • 主なフィールド Snapshot に属する manifest file のパスのリスト各 manifest file が管理する data file が属するパーティション各 manifest file が管理するパーティションの統計情報(上限値と下限値等) • manifest list のサンプル

Metadata Files • Iceberg Table のある時点でのメタデータを管理する json • テーブルの最新＆歴代スキーマ、パーティション情報、snapshot
情報が含まれる • Table が変更されるたびに新しい metadata file が作成 → Iceberg Catalog によってポイントされる • metadata file のサンプル

Puffin Files • Data files, Manifest Files, Manifest Lists でカバーでき
ない統計情報やインデックス構造を格納しておくファイル形式 • Puffin Spec で定義 • Blob と呼ばれる単位でデータを格納する • 現時点でサポートされている Blob Type は Apache DataSketches 準拠の apache-datasketches- theta-v1(Number of Distinct Value) • Leveraging Iceberg Puffin Files to Accelerate Queries (Bodo.ai)

puffin-tools Puffin File の中身を探索したいときに便利 https://github.com/ebyhr/puffin-tools

NDVとは？ / 統計情報の重要性について • Number of Distinct Value (NDV):データセットやカラム内で重複を除いた一意の値の数 •
クエリエンジンの Optimizer はテーブル列の NDV を把握することで効果的な実行計画を立案できる • 例えば… Join 順序の選択 3 つ以上のテーブルを結合する場合に、各テーブルのカラムの NDV が把握できていれば、join 時の計算量が最小化可能な join 順序を判断できる Join 戦略の選択 broadcast join: 片方のテーブルを全ノードへコピーして結合 shuffle join: 両方のテーブルのデータを結合キーに基づき再分配して結合テーブル A とテーブル B を結合する際、テーブル A の join 対象のカラム NDVが小さいことが分かっていれば broadcast join が有効と判断できる

NDV の課題と Theta Sketch による解決 • NDV を100% の精度で継続的に計算するためには、全てのユニーク値の記録が必要になり、メモリ、ストレージ使用量が嵩みがち
= O(n) Space Complexity →Apache DataSketches の Theta Sketch Framework は、テーブル全体のサブセットを元に、統計的に有意な NDV の近似値を推定できる = O(1) Space Complexity • 計算時の Time Complexity はどちらも O(n) だが、 Theta Sketch の方が処理内容が相対的に軽い • その他、Thea Sketch はデータセットを分割して並列処理し、後でマージしてNDVを計算できるメリットも • Puffin File は Theta Sketch Framework の計算に用いるデータをBlobとして格納する • クエリエンジンのサポートが課題 OSS では現状 Trino しかサポートしてない？みんなでコントリビュートしよう！ https://datasketches.apache.org/docs/Theta/ThetaSketchFramework.html

Iceberg Catalog Namespace(テーブルの集合)の管理 namespaceの作成、更新 namespaceに属するtableの作成、削除、リネーム、リスト Metadata fileをポイントして、
ACIDの前提となる楽観ロックを担保 • 最新、一つ前のmetadata_location, previous_metadata_locationをポイント • テーブルが変更される度にアトミックに更新 • Iceberg Catalog の一義的な役割はとてもシンプルであるため、実装の選択肢は多様 • Catalog 実装によっては付加的な機能を提供するものもある(自動 Compaction など) • 最近はREST Catalog へ集約していく流れがある Apache Iceberg Catalog選択のポイント

Icebergの同時実行制御 Read • Catalogからmetadata_location(metadata pointer)をロードした時点のSnapshotを参照するため、クエリ結果は変更の影響を受けない Write 1. 現在が更新されないことを前提に metadata
layer, data layerを作成 2. 基にしたmetadata_locationとCatalogの metadata_locationを突合 1. 一致する場合はmetadata_locationを atomicに更新 2. 一致しない場合はabort / retry

Conclusion • 本章では、Apache Iceberg テーブルのアーキテクチャとフォーマットについて説明した • これらにより、Hive Table Format
の課題を解決し、データレイク上での ACID トランザクションなどの機能を実現することができる • エンジンやツールは Iceberg Table Format を活用してデータの効率的な読み書きを行うとともに、タイムトラベルやスキーマ進化といったより高度な機能を実現している • Chapter 3. Lifecycle of Write and Read Queries では、これらのエンジンやツールで実行されるクエリのライフサイクルについて説明する

Apache Iceberg The Definitive Guide 輪読会 - 2章 Th...

Apache Iceberg The Definitive Guide 輪読会 - 2章 The Architecture of Apache Iceberg

bering

More Decks by bering

Featured

Transcript

Chapter 2. The Architecture of Apache Iceberg べりんぐ 2024/7/15 Apache

べりんぐ • Data Engineering Hobbyist • Twitter: @_Bassari • 技術ブログ書いてます

Chapter 2. The Architecture of Apache Iceberg • Apache Iceberg

The Data Layer • テーブルの実データを管理するレイヤー • 基本的にはData Layerの情報を元にクエリ結果を返却一部メタデータレイヤのみで返せるクエリもある

Data Files • テーブルの実データを管理する • Apache Parquet (列指向), Apache ORC

Apache Parquet • 大規模なデータ処理に最適化された列指向データフォーマット • Row Group / Column

ちなみに https://www.youtube.com/ watch?v=axbmLqmxuo4 https://people.apache.org/committers-by-project.html

Copy on Write と Merge on Read ① • Iceberg

Delete Files: Positional Delete / Equality Delete positional delete equality

Copy on Write と Merge on Read ② • Iceberg

The Metadata Layer • Metadata files, manifest lists, manifest filesの三層

Manifest Files • 1 つ以上の data layer のファイルを管理する avro •

Iceberg における統計情報 (Hive Style との違い) • 統計情報の保存方法 Iceberg: data

Manifest Lists • Iceberg Table のある時点での snapshot を管理する avro

Metadata Files • Iceberg Table のある時点でのメタデータを管理する json • テーブルの最新＆歴代スキーマ、パーティション情報、snapshot

Puffin Files • Data files, Manifest Files, Manifest Lists でカバーでき

puffin-tools Puffin File の中身を探索したいときに便利 https://github.com/ebyhr/puffin-tools

NDVとは？ / 統計情報の重要性について • Number of Distinct Value (NDV):データセットやカラム内で重複を除いた一意の値の数 •

NDV の課題と Theta Sketch による解決 • NDV を100% の精度で継続的に計算するためには、全てのユニーク値の記録が必要になり、メモリ、ストレージ使用量が嵩みがち

Iceberg Catalog Namespace(テーブルの集合)の管理 namespaceの作成、更新 namespaceに属するtableの作成、削除、リネーム、リスト Metadata fileをポイントして、

Icebergの同時実行制御 Read • Catalogからmetadata_location(metadata pointer)をロードした時点のSnapshotを参照するため、クエリ結果は変更の影響を受けない Write 1. 現在が更新されないことを前提に metadata

Conclusion • 本章では、Apache Iceberg テーブルのアーキテクチャとフォーマットについて説明した • これらにより、Hive Table Format