10章では、運用環境における Apache Iceberg の監視と保守に役立つテクニックを 学んでいく ▪ 具体的には以下3点が本章のメイントピックとなる 1. Apache Iceberg Metadata Tables 2. Isolation of Changes with Branches 3. Rolling Back Changes Chapter 10. Apache Iceberg in Production の内容 4 Chapter 10. Apache Iceberg in Production 本資料にて扱うのはここ!
Iceberg in Production • History • Metadata Log Entries • Entries • Files • Manifests • Partitions • Positional Delete Files https://iceberg.apache.org/docs/latest/spark-queries/#inspecting-tables • All Data Files • All Delete Files • All Entries • All Manifests • References
◼ データの復旧のための特定のスナップ ショットID の特定 ◼ スナップショット同士の関係性、系譜の確認 History 10 Chapter 10. Apache Iceberg in Production -- Spark SQL SELECT * FROM my_catalog.table.history; -- Dremio SELECT * FROM TABLE(table_history('catalog.table')) -- Trino SELECT * FROM "table$history" History Metadata Log Entries Snapshots Files Manifests Partitions All Data Files All Manifests References
/位置削除/均等削除の標識、ファイル パス、形式、ファイル内のレコード数、サイズ、 に加え、当該テーブルの各カラムのサイズや 値の数といったメタデータ情報が格納される ⚫ 用途の例 ◼ スナップショットごとのファイル数、ファイル サイズ、レコード数等の統計情報の確認 ◼ スナップショットごと、パーティションごとの ファイル数、ファイルサイズ、レコード数等の統計情報の確認 All Data Files 16 Chapter 10. Apache Iceberg in Production SELECT * FROM my_catalog.table.all_data_files; History Metadata Log Entries Snapshots Files Manifests Partitions All Data Files All Manifests References
フォーマンス・データ品質の改善等、実運用で生じる様々な管理作業に必要な情報を 得ることができる ▪ メタデータテーブルは使用するクエリエンジンによって実装が異なるため、 使用できるテーブル数や参照する構文にもバラつきがある ▪ 本書の範囲を含む10章の包括的な内容と、メタデータテーブル以外の実運用のテクニック の詳細な解説は、以下のけびんさんのブログを参照 Apache Iceberg: The Definitive Guid 10章 Apache Iceberg in Production 19 Chapter 10. Apache Iceberg in Production