Slide 11
Slide 11 text
©2022 Databricks Inc. — All rights reserved
(前提) 既存のパーティショニング戦略 - Hive Style Partitioning
Delta Lakeのパフォーマンスチューニング戦略
➔ データレイクに格納された大規模データセットに対するクエリのパフォーマンスを向上させる一
般的な方法
➔ データをより小さなパーティションに分割し、パーティション情報は各ファイルのパスの一部とし
て保存
➔ スキャン中にデータをスキップできるようになるので、クエリを大幅に高速化できる
/transactions/date=2023-02-05/customer=customerA/{1.parquet, 2.parquet,...}
/transactions/date=2023-02-05/customer=customerB/{1.parquet, 2.parquet,...}
/transactions/date=2023-02-05/customer=customerC/{1.parquet, 2.parquet,...}
/transactions/date=2023-02-06/customer=customerA/{1.parquet, 2.parquet,...}
/transactions/date=2023-02-06/customer=customerB/{1.parquet, 2.parquet,...}
…