Slide 13
Slide 13 text
Iceberg における統計情報 (Hive Style との違い)
• 統計情報の保存方法
Iceberg: data file, manifest file, manifest list, puffin fileで分散管理
→ 統計情報が分散管理されているため、テーブルサイズが大きくなっても統計情報の管理がボ
トルネックになりにくい
Hive Style: テーブルやパーティション単位で保存
→ 統計情報を保持するカタログ等がボトルネックになる場合がある
• 統計情報の収集タイミング
Iceberg: データ書き込み時に、エンジンやツールが各データファイルのサブセットに対して統計
情報を収集・書き込み
→ データ書き込み時に統計情報を都度更新するため、コンスタントに最新の状態を維持できる
Hive Style:パーティション全体やテーブル全体を読み取って統計を計算
→ 計算コストが高く、鮮度の高い統計情報の維持が難しい