Slide 18
Slide 18 text
© 2015 - 2024 Nowcast Inc. 18
4. Optimizing the Performance of Iceberg Tables
Compaction を実行してみる
rewrite_data_files には様々なオプションがある。
詳細は https://iceberg.apache.org/docs/1.5.1/spark-procedures/#rewrite_data_files
● 引数
○ table : Compactionの対象テーブル
○ strategy : Compaction strategy で binpack (default) か sort
○ sort_order : Strategy が sort の際に、ソートの仕方を指定する。
普通のソートであれば “ColumnName SortDirection NullOrder” を対象列分、
z-order であれば “zorder(c1, c2, c3)” と指定する
● オプション
○ target-file-size-bytes : コンパクション後のファイルサイズ、デフォルトは512MB
○ max-concurrent-file-group-rewrites : コンパクションで同時並列処理するファイルグループの数の上限
○ max-file-group-size-bytes : 単一ファイルグループの総データ量の上限、デフォルトは100GB
○ partial-progress-enabled : partial progress を有効化するか
○ partial-progress-max-commits : partial progress 有効時に、許可する最大コミット数
○ rewrite-job-order : ファイルグループの書き込み順序