Slide 8
Slide 8 text
Photon のアドバンテージ
2021/12/18 時点
8
Photon - Azure Databricks | Microsoft Docs
• Parquet / Delta テーブルに対する SQL / Dataframe 操作のサポート
• 大規模 (>100GB) データの集計・結合処理の高速化
• Photon は Delta Caching との併用が可能
• Databricks Runtime 9.1 LTS 以上で Photon は既定で有効
• Scan Parquet/Delta の性能改善
• 特に many small files (256MB未満) & カラム数の多いテーブル
• Delta/Parquet への書き込み処理改善 (UPDATE, DELETE, MERGE INTO, INSERT, and CTAS)
• 特にカラム数の多い (100+) テーブル (2-4倍の改善見込み)
• Sort-Merge Join が自動的に Hash-Join に変換 (Optimizing) される
• 大規模テーブル同士の JOIN によるメモリ圧迫は、Spilling Hash join 機構で回避する仕様
• (※ Sort-Merge join は Hash table を in memory で作成しないが、データ全体を Spill してしまう傾向)
• (※ そもそも片方のテーブルが小さい場合、AQE により Sort-Merge Join から Broadcast Join にクエリ実行途中に変換される傾向)
(※ Databricks Runtime 7.3 LTS 以降、AQE (Adaptive Query Execution) 自体は規定で有効)
Databricks Runtime-Azure Databricks | Microsoft Docs
アダプティブクエリ実行-Azure Databricks | Microsoft Docs