Microsoft Docs • Parquet / Delta テーブルに対する SQL / Dataframe 操作のサポート • 大規模 (>100GB) データの集計・結合処理の高速化 • Photon は Delta Caching との併用が可能 • Databricks Runtime 9.1 LTS 以上で Photon は既定で有効 • Scan Parquet/Delta の性能改善 • 特に many small files (256MB未満) & カラム数の多いテーブル • Delta/Parquet への書き込み処理改善 (UPDATE, DELETE, MERGE INTO, INSERT, and CTAS) • 特にカラム数の多い (100+) テーブル (2-4倍の改善見込み) • Sort-Merge Join が自動的に Hash-Join に変換 (Optimizing) される • 大規模テーブル同士の JOIN によるメモリ圧迫は、Spilling Hash join 機構で回避する仕様 • (※ Sort-Merge join は Hash table を in memory で作成しないが、データ全体を Spill してしまう傾向) • (※ そもそも片方のテーブルが小さい場合、AQE により Sort-Merge Join から Broadcast Join にクエリ実行途中に変換される傾向) (※ Databricks Runtime 7.3 LTS 以降、AQE (Adaptive Query Execution) 自体は規定で有効) Databricks Runtime-Azure Databricks | Microsoft Docs アダプティブクエリ実行-Azure Databricks | Microsoft Docs