Azure Databricks: Photon Performance Deep Dive

Slide 1

Slide 1 text

クラウドスケール分析でデータ活用に無限の可能性を Find new value on Azure Azure Databricks “Photon” Performance Deep Dive 15:35-16:05 (30min) Microsoft Japan Data&AI Cloud Solution Architect Masaki Takeda

Slide 7

Slide 7 text

How Photon works? Photon 有効化されたランタイムは Hybrid Execution Model (Spark/Photon) で稼働。ユーザーには透過的。 7 Announcing Photon Public Preview: The Next Generation Query Engine on the Databricks Lakehouse Platform - The Databricks Blog クライアントが特定のクエリまたはコマンドを Spark ドライバノードに送信すると、そのクエリまたはコマンドが解析され、 Catalyst Optimizer は Photon が関与していない場合と同様に分析、計画、および最適化を行います。 PhotonをDatabricks Runtime で有効化すると、Runtime Engine が Physical Planを介して、Photonで実行できるパーツを決定します。たとえば、SORT MERGE JOINをHASH JOINに変更するなど、 Physical Plan に対して部分的なPhotonによる最適化の変更を加えることができますが、順序を含むPhysical Plan の全体的な構造は変わりません。Photon はまだ Spark が行うすべての機能をサポートしていないため、1 つのクエリは Photon に部分的な処理を実行させ、残りは Spark で実行させます。この Hybrid Execution Model は、ユーザーに対して完全に透過的です。クエリプランは、データの特定パーティションに対して動作する Worker Node 上のスレッドで実行されるTaskと呼ばれる分散実行のアトミック単位に分割されます。Photonエンジンがその仕事をするのはこのレベルです。Spark の Stage Code Gen 全体をネイティブエンジン実装に置換できると考えることができます。 Photon ライブラリは JVM にロードされ、Spark と Photon はJNI を介して通信し、データポインタをヒープ外メモリに渡します。 Photonはまた、Mixed Plan で適切にSparkと連携したうえで必要に応じて Local SSD に Memory から Spill できように、Sparkの Memory Managerと密に統合されています。公開プレビューリリースでは、Photon は多くのデータ型、演算子、式をサポートします。詳細については、ドキュメントの Photonの概要を参照してください。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text