Snowpark for Python を効率的に使いこなすスタートライン（UDF）

Slide 1

Slide 1 text

【オフライン限定】Snowflakeの小技LT〜ChatGPTも知らない？秘密のテクニック教えて！〜 Snowpark for Pythonを効率的に使いこなすスタートライン 2023年5月18日（木）株式会社NTTデータ Snowflakeビジネス推進室檜山徹

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

© 2023 NTT DATA Corporation 4 そもそもUDFって？どうやって使うの？ ➢ UDF（User Defined Function）とは、POWやSQRT、HASHなどのシステム定義関数と同じように使用できる関数を自作できる機能です。 • 各入力行を複数のノードで並列処理するため、効率的に計算できます。 [Python: UDF定義] @udf(name=multiply) def multiply( a:float, b:float ): return a*b 1 2 3 a b a b a*b ノード1：1×2 ノード2：2×3 ノード3：3×4 2 3 4 2 6 12 4 5 ノード4：4×5 ノード5：5×6 5 6 20 30 [SQL: UDF呼び出し] select a, b, multiply(a,b) from table; UDFの処理イメージインプットデータアウトプットデータ UDFの定義・呼び出しイメージ

Slide 5

Slide 5 text

© 2023 NTT DATA Corporation 5 そもそもUDFって？どうやって使うの？ ➢ UDF（User Defined Function）とは、POWやSQRT、HASHなどのシステム定義関数と同じように使用できる関数を自作できる機能です。 • 各入力行を複数のノードで並列処理するため、効率的に計算できます。 [Python: UDF定義] @udf(name=multiply) def multiply( a:float, b:float ): return a*b 1 2 3 a b a b a*b ノード1：1×2 ノード2：2×3 ノード3：3×4 2 3 4 2 6 12 4 5 ノード4：4×5 ノード5：5×6 5 6 20 30 [SQL: UDF呼び出し] select a, b, multiply(a,b) from table; UDFの処理イメージインプットデータアウトプットデータ UDFの定義・呼び出しイメージつまり、「各行に対する処理」が独立している場合、（＝スカラー） UDFを使用することで効率的な処理が可能！機械学習の推論ユースケースにも非常に適している。例：画像認識、音声・言語処理、などなど・・・

Slide 6

Slide 6 text

© 2023 NTT DATA Corporation 6 UDFの効率的な使い方１（Vectorized UDF） ➢ 処理したいデータは、数億レコード以上にのぼります。このとき、UDFをレコード一行ずつに対して呼び出していたのでは、オーバーヘッドが大きくなってしまいます。 • そこで役立つのが、この「Vectorized UDF」です！ • これにより、バッチでデータを入力・処理でき、呼び出し回数を大きく削減できます。 • 使い方は、Pandas Dataframeを処理する関数を定義するだけ、です。 • 呼び出しも通常のUDFと全く同じ・・・！ @udf(name=“infer_model”) def vectorized_infer_model( df: pd.DataFrame ) -> pd.Series: model_name = 'model.sav' model = load(import_dir+model_name) scored_data = pd.Series(model.predict(df)) return scored_data ※上記コードは簡略化のため一部省略しています。通常のUDFの結果 Vectorized UDFの結果 > 7倍高速！（42.9s -> 5.87s）

Slide 7

Slide 7 text

© 2023 NTT DATA Corporation 7 UDFの効率的な使い方２（CacheTools） ➢ 機械学習モデルはしばしば大容量になります。そのため、UDFのノード起動のたびにモデルを読み込むと、それだけでも結構な時間になってしまいます。 • そこで役立つのが、この「キャッシュ」です！ • 使い方は、モデル読み込み関数を定義し、キャッシュデコレータを付与することで、モデルの読み込みをキャッシュできます。 @cachetools.cached(cache={}) def load_model(model_path): return load(model_path) @udf(name=“infer_model”) def vectorized_infer_model( df: pd.DataFrame ) -> pd.Series: model_name = 'model.sav' model = load_model(import_dir+model_name) scored_data = pd.Series(model.predict(df)) return scored_data Vectorized UDF(キャッシュ)の結果通常のUDFの結果 > 12倍高速！（42.9s -> 3.54s） ※上記コードは簡略化のため一部省略しています。

Slide 8

Slide 8 text

© 2023 NTT DATA Corporation 8 おわりに ➢ このようにSnowpark for PythonにおけるUDFは、機械学習の推論などの処理と、非常に相性のよいツールとなっています。 • 今回は機械学習タスクにフォーカスして紹介しましたが、その他のデータ処理においても効果的にはたらく機能です。 • ぜひUDFとストアドプロシージャの違いを知っていただいて、今後の開発に役立てていただければと思います！ • 今回は紹介できていませんが、UDTFというグループに対する集計（Window関数）用のUDFも用意されています。ぜひそちらもチェックしてみてください。 ➢ SnowparkやPythonに関するアップデートも続々とリリースされてきているので、今後のアップデートも要チェックです！ ★ ご興味ある方は、ぜひのちほどのフリートークの場などでお声がけください！