Slide 11
Slide 11 text
©2024 Databricks Inc. — All rights reserved
更なる画像処理で .applyInPandas(...) を活用
• 画像処理APIにアクセスするための簡潔なUDF構文
• 画像に対してより自然なpandas APIを活用
• Arrowに引き渡すデータのスキーマとデータ量を考慮
proc_df = df.select()
…
rtn_schema = df.select().withColumn(“x”,...)...
• 自分の pandas 関数を活用
rtn_df = proc_df.groupBy().applyInPandas(rtn_schema)
• 特徴量を用いてバイナリー画像データを効率的に再構成するためにSparkを活用
full_df = rtn_df.join(df,,”leftouter”)