Slide 27
Slide 27 text
;0;05FDIOPMPHJFT
*OD
σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC
27
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
import datetime
today = datetime.date.today()
foldername = today.strftime('%Y-%m-%d')
〜 (省略)〜
df = applymapping1.toDF() # DynamicFrameをtoDF methodによりDataFrameに変換します
df_rep = df.repartition(1) # repartition methodによりpartition数を1にします
dyf_rep = DynamicFrame.fromDF(df_rep, glueContext, "dyf_rep") # DataFrameをDynamicFrameに変換します
datasink2 = glueContext.write_dynamic_frame.from_options(frame = dyf_rep , connection_type = "s3", connection_options = {"path": "s3://s3-output-
20190722/"+foldername "compression": "gzip"}, format = "json", transformation_ctx = "datasink2")
job.commit()
モジュールインポート、フォルダ名定義
ファイルを一つにまとめる
出力先指定、gzip圧縮