Slide 17
Slide 17 text
データ検証例
import pandas as pd
import pandera as pa
schema = pa.DataFrameSchema({
"gender": pa.Column(str,
checks=pa.Check(lambda x: x in _genders ,
element_wise=True, error=f"gender must be {_genders}"),
),
"height_cm": pa.Column(float,
checks=[
pa.Check(lambda x: 130 <= x <= 210 ,
element_wise=True, error=f"height must be between [130, 210]",
),
pa.Hypothesis.two_sample_test(
sample1="male", sample2="female", groupby="gender",
relationship="greater_than", alpha=0.01, equal_var=True,
),
],
),
})
df = pd.DataFrame(data = {"gender": genders, "height_cm": heights})
df = schema(df)
● Pythonのpandasとpanderaによるデータ検証
● カラムごとにdata schemaを定義し、
チェックを挟むことで取得したデータの
正しさを検証する
● Hypothesis testingを活用することで
複数カラム間の妥当性をテストすることが
可能