Slide 17
Slide 17 text
@yuki_saito_en
言語化のプロセス データのテスト
17
Primary Key
重複したデータを発見すること。重
複データは算出結果のノイズや
データ。操作の複雑化に繋がるの
でビッグデータの世界でも PKを意
識する。
Dictionary
特定の辞書(Pythonのディクショナ
リみたいな)で事前に定義した値に
データが収まっているか確認す
る。やってみるとボロボロ見つか
る。
Record Num
テーブルや日々 ETLしているデー
タの件数が異常な状態になってい
ないかを確認する。処理するデー
タが多くなってきた際には一々全
部見切れないので必須
Check Null
データのNull具合を確認。内外的
な要因でいきなり Nullが急激に増
えたりする。また、レコード内に
Nullが多い場合はETLするかそも
そも取り込まないなどすることも検
討する。
Zero Control
足し算の結果など、数値の整合性
が取れていることを確認すること。
エラーとなることは少ないものの
数値の計算にはミスがあると大変
なのでダブルチェックの意味でも
確認する。
Format
特定のフォーマットに沿っているか
確認をすること。
男、女、0、1、郵便番号、社内で利
用している業務用のコードなど。大
抵これらが揃っておらず大いに苦
労する。
データのテストはデータの定義を言語化するプロセスに等しい
データ活用
の生産性を
高める
理解