Upgrade to Pro — share decks privately, control downloads, hide ads and more …

validateパッケージでデータを検証する / Data Validation with validate package

松村優哉
February 19, 2022

validateパッケージでデータを検証する / Data Validation with validate package

松村優哉

February 19, 2022
Tweet

More Decks by 松村優哉

Other Decks in Programming

Transcript

  1. 誰︖ • 松村優哉 • 出⾝: 計量経済、ベイズ統計、 因果推論 • お仕事: データサイエンティスト&

    データエンジニア in 広告会社 • ⾔語: R, Python • Tokyo.R, Japan.R運営 • 近況:2⽉に転職しました︕
  2. データクリーニングとは • データクリーニング≒データ前処理の最も基本的な部分 • 数値表現の統⼀ • ⽇付型の統⼀ • ⽂字列の正規化・前処理 •

    ⽋測データの特定・補完 • エラーデータの特定・修正 • 今⽇の話題は、エラーデータの特定、つまりデータ検証がメイン 統計的な処理が必要な領域
  3. データ検証の必要性 • データは意図せず変化してしまう • 前処理⼯程のミス • 集計のミス • そもそもデータソースの時点で変なデータが含まれている •

    適当なタイミングで、⽬の前のデータが「正しいか」の検証(バリ デーション)を⼊れると良い データの読み込み データの前処理 分析・可視化 処理1 処理2 処理3 検証 検証 検証