Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SKL 2019 Intern Training Data Cleaning and Feature Engineering

Adam
March 18, 2019

SKL 2019 Intern Training Data Cleaning and Feature Engineering

Data cleaning and feature engineering methods for intern.

Adam

March 18, 2019
Tweet

More Decks by Adam

Other Decks in Programming

Transcript

  1. Index Age Sex Income 1 2 3 … Index Age

    Sex Income 1 65 M 100k 2 30 M 60k 3 42 F 65k … 我們預期會是
  2. Index Age Sex Income 1 2 3 … Index Age

    Sex Income 1 65 M 100k 2 30 M 60k 3 42 F 65k … 我們預期會是 Index Age Sex Income 1 65 M 100k 2 NA NA 60k 3 42 F 65k 4 NA F 42k 5 NA NA NA … 1000 33 NA 10000k 但實際上
  3. Unit Nonresponse vs Item Nonresponse 1. Unit Nonresponse: 整筆資訊沒有辦法蒐集到 2.

    Item Nonresponse: 部分資訊因為某些原因,⽽沒有 蒐集到
  4. Unit Nonresponse vs Item Nonresponse Index Age Sex Income 1

    65 M 100k 2 NA NA 60k 3 42 F 65k 4 NA F 42k 5 NA NA NA … 1000 33 NA 10000k
  5. 我們如何處理缺失資料 A. Drop Missing V alue B. Deductive Imputation C.

    Mean/ Median/ Mode Imputation D. Regression Imputation E. Stochastic Regression Imputation F. Proper Imputation G. Hot-Deck Imputation
  6. Type Of Missingness A. Not missing at random: 受測者主觀的不願意提供某些資料 B.

    Missing at random: 可能少數欄位字跡潦草看不懂在寫什麼 C. Missing completely at random: 咖啡倒在問卷上了啊啊啊啊啊啊
  7. Recap 1. Data Cleaning (Munging) 2. Feature Engineering 3. Advance

    Pandas 1. Tidy Data 2. Data Aggregation 3. Combining, Relating, Reshaping Data
  8. Homework - 資料探索⼤挑戰 Objective: 練習使⽤Python進⾏資料清理&特徵⼯程 1. 針對前⼀天Boston House Price Dataset,有空值的欄位進⾏資料清理

    2. 清理後研究看看你的資料,試著⽤Python建⽴15個新的特徵 3. 將你的資料清理&特徵⼯程的策略寫在你昨天的表上,並寫下為什麼你會想 這樣做︖ 4. 將你清理完的資料及與Excel表紀錄好,今天的作業就完成了 :”> 特徵 資料清理⽅式 這樣清理的理由 特徵⼯程 建⽴這特徵的理由 ⽣活區域⾯積 補入Mean 以平均值評估⼀般⼈購 買的坪數 將坪數每5坪分⼀個 級距,ex: 25~30坪 推測⼀般⼈會以這樣的級 距來分類房⼦的⼤⼩