Slide 1

Slide 1 text

Clean Data with Python

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

● Importancia ● Exploración ● Ordenamiento ● Tipos de Datos ● Combinación AGENDA

Slide 4

Slide 4 text

Inicio de un proyecto

Slide 5

Slide 5 text

Limpiar y poner en orden la data

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

1. EXPLORANDO LOS DATOS df.shape df.columns df.info()

Slide 8

Slide 8 text

1. EXPLORANDO LOS DATOS Plotear : df[Columna].describe() df.[Columna].plot('hist')

Slide 9

Slide 9 text

No todos los outliers son puntos malos Algunos son valores válidos 1. EXPLORANDO LOS DATOS

Slide 10

Slide 10 text

● Cada variable que mides tiene que estar en una columna. ● Cada observación diferente de esa variable tiene que estar en una fila diferente. ● Debe haber una tabla distinta para cada "clase" de variable. 2. ORDENANDO DATOS

Slide 11

Slide 11 text

● pd.melt ● pivot 2. ORDENANDO DATOS

Slide 12

Slide 12 text

● print(df.dtypes) ● String : df[Columna].astype(str) (para datos categóricos). ● Numeric : pd.to_numeric(Columna) 3. REVISANDO LOS TIPOS DE DATOS

Slide 13

Slide 13 text

Método drop_duplicates() 4. DATOS DUPLICADOS

Slide 14

Slide 14 text

● Dejarlo como está ● Borrarlos ● Completar el espacio perdido. 4. MISSING DATA

Slide 15

Slide 15 text

● df..info() ● df.dropna() 4. MISSING DATA

Slide 16

Slide 16 text

● .fillna('missing') ● .fillna(0) 4. MISSING DATA

Slide 17

Slide 17 text

● Cuidado al usar estadísticas de prueba para llenar. ● Debes asegurarte de que el valor que estas completando tiene sentido. ● La mediana es una mejor estadística en presencia de valores atípicos. 4. MISSING DATA CON UN TEST ESTADÍSTICO

Slide 18

Slide 18 text

● .fillna(mean_value) 4. MISSING DATA CON UN TEST ESTADÍSTICO

Slide 19

Slide 19 text

● Comprobación por código vs visual checking ● Podremos escribir una sentencia assert para verificar si tenemos NaNs o esperamos missings values ● Podemos detectar errores y warnings tempranos ● Nos da confianza que nuestro código esta corriento correctamente 5. PROBANDO CON ASSERTS

Slide 20

Slide 20 text

assert data.Close.notnull().all() data_0= data.fillna(value=0) assert data_0.Close.notnull().all() 5. PROBANDO CON ASSERTS

Slide 21

Slide 21 text

Recursos adicionales ● vita.had.co.nz/papers/tidy-data.pdf ● datacamp.com/courses/cleaning-data-in-python ● serialmentor.com/blog/2014/7/20/keep-your-data-tidy

Slide 22

Slide 22 text

No content