Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Clean Data with Python

Clean Data with Python

Some samples using Python to cleanning data. Meetup Pyladies La Paz.

Victoria Ubaldo

March 20, 2019
Tweet

More Decks by Victoria Ubaldo

Other Decks in Programming

Transcript

  1. • Cada variable que mides tiene que estar en una

    columna. • Cada observación diferente de esa variable tiene que estar en una fila diferente. • Debe haber una tabla distinta para cada "clase" de variable. 2. ORDENANDO DATOS
  2. • print(df.dtypes) • String : df[Columna].astype(str) (para datos categóricos). •

    Numeric : pd.to_numeric(Columna) 3. REVISANDO LOS TIPOS DE DATOS
  3. • Cuidado al usar estadísticas de prueba para llenar. •

    Debes asegurarte de que el valor que estas completando tiene sentido. • La mediana es una mejor estadística en presencia de valores atípicos. 4. MISSING DATA CON UN TEST ESTADÍSTICO
  4. • Comprobación por código vs visual checking • Podremos escribir

    una sentencia assert para verificar si tenemos NaNs o esperamos missings values • Podemos detectar errores y warnings tempranos • Nos da confianza que nuestro código esta corriento correctamente 5. PROBANDO CON ASSERTS