Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Posibilidad de supervivencia en el Titanic

Quito Lambda
March 25, 2020
28

Posibilidad de supervivencia en el Titanic

Women Lightning Tech Talks (virtual)

Quito Lambda

March 25, 2020
Tweet

Transcript

  1. Kaggle provee dos conjuntos de datos • train.csv → contiene

    un listado con 891 registros de pasajeros • test.csv → contiene 418 registros de pasajeros El conjunto train debe ser usado para construir el modelo mediante el algoritmo de minería de datos que se seleccione. 2. 1. Datos - Kaggle
  2. 2.2. Datos de cada pasajero • passengerId: Identificador del pasajero

    • survived: Indica si el pasajero sobrevive (0=No, 1=Sí) • pclass: Indica la clase del tiquete ( 1-primera clase, 2=segunda clase, 3-tercera clase) • name: Nombre del pasajero • sex: Sexo del pasajero (male, female) • age: Edad del pasajero • sibsp: Número de familiares a bordo • parch: Número de padres e hijos a bordo • ticket: Número del ticket • cabin: Número de la cabina • embarked: Puerta de embarque (C-Cherburgo, Q-Queenston, S-Southampton)
  3. 2.3. Pre-procesamiento de datos (1) • WEKA - Todos los

    datos que sean numéricos hay que pasarlos a nominales ◦ survived (0, 1) → survived_nominal (true, false) ◦ class (1, 2, 3) → class_nominal (first, second, third) ◦ age → age_nominal ( child [ 0-12 ], adolescent [ 13-19 ], adult [ 20-49 ], old [ +50 ], unknown )
  4. 2.3 Pre-procesamiento de datos (2) • Escoger columnas para la

    minería de datos ◦ Se eliminan las columnas de las que se creó su columna nominal correspondiente ◦ Se eliminan las que tienen datos únicos: ▪ name ▪ passenger_id ▪ ticket
  5. 3.1. Algoritmo C4.5 • Generar árboles de decisión desde un

    conjunto de datos • En cada nodo del árbol, se elige un atributo de los datos que más eficazmente divide el conjunto de muestras en subconjuntos enriquecidos en una clase u otra. • Implementación: J48 en WEKA
  6. 4.1. Resultados • Hombres menos probabilidades de sobrevivir • Mujeres,

    depende de clase social • Clase social más baja mujeres, dependen de su edad para sobrevivir
  7. 4.2. Conclusiones • Existen varias herramientas para la minería de

    datos, en este proyecto se utilizaron Weka y Scikit-Learn de Python • El preprocesamiento es el paso que más tiempo ha tomado, pues es necesario encontrar que información es útil para el objetivo, y como transformar datos no relevantes en datos útiles.