Posibilidad de supervivencia en el Titanic

Posibilidad de sobrevivencia en el Titanic

INTRODUCCIÓN

Quiénes podían sobrevivir? Fuente: https://edition.cnn.com/2013/09/30/us/titanic-fast-facts/index.html

1. Introducción Fuente: http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html

Kaggle provee dos conjuntos de datos • train.csv → contiene
un listado con 891 registros de pasajeros • test.csv → contiene 418 registros de pasajeros El conjunto train debe ser usado para construir el modelo mediante el algoritmo de minería de datos que se seleccione. 2. 1. Datos - Kaggle

2.2. Datos de cada pasajero • passengerId: Identiﬁcador del pasajero
• survived: Indica si el pasajero sobrevive (0=No, 1=Sí) • pclass: Indica la clase del tiquete ( 1-primera clase, 2=segunda clase, 3-tercera clase) • name: Nombre del pasajero • sex: Sexo del pasajero (male, female) • age: Edad del pasajero • sibsp: Número de familiares a bordo • parch: Número de padres e hijos a bordo • ticket: Número del ticket • cabin: Número de la cabina • embarked: Puerta de embarque (C-Cherburgo, Q-Queenston, S-Southampton)

2.3. Pre-procesamiento de datos (1) • WEKA - Todos los
datos que sean numéricos hay que pasarlos a nominales ◦ survived (0, 1) → survived_nominal (true, false) ◦ class (1, 2, 3) → class_nominal (ﬁrst, second, third) ◦ age → age_nominal ( child [ 0-12 ], adolescent [ 13-19 ], adult [ 20-49 ], old [ +50 ], unknown )

2.3. Pre-procesamiento de datos (1)

2.3 Pre-procesamiento de datos (2) • Escoger columnas para la
minería de datos ◦ Se eliminan las columnas de las que se creó su columna nominal correspondiente ◦ Se eliminan las que tienen datos únicos: ▪ name ▪ passenger_id ▪ ticket

MINERíA DE DATOS

3.1. Algoritmo C4.5 • Generar árboles de decisión desde un
conjunto de datos • En cada nodo del árbol, se elige un atributo de los datos que más eﬁcazmente divide el conjunto de muestras en subconjuntos enriquecidos en una clase u otra. • Implementación: J48 en WEKA

• Opción de entrenamiento: cross_validation • Atributo de clasiﬁcación: survived_nominal
3.2. Árbol de decisión J48

RESULTADOS

4.1. Resultados • Hombres menos probabilidades de sobrevivir • Mujeres,
depende de clase social • Clase social más baja mujeres, dependen de su edad para sobrevivir

4.2. Conclusiones • Existen varias herramientas para la minería de
datos, en este proyecto se utilizaron Weka y Scikit-Learn de Python • El preprocesamiento es el paso que más tiempo ha tomado, pues es necesario encontrar que información es útil para el objetivo, y como transformar datos no relevantes en datos útiles.

17 ¡Gracias! [email protected] ¡Cuéntanos tus ideas! @quitolambda @stackbuilders stackbuilders.com/join Trabaja
con nosotros Contáctanos

Posibilidad de supervivencia en el Titanic

Posibilidad de supervivencia en el Titanic

Quito Lambda

More Decks by Quito Lambda

Featured

Transcript

Posibilidad de sobrevivencia en el Titanic

INTRODUCCIÓN

Quiénes podían sobrevivir? Fuente: https://edition.cnn.com/2013/09/30/us/titanic-fast-facts/index.html

1. Introducción Fuente: http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html

DATOS

Kaggle provee dos conjuntos de datos • train.csv → contiene

2.2. Datos de cada pasajero • passengerId: Identiﬁcador del pasajero

2.3. Pre-procesamiento de datos (1) • WEKA - Todos los

2.3. Pre-procesamiento de datos (1)

2.3 Pre-procesamiento de datos (2) • Escoger columnas para la

MINERíA DE DATOS

3.1. Algoritmo C4.5 • Generar árboles de decisión desde un

• Opción de entrenamiento: cross_validation • Atributo de clasiﬁcación: survived_nominal

RESULTADOS

4.1. Resultados • Hombres menos probabilidades de sobrevivir • Mujeres,

4.2. Conclusiones • Existen varias herramientas para la minería de

17 ¡Gracias! [email protected] ¡Cuéntanos tus ideas! @quitolambda @stackbuilders stackbuilders.com/join Trabaja