Introducción a la minería de datos

Introducción a la Minería de Datos Oscar Cubo Medina [email protected]

Motivación n  Organizaciones producen y acumulan grandes cantidades de información
n  Transacciones n  Clientes n  Procesos internos n  Digitalización de material previo n  … n  Esta información no es útil

Minería de Datos (Data Mining) n  Minería de Datos es
el análisis y exploración, por medios automáticos o semiautomáticos, de grandes cantidades de datos para descubrir conocimiento útil n  Patrones n  Reglas

Posibles usos n  Detección de patrones n  Detectar perfiles n 
Detectar segmentos n  Conocer a los clientes n  Detectar buenos clientes n  Detectar morosos n  Venta cruzada n  Optimización n  Mejora de respuesta n  Mejora de rendimiento de sistemas n  …

¿Qué hace realmente? n  Aplica algoritmos conocidos para encontrar patrones
n  Los patrones deben tener semántica n  Precisa conocimiento del entorno n  Permite aplicar los patrones a nuevos individuos n  No predice el futuro n  Estima la clasificación en base a los datos con los que se entrena

Introducción a la Minería de Datos CRISP-DM

Ciclo CRISP-DM n  Comprensión del problema n  Comprensión datos n 
Preparación datos n  Modelado n  Evaluación n  Implantación n  Ciclo CRISP-DM (CRoss Industry Standard Process for DataMining)

Comprensión del problema n  Comprensión de los objetivos y requisitos
del proyecto. n  Comprensión del entorno del negocio n  Antecedentes n  Objetivos del negocio n  Criterios de éxito del proyecto (perspectiva del negocio) n  Formalización del problema n  Determinar los objetivos n  Plan de trabajo

Comprensión de los datos n  Análisis inicial de los datos
n  Conseguir el conjunto inicial de datos n Informe inicial sobre los datos disponibles n  Describir los datos n Informe con la descripción de los datos n  Explorar los datos n Informe acerca de la exploración de los datos n  Verificar la Calidad de los datos n Informe acerca de la calidad de los datos

Comprensión de los datos n  Métodos estadísticos y de visualización
n  Variables categóricas: n  Distribución de variables n  Histogramas n  Diagramas de tarta n  Variables cualitativas n  Media, varianza, moda n  Estudio de correlación n  Scaterplots, boxplots... 0 10 20 30 40 50 60 70 80 90 1er trim. 2do trim. 3er trim. Este Oeste Norte 0 10 20 30 40 50 60 70 80 90 100 0 2 4 6 Este Oeste Norte 1e r 2d o 3e r

Preparación de los datos n  Problema: Los datos reales están
“sucios” n  Datos pobres n  Incompletos: n Valores perdidos n Atributos o datos resumidos n  Ruido: n Errores n “Outliers” n  Inconsistentes: n Discrepancias en nombres y/o en los valores n Distintas fuentes

Modelado n  Aplicar diferentes técnicas para extraer los patrones n 
Selección de la técnica de modelado n  Técnica elegida n  Requisitos de la técnica elegida n  Generar un diseño de prueba n  Diseño de prueba n  Construir el modelo n  Parámetros elegidos n  Modelo y descripción n  Evaluar el modelo n  Evaluación del modelo n  Parámetros revisados

Evaluación n  Comprobar que los modelos tienen suficiente calidad para
ser usados n  Evaluar los resultados n  Revisión del proceso seguido n  Decisión sobre la implantación

Implantación n  Proporcionar al usuario el resultado del trabajo n 
El resultado del proceso depende del tipo de proyecto realizado n  Datos procesados Informes n  Programas de aplicación n  … n  Establecer un plan de monitorización y mantenimiento

Introducción a la Minería de Datos Algoritmos y técnicas

Limpieza de los datos n  Valores atípicos (“outliers”): n  Su
tratamiento depende de su naturaleza n  Se pueden eliminar en el proceso de carga n  Valores nulos n  Eliminar las observaciones con nulos n  Eliminar las variables con muchos nulos n  Estimar su valor n  Media n  Moda n  Estimación mediante modelos n  Inconsistencias n  Elegir valor más apropiado (más actual, media …) n  Ruido n  Método cubos n  Clustering n  Discretización n  Regresión

Limpieza de los datos n  Integración de datos n  Redundancias
e inconsistencias n  Transformación de los datos n  Normalización n  Agregación n  Reducción n  Discretización

Algoritmos y técnicas n  Clasificadores n  Estiman un parámetro de
la población (clase) n  Estimación n  Estima un valor continuo n  Ejemplos: n  K-Vecinos (K-Neighbours) n  Árboles de decisión: n  ID3 / C4.5 / C5.0 n  CART n  CHAID n  Redes neuronales n  Regresión n  Lineal n  Logística

Algoritmos y técnicas n  Asociación n  También llamado “Cesta de
la Compra” n  Determinar cosas que van juntas n  Segmentación n  Generan grupos de individuos similares entre sí n  Ejemplos: n K-Medias (K-Means) n 2-step n Mapas de Kohonen

Algoritmos de Clustering n  K-Medias 1.  Crear k centros de
forma aleatoria 2.  Asignar a cada individuo el centro más cercano (distancia euclídea) 3.  Recalcular los centros usando los individuos asignados a cada uno 4.  Si ha habido alguna variación repetir desde el paso 2

Algoritmos de Clasificación n  Modelo diferencia las entradas en base
a sus atributos n  Se necesita una etiqueta o clase Datos de entrenamiento Algoritmos de clasificación IF tipo = ‘Titular ’ OR años > 6 THEN fijo = ‘si ’ Clasificador (Modelo)

Algoritmos de Clasificación n  K-Vecinos n  Algoritmo más sencillo n 
No tiene fase de entrenamiento n  Para asignar la clase a un nuevo individuo, se calculan los individuos más cercanos (distancia euclídea) n Todos son de la misma clase se asigna dicha clase n Si hay mezcla: n  Valores discretos: votación, % de participación… n  Valores continuos: medias…

Algoritmos de Clasificación n  Árboles de inducción (ID3 / C4.5
/ C5.0) n  Muy eficientes en tiempo de proceso n  Resultados intuitivos n  Particiones lineales n  Algunos presentan problemas con variables continuas

Algoritmos de Clasificación n  Familia ID3 / C4.5 / C5.0
1.  Todos misma clase: Crea hoja de clase 2.  Si está vacío: Genera hoja clase desconocida 3.  Si hay distintas clases: a.  Se elige un atributo (criterio entropía) b.  Genera una rama por cada valor del atributo seleccionado c.  Repite el proceso desde el paso 1 para cada rama

Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 
K·N-fold n  Bootstrap

Validación n  Resustitución n  Aplicar el modelo a los datos
de entrada n  No es muy fiable (over-fitting) n  Leave-one-out n  Hold-out n  N-fold n  K·N-fold n  Bootstrap

Validación n  Resustitución n  Leave-one-out n  Entrenar con todos menos
con una instancia n  Validar la instancia n  Hold-out n  Generar dos conjuntos de datos n  Validar con uno y verificar con el otro n  N-fold n  K·N-fold n  Bootstrap

Generan N grupos n  Se entrena con N-1 y se valida con el restante n  Se valida cada uno de los grupos n  K·N-fold n  Repite K veces un N-fold n  Bootstrap

K·N-fold n  Bootstrap n  Se generan varias muestras de los datos n  Selección aleatoria con repetición

Selección de variables n  Wrapper n  Pasos 1.  Se eligen
un conjunto de atributos 2.  Entrenar con el conjunto y calcular el error del modelo (validación) 3.  Repetir desde el paso 1 hasta que se obtenga un error aceptable n  Optimiza para un modelo n  Filter n  Calcula una medida para cada atributo n  Independiente del modelo aplicable

Herramientas n  SPSS n  Herramienta meramente estadística n  Clementine n 
Suite completa n  Basada en el ciclo CRISP-DM n  Interfaz visual n  Weka n  Conjunto de algoritmos n  Interfaz gráfica reducida n  Implementación en Java

Introducción a la minería de datos

Introducción a la minería de datos

Oscar Cubo Medina

More Decks by Oscar Cubo Medina

Other Decks in Research

Featured

Transcript