Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introducción a la minería de datos

Introducción a la minería de datos

Resumen genérico de minería de datos realizada en un seminario interno.

Oscar Cubo Medina

March 06, 2006
Tweet

More Decks by Oscar Cubo Medina

Other Decks in Research

Transcript

  1. Motivación n  Organizaciones producen y acumulan grandes cantidades de información

    n  Transacciones n  Clientes n  Procesos internos n  Digitalización de material previo n  … n  Esta información no es útil
  2. Minería de Datos (Data Mining) n  Minería de Datos es

    el análisis y exploración, por medios automáticos o semiautomáticos, de grandes cantidades de datos para descubrir conocimiento útil n  Patrones n  Reglas
  3. Posibles usos n  Detección de patrones n  Detectar perfiles n 

    Detectar segmentos n  Conocer a los clientes n  Detectar buenos clientes n  Detectar morosos n  Venta cruzada n  Optimización n  Mejora de respuesta n  Mejora de rendimiento de sistemas n  …
  4. ¿Qué hace realmente? n  Aplica algoritmos conocidos para encontrar patrones

    n  Los patrones deben tener semántica n  Precisa conocimiento del entorno n  Permite aplicar los patrones a nuevos individuos n  No predice el futuro n  Estima la clasificación en base a los datos con los que se entrena
  5. Ciclo CRISP-DM n  Comprensión del problema n  Comprensión datos n 

    Preparación datos n  Modelado n  Evaluación n  Implantación n  Ciclo CRISP-DM (CRoss Industry Standard Process for DataMining)
  6. Comprensión del problema n  Comprensión de los objetivos y requisitos

    del proyecto. n  Comprensión del entorno del negocio n  Antecedentes n  Objetivos del negocio n  Criterios de éxito del proyecto (perspectiva del negocio) n  Formalización del problema n  Determinar los objetivos n  Plan de trabajo
  7. Comprensión de los datos n  Análisis inicial de los datos

    n  Conseguir el conjunto inicial de datos n Informe inicial sobre los datos disponibles n  Describir los datos n Informe con la descripción de los datos n  Explorar los datos n Informe acerca de la exploración de los datos n  Verificar la Calidad de los datos n Informe acerca de la calidad de los datos
  8. Comprensión de los datos n  Métodos estadísticos y de visualización

    n  Variables categóricas: n  Distribución de variables n  Histogramas n  Diagramas de tarta n  Variables cualitativas n  Media, varianza, moda n  Estudio de correlación n  Scaterplots, boxplots... 0 10 20 30 40 50 60 70 80 90 1er trim. 2do trim. 3er trim. Este Oeste Norte 0 10 20 30 40 50 60 70 80 90 100 0 2 4 6 Este Oeste Norte 1e r 2d o 3e r
  9. Preparación de los datos n  Problema: Los datos reales están

    “sucios” n  Datos pobres n  Incompletos: n Valores perdidos n Atributos o datos resumidos n  Ruido: n Errores n “Outliers” n  Inconsistentes: n Discrepancias en nombres y/o en los valores n Distintas fuentes
  10. Modelado n  Aplicar diferentes técnicas para extraer los patrones n 

    Selección de la técnica de modelado n  Técnica elegida n  Requisitos de la técnica elegida n  Generar un diseño de prueba n  Diseño de prueba n  Construir el modelo n  Parámetros elegidos n  Modelo y descripción n  Evaluar el modelo n  Evaluación del modelo n  Parámetros revisados
  11. Evaluación n  Comprobar que los modelos tienen suficiente calidad para

    ser usados n  Evaluar los resultados n  Revisión del proceso seguido n  Decisión sobre la implantación
  12. Implantación n  Proporcionar al usuario el resultado del trabajo n 

    El resultado del proceso depende del tipo de proyecto realizado n  Datos procesados Informes n  Programas de aplicación n  … n  Establecer un plan de monitorización y mantenimiento
  13. Limpieza de los datos n  Valores atípicos (“outliers”): n  Su

    tratamiento depende de su naturaleza n  Se pueden eliminar en el proceso de carga n  Valores nulos n  Eliminar las observaciones con nulos n  Eliminar las variables con muchos nulos n  Estimar su valor n  Media n  Moda n  Estimación mediante modelos n  Inconsistencias n  Elegir valor más apropiado (más actual, media …) n  Ruido n  Método cubos n  Clustering n  Discretización n  Regresión
  14. Limpieza de los datos n  Integración de datos n  Redundancias

    e inconsistencias n  Transformación de los datos n  Normalización n  Agregación n  Reducción n  Discretización
  15. Algoritmos y técnicas n  Clasificadores n  Estiman un parámetro de

    la población (clase) n  Estimación n  Estima un valor continuo n  Ejemplos: n  K-Vecinos (K-Neighbours) n  Árboles de decisión: n  ID3 / C4.5 / C5.0 n  CART n  CHAID n  Redes neuronales n  Regresión n  Lineal n  Logística
  16. Algoritmos y técnicas n  Asociación n  También llamado “Cesta de

    la Compra” n  Determinar cosas que van juntas n  Segmentación n  Generan grupos de individuos similares entre sí n  Ejemplos: n K-Medias (K-Means) n 2-step n Mapas de Kohonen
  17. Algoritmos de Clustering n  K-Medias 1.  Crear k centros de

    forma aleatoria 2.  Asignar a cada individuo el centro más cercano (distancia euclídea) 3.  Recalcular los centros usando los individuos asignados a cada uno 4.  Si ha habido alguna variación repetir desde el paso 2
  18. Algoritmos de Clasificación n  Modelo diferencia las entradas en base

    a sus atributos n  Se necesita una etiqueta o clase Datos de entrenamiento Algoritmos de clasificación IF tipo = ‘Titular ’ OR años > 6 THEN fijo = ‘si ’ Clasificador (Modelo)
  19. Algoritmos de Clasificación n  K-Vecinos n  Algoritmo más sencillo n 

    No tiene fase de entrenamiento n  Para asignar la clase a un nuevo individuo, se calculan los individuos más cercanos (distancia euclídea) n Todos son de la misma clase se asigna dicha clase n Si hay mezcla: n  Valores discretos: votación, % de participación… n  Valores continuos: medias…
  20. Algoritmos de Clasificación n  Árboles de inducción (ID3 / C4.5

    / C5.0) n  Muy eficientes en tiempo de proceso n  Resultados intuitivos n  Particiones lineales n  Algunos presentan problemas con variables continuas
  21. Algoritmos de Clasificación n  Familia ID3 / C4.5 / C5.0

    1.  Todos misma clase: Crea hoja de clase 2.  Si está vacío: Genera hoja clase desconocida 3.  Si hay distintas clases: a.  Se elige un atributo (criterio entropía) b.  Genera una rama por cada valor del atributo seleccionado c.  Repite el proceso desde el paso 1 para cada rama
  22. Validación n  Resustitución n  Aplicar el modelo a los datos

    de entrada n  No es muy fiable (over-fitting) n  Leave-one-out n  Hold-out n  N-fold n  K·N-fold n  Bootstrap
  23. Validación n  Resustitución n  Leave-one-out n  Entrenar con todos menos

    con una instancia n  Validar la instancia n  Hold-out n  Generar dos conjuntos de datos n  Validar con uno y verificar con el otro n  N-fold n  K·N-fold n  Bootstrap
  24. Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 

    Generan N grupos n  Se entrena con N-1 y se valida con el restante n  Se valida cada uno de los grupos n  K·N-fold n  Repite K veces un N-fold n  Bootstrap
  25. Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 

    K·N-fold n  Bootstrap n  Se generan varias muestras de los datos n  Selección aleatoria con repetición
  26. Selección de variables n  Wrapper n  Pasos 1.  Se eligen

    un conjunto de atributos 2.  Entrenar con el conjunto y calcular el error del modelo (validación) 3.  Repetir desde el paso 1 hasta que se obtenga un error aceptable n  Optimiza para un modelo n  Filter n  Calcula una medida para cada atributo n  Independiente del modelo aplicable
  27. Herramientas n  SPSS n  Herramienta meramente estadística n  Clementine n 

    Suite completa n  Basada en el ciclo CRISP-DM n  Interfaz visual n  Weka n  Conjunto de algoritmos n  Interfaz gráfica reducida n  Implementación en Java