Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introducción a la minería de datos

Introducción a la minería de datos

Resumen genérico de minería de datos realizada en un seminario interno.

97e2a06893a9bd35392aa2b8a2f03aff?s=128

Oscar Cubo Medina

March 06, 2006
Tweet

Transcript

  1. Introducción a la Minería de Datos Oscar Cubo Medina ocubo@fi.upm.es

  2. Motivación n  Organizaciones producen y acumulan grandes cantidades de información

    n  Transacciones n  Clientes n  Procesos internos n  Digitalización de material previo n  … n  Esta información no es útil
  3. Minería de Datos (Data Mining) n  Minería de Datos es

    el análisis y exploración, por medios automáticos o semiautomáticos, de grandes cantidades de datos para descubrir conocimiento útil n  Patrones n  Reglas
  4. Posibles usos n  Detección de patrones n  Detectar perfiles n 

    Detectar segmentos n  Conocer a los clientes n  Detectar buenos clientes n  Detectar morosos n  Venta cruzada n  Optimización n  Mejora de respuesta n  Mejora de rendimiento de sistemas n  …
  5. ¿Qué hace realmente? n  Aplica algoritmos conocidos para encontrar patrones

    n  Los patrones deben tener semántica n  Precisa conocimiento del entorno n  Permite aplicar los patrones a nuevos individuos n  No predice el futuro n  Estima la clasificación en base a los datos con los que se entrena
  6. Introducción a la Minería de Datos CRISP-DM

  7. Ciclo CRISP-DM n  Comprensión del problema n  Comprensión datos n 

    Preparación datos n  Modelado n  Evaluación n  Implantación n  Ciclo CRISP-DM (CRoss Industry Standard Process for DataMining)
  8. Comprensión del problema n  Comprensión de los objetivos y requisitos

    del proyecto. n  Comprensión del entorno del negocio n  Antecedentes n  Objetivos del negocio n  Criterios de éxito del proyecto (perspectiva del negocio) n  Formalización del problema n  Determinar los objetivos n  Plan de trabajo
  9. Comprensión de los datos n  Análisis inicial de los datos

    n  Conseguir el conjunto inicial de datos n Informe inicial sobre los datos disponibles n  Describir los datos n Informe con la descripción de los datos n  Explorar los datos n Informe acerca de la exploración de los datos n  Verificar la Calidad de los datos n Informe acerca de la calidad de los datos
  10. Comprensión de los datos n  Métodos estadísticos y de visualización

    n  Variables categóricas: n  Distribución de variables n  Histogramas n  Diagramas de tarta n  Variables cualitativas n  Media, varianza, moda n  Estudio de correlación n  Scaterplots, boxplots... 0 10 20 30 40 50 60 70 80 90 1er trim. 2do trim. 3er trim. Este Oeste Norte 0 10 20 30 40 50 60 70 80 90 100 0 2 4 6 Este Oeste Norte 1e r 2d o 3e r
  11. Preparación de los datos n  Problema: Los datos reales están

    “sucios” n  Datos pobres n  Incompletos: n Valores perdidos n Atributos o datos resumidos n  Ruido: n Errores n “Outliers” n  Inconsistentes: n Discrepancias en nombres y/o en los valores n Distintas fuentes
  12. Modelado n  Aplicar diferentes técnicas para extraer los patrones n 

    Selección de la técnica de modelado n  Técnica elegida n  Requisitos de la técnica elegida n  Generar un diseño de prueba n  Diseño de prueba n  Construir el modelo n  Parámetros elegidos n  Modelo y descripción n  Evaluar el modelo n  Evaluación del modelo n  Parámetros revisados
  13. Evaluación n  Comprobar que los modelos tienen suficiente calidad para

    ser usados n  Evaluar los resultados n  Revisión del proceso seguido n  Decisión sobre la implantación
  14. Implantación n  Proporcionar al usuario el resultado del trabajo n 

    El resultado del proceso depende del tipo de proyecto realizado n  Datos procesados Informes n  Programas de aplicación n  … n  Establecer un plan de monitorización y mantenimiento
  15. Introducción a la Minería de Datos Algoritmos y técnicas

  16. Limpieza de los datos n  Valores atípicos (“outliers”): n  Su

    tratamiento depende de su naturaleza n  Se pueden eliminar en el proceso de carga n  Valores nulos n  Eliminar las observaciones con nulos n  Eliminar las variables con muchos nulos n  Estimar su valor n  Media n  Moda n  Estimación mediante modelos n  Inconsistencias n  Elegir valor más apropiado (más actual, media …) n  Ruido n  Método cubos n  Clustering n  Discretización n  Regresión
  17. Limpieza de los datos n  Integración de datos n  Redundancias

    e inconsistencias n  Transformación de los datos n  Normalización n  Agregación n  Reducción n  Discretización
  18. Algoritmos y técnicas n  Clasificadores n  Estiman un parámetro de

    la población (clase) n  Estimación n  Estima un valor continuo n  Ejemplos: n  K-Vecinos (K-Neighbours) n  Árboles de decisión: n  ID3 / C4.5 / C5.0 n  CART n  CHAID n  Redes neuronales n  Regresión n  Lineal n  Logística
  19. Algoritmos y técnicas n  Asociación n  También llamado “Cesta de

    la Compra” n  Determinar cosas que van juntas n  Segmentación n  Generan grupos de individuos similares entre sí n  Ejemplos: n K-Medias (K-Means) n 2-step n Mapas de Kohonen
  20. Algoritmos de Clustering n  K-Medias 1.  Crear k centros de

    forma aleatoria 2.  Asignar a cada individuo el centro más cercano (distancia euclídea) 3.  Recalcular los centros usando los individuos asignados a cada uno 4.  Si ha habido alguna variación repetir desde el paso 2
  21. Algoritmos de Clasificación n  Modelo diferencia las entradas en base

    a sus atributos n  Se necesita una etiqueta o clase Datos de entrenamiento Algoritmos de clasificación IF tipo = ‘Titular ’ OR años > 6 THEN fijo = ‘si ’ Clasificador (Modelo)
  22. Algoritmos de Clasificación n  K-Vecinos n  Algoritmo más sencillo n 

    No tiene fase de entrenamiento n  Para asignar la clase a un nuevo individuo, se calculan los individuos más cercanos (distancia euclídea) n Todos son de la misma clase se asigna dicha clase n Si hay mezcla: n  Valores discretos: votación, % de participación… n  Valores continuos: medias…
  23. Algoritmos de Clasificación n  Árboles de inducción (ID3 / C4.5

    / C5.0) n  Muy eficientes en tiempo de proceso n  Resultados intuitivos n  Particiones lineales n  Algunos presentan problemas con variables continuas
  24. Algoritmos de Clasificación n  Familia ID3 / C4.5 / C5.0

    1.  Todos misma clase: Crea hoja de clase 2.  Si está vacío: Genera hoja clase desconocida 3.  Si hay distintas clases: a.  Se elige un atributo (criterio entropía) b.  Genera una rama por cada valor del atributo seleccionado c.  Repite el proceso desde el paso 1 para cada rama
  25. Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 

    K·N-fold n  Bootstrap
  26. Validación n  Resustitución n  Aplicar el modelo a los datos

    de entrada n  No es muy fiable (over-fitting) n  Leave-one-out n  Hold-out n  N-fold n  K·N-fold n  Bootstrap
  27. Validación n  Resustitución n  Leave-one-out n  Entrenar con todos menos

    con una instancia n  Validar la instancia n  Hold-out n  Generar dos conjuntos de datos n  Validar con uno y verificar con el otro n  N-fold n  K·N-fold n  Bootstrap
  28. Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 

    Generan N grupos n  Se entrena con N-1 y se valida con el restante n  Se valida cada uno de los grupos n  K·N-fold n  Repite K veces un N-fold n  Bootstrap
  29. Validación n  Resustitución n  Leave-one-out n  Hold-out n  N-fold n 

    K·N-fold n  Bootstrap n  Se generan varias muestras de los datos n  Selección aleatoria con repetición
  30. Selección de variables n  Wrapper n  Pasos 1.  Se eligen

    un conjunto de atributos 2.  Entrenar con el conjunto y calcular el error del modelo (validación) 3.  Repetir desde el paso 1 hasta que se obtenga un error aceptable n  Optimiza para un modelo n  Filter n  Calcula una medida para cada atributo n  Independiente del modelo aplicable
  31. Herramientas n  SPSS n  Herramienta meramente estadística n  Clementine n 

    Suite completa n  Basada en el ciclo CRISP-DM n  Interfaz visual n  Weka n  Conjunto de algoritmos n  Interfaz gráfica reducida n  Implementación en Java