Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Silabo del curso PIT - Análisis exploratorio de...

Silabo del curso PIT - Análisis exploratorio de datos con R

Avatar for Abraham Zamudio

Abraham Zamudio

June 30, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. Silabo del curso PIT - Análisis exploratorio de datos con

    R 2025 ​ ​ Profesor Abraham Zamudio
  2. 1.​ Datos generales del curso Asignatura​ : Análisis exploratorio de

    datos con R Horas​ : 16 (4 hrs/clase) 2.​ Presentación En el panorama actual, donde la información fluye a una velocidad sin precedentes y se genera una cantidad masiva de datos cada segundo, la capacidad de extraer valor y conocimiento de esta avalancha de información se ha convertido en una habilidad no solo deseable, sino fundamental para profesionales en prácticamente cualquier sector. No importa si te encuentras en investigación científica,ingeniería, finanzas, marketing, salud, o incluso en campos aparentemente menos orientados a los datos como las artes o las humanidades; la habilidad para comprender, procesar y comunicar perspicacias derivadas de los datos te posiciona en una ventaja competitiva significativa. Este curso lo he diseñado específicamente para personas con un conocimiento básico del lenguaje de programación R , que ya conocen algunos de los conceptos más básicos de la estadística . Supondré que ya te sientes cómodo con la sintaxis básica, la creación de variables, el uso de funciones, las estructuras de datos fundamentales como vectores, matrices, e incluso, posiblemente, ya has realizado tus primeros scripts o pequeños proyectos. Reconozco que tu motivación es ir más allá de lo básico, no solo para ejecutar comandos, sino para comprender la lógica detrás de cada paso en el proceso de análisis y, lo que es más importante, para interpretar los resultados de manera crítica y utilizarlos para informar decisiones. A lo largo de este curso, explicaremos la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining), un marco de trabajo ampliamente reconocido que te guiará de manera estructurada a través de las diferentes fases de un proyecto de minería de datos o ciencia de datos, desde la comprensión del negocio y los datos hasta el despliegue de los resultados. Aprender a aplicar esta metodología te permitirá abordar cualquier proyecto de análisis de datos de manera organizada y eficiente, maximizando las probabilidades de éxito. Uno de los pilares de este curso será la inmersión profunda en el Tidyverse, un ecosistema de paquetes de R diseñado para hacer que la ciencia de datos sea más sencilla, consistente y divertida. Olvídate de los enfoques fragmentados; con paquetes como dplyr para la manipulación de datos, ggplot2 para la visualización, tidyr para la limpieza y reestructuración, y readr para la importación, mi manera de usar Tidyverse te proporcionará un flujo de trabajo cohesivo y elegante que te permitirá transformar datos crudos en visualizaciones muy comunicativas con una eficiencia sorprendente. No solo te enseñaré a usar estas herramientas, sino que entenderás la filosofía "tidy data" que las sustenta, lo que te permitirá escribir código más limpio, legible y reproducible. Además de las herramientas, nos centraremos en el desarrollo de un pensamiento analítico crítico. No se trata solo de aplicar funciones, sino de saber qué pregunta hacer a los datos, cómo seleccionar la técnica adecuada para responder y cómo evaluar la validez y las limitaciones de tus hallazgos. Abordaremos temas esenciales como la estadística descriptiva, que te permitirá caracterizar tus datos de manera robusta, y la estadística Abraham Zamudio
  3. inferencial, que te equipará para hacer generalizaciones sobre una población

    a partir de una muestra, una habilidad crucial para la investigación y la toma de decisiones basada en evidencia. Esto incluye una introducción práctica a los conceptos de probabilidad y a las pruebas de hipótesis, herramientas fundamentales para validar suposiciones y comparar grupos de datos. Finalmente, el curso te abrirá las puertas a la manipulación y visualización de datos con componentes temporales y espaciales, ampliando drásticamente el tipo de problemas que podrás abordar. La capacidad de analizar series de tiempo es vital para predecir fenómenos económicos, patrones climáticos o el comportamiento de sistemas a lo largo del tiempo. De igual forma, la visualización de datos espaciales te permitirá identificar patrones geográficos, analizar distribuciones de eventos y tomar decisiones informadas sobre ubicaciones. Al finalizar estas cuatro clases, no solo expandimos tu conjunto de habilidades, sino que también desarrollarás una perspectiva más holística y multidimensional en tus análisis, preparándote para enfrentar los desafíos de los conjuntos de datos complejos del mundo real. 3.​ Objetivo general del curso Capacitar a los participantes con conocimientos básicos de programación en R para que adquieran las habilidades, técnicas y metodologías fundamentales del análisis de datos, permitiéndoles transformar datos brutos en conocimiento significativo, realizar análisis exploratorios, aplicar principios de probabilidad y estadística inferencial, y abordar la visualización de datos temporales y espaciales de manera efectiva y profesional utilizando el lenguaje R y su ecosistema Tidyverse. 4.​ Objetivos específicos del curso •​ Dominar las herramientas clave del Tidyverse para la manipulación y visualización de datos •​ Aplicar la metodología CRISP-DM en proyectos de análisis de datos •​ Fundamentar el análisis de datos en principios de probabilidad y estadística inferencial •​ Realizar análisis exploratorios avanzados y generar visualizaciones perspicaces •​ Extender las capacidades de análisis a datos temporales y espaciales 5.​ Resultados de aprendizaje Al finalizar el curso el alumno: •​ Aplica de manera útil las características que tiene el lenguaje de programación R a problemas reales que requieren un análisis más profundo. •​ Saber cómo explotar las características inherentes de la estadística descriptiva e inferencial •​ Conoce y es capaz de implementar algoritmos para resolver problemas prácticos. •​ Identifica, selecciona y combina los algoritmos enseñados en el curso, y los aplica en casos de interés para su carrera y/o trabajo. 6.​ Metodología Abraham Zamudio
  4. El desarrollo de las sesiones se efectuará mediante exposiciones del

    profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7.​ Contenido por Sesiones: # DE HORAS CONTENIDO 4hrs Sesión 1 : Primeros pasos en el análisis de datos con R •​ Una introduccion al analisis exploratorio de datos •​ Metodología CRISP-DM •​ El conjunto de paquetes TidyVerse •​ Gestión de dataframes usando Dplyr 4hrs Sesión 2 : Análisis exploratorio •​ Estadistica descriptiva univariada usando ggplot •​ Estadistica descriptiva bivariada usando ggplot 4hrs Sesión 3 : Probabilidad y Estadística inferencial •​ Variables Aleatorias y Distribuciones de Probabilidad •​ Prueba de Hipótesis 4hrs Sesión 4 : Datos temporales y Espaciales •​ Visualizacion de series de tiempo usando ggplot •​ Visualizacion de datos espaciales usando ggplot ​ •​ Prerrequisitos:​ Estadística Descriptiva Fundamentos de Programación en R [PIT] 8.​ Bibliografía •​ Fortino, A. (2023). Data mining and predictive analytics for business decisions: a case study approach. •​ •​ Schröer, C., Kruse, F., & Gómez, J. M. (2021). A systematic literature review on applying CRISP-DM process model. Procedia Computer Science, 181, 526-534. Abraham Zamudio
  5. •​ Peker, S., & Kart, Ö. (2023). Transactional data-based customer

    segmentation applying CRISP-DM methodology: A systematic review. Journal of Data, Information and Management, 5(1), 1-21. •​ Saltz, J. S. (2021, December). CRISP-DM for data science: strengths, weaknesses and potential next steps. In 2021 IEEE International Conference on Big Data (Big Data) (pp. 2337-2344). IEEE. •​ Brzozowska, J., Pizoń, J., Baytikenova, G., Gola, A., Zakimova, A., & Piotrowska, K. (2023). Data engineering in CRISP-DM process production data–case study. Applied Computer Science, 19(3). •​ Cazacu, M., & Titan, E. (2021). Adapting CRISP-DM for social sciences. BRAIN. Broad Research in Artificial Intelligence and Neuroscience, 11(2Sup1), 99-106. Abraham Zamudio