Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Silabo del curso : Estadística descriptiva e in...

Silabo del curso : Estadística descriptiva e inferencial con Python

Avatar for Abraham Zamudio

Abraham Zamudio

September 25, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. 1.​ Datos generales del curso Asignatura​ : Estadística descriptiva e

    inferencial con Python Horas​ : 36 horas 2.​ Presentación Esta no es solo la presentación de un curso. Es más bien una invitación, una puerta de entrada, un camino del empoderamiento intelectual en uno de los momentos más decisivos de la historia de la humanidad: la era de la inteligencia artificial. El título del curso es aparentemente modesto: Estadística Descriptiva e Inferencial con Python. Pero lo que encierra este nombre es mucho más profundo. Es el inicio de una revolución personal y profesional. Es el punto de partida para convertirse en ciudadanos críticos, investigadores rigurosos y tomadores de decisiones basados en evidencia en un mundo donde los datos no son simplemente información, sino poder. Este curso no enseña fórmulas ni códigos por obligación. Enseña a pensar con datos. Enseña a preguntar mejor. Enseña a dudar con fundamento. Y sobre todo, enseña a transformar la incertidumbre en conocimiento. Y lo hace con las dos herramientas más poderosas de nuestro tiempo: •​ La matemática aplicada (estadística), heredera del pensamiento científico desde Galileo, Fisher, Pearson y Bayes. •​ El lenguaje de programación Python, heredero del movimiento de código abierto, democratizador del conocimiento técnico. Este curso es en principio: el primer escalón sólido, bien fundamentado, técnicamente riguroso y pedagógicamente diseñado para quienes desean entender cómo funciona el mundo moderno —y cómo pueden cambiarlo. ¿Por qué hoy necesitamos dominar la matemática aplicada (estadística) y Python?​ •​ Imaginen por un momento un médico que prescribe antibióticos sin entender los estudios clínicos que los respaldan. •​ Un político que aprueba una reforma educativa sin analizar su impacto en poblaciones vulnerables. •​ Un periodista que publica tendencias sociales sin verificar si los datos provienen de una muestra representativa. •​ Un ingeniero que diseña una infraestructura sin modelar las variaciones climáticas extremas. •​ Un economista que pronostica inflación sin considerar el error estándar de sus estimaciones.​ ¿Qué tienen en común todos estos escenarios? Una falla crítica: la falta de razonamiento estadístico.​ ​ Y en la era de la inteligencia artificial, esa falla ya no es solo un vacío académico. Es un riesgo existencial para la democracia, la equidad y la verdad. Hoy, algoritmos deciden quién obtiene un préstamo, quién accede a una beca, quién es monitoreado por cámaras de vigilancia, quién recibe tratamiento médico prioritario. Estos sistemas no “piensan” por sí solos. Se entrenan con datos. Y esos datos están llenos de sesgos, errores, omisiones y estructuras ocultas que sólo pueden descifrarse con una mirada estadística entrenada. Por eso, aprender estadística descriptiva e inferencial no es un lujo académico. Es una competencia fundamental de la ciudadanía en el siglo XXI.​
  2. Pero no basta con saber estadística. También debemos saber cómo

    aplicarla. Y aquí entra Python. Python no es solo uno de los lenguajes de programación mas usados en nuestra sociedad. Es una plataforma de liberación intelectual. Por primera vez en la historia, cualquier persona con acceso a una computadora puede:​ •​ Cargar millones de registros •​ Calcular medidas descriptivas en micro segundos •​ Visualizar patrones complejos •​ Probar hipótesis con precisión •​ Construir modelos predictivos​ Sin necesidad de licencias costosas, sin depender de interfaces opacas, sin estar atados a software privativo. Python, junto con su ecosistema (pandas, numpy, matplotlib, scipy, statsmodels y scikit-learn), ha democratizado el análisis de datos. Y este curso lo pone al alcance de todos. Una Propuesta Interdisciplinaria para Todos los Perfiles Universitarios y Profesionales. Uno de los grandes errores en la educación actual es creer que la matemática y la programación son solo para “matemáticos” o “ingenieros”. Nada más alejado de la realidad. La matemática (y de manera más puntual : la estadística) es tan esencial para un sociólogo que estudia la desigualdad como para un biólogo que secuencia genomas, tan relevante para un lingüista que analiza corpus textuales como para un historiador que compara series temporales de conflictos sociales. Este curso está diseñado específicamente para estudiantes de ciencias sociales, ciencias exactas, ingenierías y letras, con al menos tres años de formación universitaria. ¿Por qué este perfil? Porque son ustedes quienes están en la línea de fuego entre el conocimiento técnico y el impacto social. Ustedes no solo consumen datos: los interpretan, los comunican, los usan para argumentar, para transformar realidades. Un estudiante de psicología necesita saber si una terapia cognitivo-conductual es significativamente más efectiva que otra. Un economista debe evaluar si una política fiscal tuvo un impacto real en el empleo. Un politólogo desea saber si hay asociación entre nivel educativo y participación electoral. Un ingeniero civil requiere estimar intervalos de confianza para la resistencia de un material. Un filólogo puede usar correlaciones para estudiar evolución léxica en distintas regiones. Todos ellos, sin excepción, necesitan de la matemática aplicada (estadística inferencial). No como una asignatura olvidada en algún semestre de su formación profesional, sino como una herramienta viva, práctica, aplicable. Y Python no es un obstáculo. Es un aliado. Por eso, el curso comienza desde cero: con una introducción accesible a pandas y numpy, usando entornos como Google Colab, eliminando barreras tecnológicas. Se exige experiencia básica en programación, es decir, haber aprobado un curso introductorio de python. Estructura del Curso: 12 Clases de Transformación Intelectual. El curso dura 36 horas, distribuidas en 12 clases de 3 horas cada una. Cada sesión es una inmersión completa: teoría, práctica, discusión y aplicación inmediata. Nada de esperar semanas para ver resultados. Desde la primera clase, ustedes trabajarán con datos reales, harán gráficos, calcularán estadísticos, probarán hipótesis. La proporción del contenido está cuidadosamente equilibrada: •​ 40% estadística descriptiva
  3. •​ 60% estadística Esta decisión no es arbitraria. Responde a

    una realidad: muchos cursos de estadística se quedan en la descripción. Muestran promedios, hacen histogramas, calculan correlaciones… pero nunca cruzan el umbral de la inferencia. Nunca responden la pregunta más importante: ¿esto que veo en mi muestra, ocurre realmente en la población? Nosotros no nos quedamos en la superficie. Vamos más allá. Vamos a construir intervalos de confianza que nos permitan estimar parámetros poblacionales con incertidumbre cuantificada.​ Vamos a realizar pruebas de hipótesis para decidir si una diferencia observada es real o fruto del azar.​ Vamos a aplicar modelos de regresión que no sólo predicen, sino que ofrecen inferencia sobre la significancia de cada variable. Y todo, siempre, con Python como compañero de viaje. 3.​ Objetivo general del curso ​ Dotar a estudiantes universitarios y profesionales de diversas disciplinas —ciencias sociales, ciencias exactas, ingenierías y letras— de competencias sólidas en estadística descriptiva e inferencial mediante la implementación práctica con el lenguaje de programación Python, para que puedan analizar, interpretar, visualizar y tomar decisiones basadas en datos con rigor científico, sentando así las bases necesarias para su formación como científicos de datos y su incorporación crítica y efectiva en el campo de la inteligencia artificial y la ciencia de datos. 4.​ Objetivos específicos del curso​ •​ Explorar y describir conjuntos de datos reales utilizando medidas de tendencia central, dispersión, posición y forma, aplicando pandas y numpy para el análisis eficiente y reproducible de variables cualitativas y cuantitativas. •​ Visualizar distribuciones y relaciones entre variables mediante gráficos estadísticos avanzados (histogramas, boxplots, mapas de calor, etc.) usando matplotlib y seaborn, comunicando hallazgos con claridad, rigor y buenas prácticas de diseño visual. •​ Aplicar fundamentos de probabilidad y muestreo para comprender la incertidumbre estadística, simular distribuciones clave (normal, binomial, t, etc.) y justificar la validez de la generalización de resultados desde una muestra a una población. •​ Estimar parámetros poblacionales y contrastar hipótesis mediante la construcción de intervalos de confianza y la ejecución de pruebas estadísticas paramétricas (t-test, ANOVA) y no paramétricas (Mann-Whitney, Kruskal-Wallis), validando supuestos y evitando interpretaciones erróneas. •​ Modelar relaciones lineales entre variables mediante regresión simple y múltiple, interpretando coeficientes, evaluando bondad de ajuste (R2), diagnosticando supuestos y detectando problemas como multicolinealidad usando métricas como el VIF. •​ Integrar todo el proceso de análisis de datos —desde la exploración inicial hasta la inferencia estadística— en un proyecto final coherente, utilizando Python como herramienta única para manipular datos, generar evidencia estadística y comunicar conclusiones con impacto. 5.​ Resultados de aprendizaje Al finalizar el curso el alumno: •​ Comprende la naturaleza de los problemas que se encuentran en áreas aplicadas
  4. •​ Utiliza pragmáticamente las técnicas enseñadas en clase para sus

    propias necesidades. 6.​ Metodología El desarrollo de las sesiones se efectuará mediante exposiciones del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7.​ Contenido por Clases : # DE HORAS CONTENIDO 3hrs. Introducción a la Ciencia de Datos y Fundamentos de Python •​ ¿Qué es la ciencia de datos? Papel de la matemática aplicada en la era de la IA. •​ Tipos de datos: cualitativos vs. cuantitativos, estructurados vs. no estructurados. •​ Estructura de un proyecto de análisis de datos (EDA, limpieza, modelado, reporting). •​ Introducción a numpy y pandas 3hrs Estadística Descriptiva I – Tendencia Central y Frecuencias •​ Tipos de variables: nominal, ordinal, discreta, continua. •​ Tablas de frecuencias absolutas y relativas (pd.crosstab). •​ Medidas de tendencia central: media, mediana, moda. •​ Cuartiles, percentiles y rango intercuartílico (IQR). 3hrs. Estadística Descriptiva II – Dispersión y Forma •​ Rango, varianza, desviación estándar (interpretación práctica). •​ Coeficiente de variación (CV): comparar dispersión entre variables distintas. •​ Asimetría (skewness) y kurtosis: interpretación intuitiva. •​ Detección de outliers con IQR y diagramas de caja (boxplots). 3hrs Visualización Estadística Avanzada •​ Histogramas, densidades, boxplots, violin plots, strip plots. •​ Diagramas de barras apiladas y agrupadas para variables categóricas. •​ Gráficos múltiples con subplots. •​ Buenas prácticas de visualización: etiquetas, colores, título claro. •​ Personalización con matplotlib y seaborn. 3hrs Relaciones entre Variables
  5. •​ Tablas de contingencia y porcentajes cruzados. •​ Chi-cuadrado: idea

    intuitiva (independencia entre variables categóricas). •​ Covarianza y correlación de Pearson: interpretación y limitaciones. •​ Matrices de correlación y mapas de calor (heatmap). •​ Atención a correlación espuria y causalidad. 3hrs Fundamentos de Probabilidad y Distribuciones •​ Espacio muestral, eventos, reglas básicas de probabilidad. •​ Probabilidad condicional, independencia, teorema de Bayes (intuitivo). •​ Variables aleatorias discretas y continuas. •​ Distribuciones clave: •​ Binomial (éxito/falla) •​ Normal (campana de Gauss) •​ t de Student, chi-cuadrado, F •​ Simulaciones con el submódulo numpy.random. 3hrs Muestreo e Intervalos de Confianza •​ Población vs. muestra: importancia del muestreo representativo. •​ Tipos de muestreo: aleatorio simple, estratificado, sistemático. •​ Error muestral y sesgo. •​ Teorema del Límite Central (TLC): explicación visual y simulación. •​ Construcción de intervalos de confianza (IC) para la media. •​ Interpretación correcta del IC (¡no es probabilidad!). •​ Implementación con scipy.stats.t.interval o bootstrap. 3hrs Pruebas de Hipótesis – Una Muestra •​ Hipótesis nula (H₀) vs. alternativa (H₁). •​ Nivel de significancia (α), p-value: ¿qué significa "p < 0.05"? •​ Errores tipo I y II: implicaciones prácticas (falsos positivos/negativos). •​ Prueba z y t para media poblacional. •​ Prueba para proporción 3hrs Comparación de Dos o Más Grupos •​ Prueba t para dos muestras independientes •​ Prueba t pareada (antes-después: evaluación de programas). •​ ANOVA de una vía: comparar más de dos grupos •​ Supuestos: normalidad (Shapiro-Wilk), homocedasticidad (Levene). •​ Post-hoc: corrección de Bonferroni/Tukey. 3hrs Métodos No Paramétricos •​ ¿Cuándo usar métodos no paramétricos? (datos ordinales, no normales). •​ Mann-Whitney U (alternativa a t-test independiente). •​ Wilcoxon signed-rank (para datos pareados). •​ Kruskal-Wallis (alternativa a ANOVA). •​ Ventajas y limitaciones frente a pruebas paramétricas. 3hrs. Regresión Lineal Simple e Inferencia Objetivo: Modelar relaciones lineales con inferencia estadística.
  6. •​ Modelo: Y=β0​ +β1​ X+ε •​ Estimación por mínimos cuadrados

    (OLS). •​ Interpretación de intercepto y pendiente. •​ Coeficiente de determinación R2 : bondad de ajuste. •​ Inferencia sobre coeficientes: intervalos de confianza y p-values. •​ Supuestos del modelo: linealidad, homocedasticidad, normalidad de residuos. •​ Diagnóstico con gráficos de residuos. 3hrs. Regresión Múltiple e Inferencia Estadística Avanzada •​ De lo simple a lo múltiple: ampliando el modelo •​ Implementación con statsmodels y scikit-learn •​ Diagnóstico de problemas clave •​ Inferencia y predicción con incertidumbre •​ Validación visual de supuestos ​ Prerrequisitos :​ 1.​ Conocimientos básicos sobre programación en Python 8.​ Bibliografía 1)​ Stapor, K. (2020). Descriptive and inferential statistics. In Introduction to probabilistic and statistical methods with examples in R (pp. 63-131). Cham: Springer International Publishing. 2)​ Byrne, G. (2007). A statistical primer: Understanding descriptive and inferential statistics. 3)​ van Elst, H. (2013). Foundations of descriptive and inferential statistics. arXiv preprint arXiv:1302.2525. 4)​ Devore, J. L., Berk, K. N., & Carlton, M. A. (2021). Modern mathematical statistics with applications. Springer Nature. 5)​ Mertler, C. A., Vannatta, R. A., & LaVenia, K. N. (2021). Advanced and multivariate statistical methods: Practical application and interpretation. Routledge. 6)​ Krieglstein, F., Beege, M., Rey, G. D., Sanchez-Stockhammer, C., & Schneider, S. (2023). Development and validation of a theory-based questionnaire to measure different types of cognitive load. Educational Psychology Review, 35(1), 9.