Módulo III : Machine Learning con el ecosistema de Python

Capacitación SCG Módulo III : Machine Learning con el ecosistema
de Python 2025 Profesor Abraham Zamudio

1. Datos generales del curso Asignatura : Machine Learning con
el ecosistema de Python Horas : 24 hrs 2.Presentación El Imperativo de la Predicción en las Ciencias En las últimas décadas, el campo de las ciencias (exactas y sociales) han experimentado una transformación profunda, no sólo en sus objetos de estudio, sino en los métodos que utiliza para comprender la realidad humana. Tradicionalmente, las disciplinas como la Sociología, la Antropología, las Ciencias Políticas se han basado en marcos teóricos, análisis cualitativos, estudios de caso y métodos interpretativos para explorar fenómenos como la desigualdad, el poder, la cultura, la identidad y la acción colectiva. Sin embargo, en un mundo cada vez más medido (muchísimas fuentes de datos), digitalizado y modelado, surge una pregunta urgente: ¿puede la sociología predecir ? ¿Puede la antropología anticipar cambios culturales? ¿Puede la ciencia política pronosticar problemas electorales, conflictos sociales o políticas públicas efectivas? La respuesta no es sólo afirmativa, sino necesaria. El aparato matemático que sirve como base para el aprendizaje automático (machine learning), y en particular el aprendizaje supervisado, ha abierto nuevas posibilidades para que los profesionales de las ciencias sociales no sólo describan y expliquen (cómo lo que pudimos desarrollar en el módulo 2), sino que también anticipen. Este curso lo orientó en esa transición crítica: el paso de la inferencia descriptiva a la predicción matemática/estadística rigurosa, utilizando herramientas modernas de análisis de datos y matemática abstracta. Las primeras dos clases no son meras introducciones técnicas, sino puertas de entrada a un paradigma más amplio: el de la ciencia predictiva. A lo largo de esta introducción, profundizaremos en los fundamentos matemáticos de los modelos, sus aplicaciones más comunes en diversos contextos, y, de manera crucial, en cómo un expositor con experiencia académica y profesional en matemática aplicada, estadística computacional, ciencia de datos y desarrollo de software** puede transmitir estos conceptos complejos de forma clara, práctica y crítica en un tiempo tan limitado como ocho horas. Aprendizaje Supervisado: Más Allá del "Black Box : El término aprendizaje supervisado puede sonar intimidante, especialmente para quienes no provienen de áreas STEM. Sin embargo, en esencia, es una extensión natural de la lógica inferencial que ya conocen los estudiantes de ciencias sociales y que desarrollamos en el módulo anterior. En estadística inferencial, por ejemplo, se usa una muestra para estimar un parámetro poblacional. En el aprendizaje supervisado, se usa un conjunto de datos etiquetados (variable dependiente) para entrenar un modelo que luego predice valores desconocidos. El aprendizaje supervisado se divide en dos grandes categorías: 1. Clasificación: cuando la variable objetivo es categórica (ej: predecir si un votante apoyará al partido A o B, si una persona está en situación de pobreza o no, si un discurso es extremista o moderado). Abraham Zamudio

2. Regresión: cuando la variable objetivo es continua (ej: predecir
el nivel de desempleo en una región, el índice de corrupción en un distrito, la tasa de deserción escolar por provincia). La diferencia no solo se basa en la naturaleza matemática/estadística de la variable dependiente , sino epistemológica. La clasificación implica tomar decisiones discretas, a menudo con implicancias políticas y éticas (¿quién es elegible para un subsidio?). La regresión, por otro lado, permite modelar fenómenos que varían en grados, lo que es especialmente útil en contextos sociales donde las realidades son multidimensionales y no binarias. El Pipeline del Aprendizaje Supervisado: De la Pregunta de Investigación a la Predicción Uno de los errores más comunes al enseñar machine learning es comenzar por el modelo, por el algoritmo. Pero en las ciencias no exactas, todo análisis debe partir de una pregunta de investigación válida. Un modelo predictivo no es un fin en sí mismo; es una herramienta para responder a una interrogante social relevante. El pipeline típico del aprendizaje supervisado, como se plantea en el desarrollo del curso incluye los siguientes pasos: 1. Definición de la pregunta de investigación ◦ Ejemplo: ¿Qué factores predicen la deserción escolar en zonas rurales del Perú? 2. Selección y recolección de datos ◦ Fuentes: ENAHO, Censo Nacional, MINEDU, bases de ONGs. 3. Preprocesamiento de datos ◦ Limpieza, codificación, imputación, normalización. 4. División del conjunto de datos ◦ Entrenamiento (70%), Prueba (30%) 5. Entrenamiento del modelo ◦ Ajuste de parámetros usando el conjunto de entrenamiento. 6. Evaluación del modelo ◦ Métricas de rendimiento en el conjunto de prueba. 7. Interpretación y comunicación de resultados ◦ No solo "el modelo predice bien", sino: ¿qué variables son más importantes? ¿Qué implicancias tiene esto para algún aspecto social/político ? Este pipeline no es lineal, sino iterativo. Es común que, tras evaluar un modelo, se regrese al paso de preprocesamiento para mejorar la calidad de los datos o cambiar la selección de variables. Preprocesamiento Avanzado: El "80% del Trabajo" en Ciencia de Datos : Como se señala al observar el contenido de este curso , una parte fundamental del aprendizaje supervisado es el preprocesamiento de datos. De hecho, en la práctica profesional, se estima que entre el 60% y el 80% del tiempo en un proyecto de ciencia de datos se dedica a esta etapa. Para los profesionales, esta es una oportunidad de aplicar sus habilidades metodológicas: la codificación de variables, el manejo de datos faltantes y la Abraham Zamudio

transformación de escalas son tareas que se van a desarrollar
en este curso, pero que ahora se realizan con mayor escala, automatización y precisión. Codificación de Variables Categóricas : Las variables categóricas (como "nivel educativo", "región", "afiliación política") no pueden ser procesadas directamente por muchos algoritmos de machine learning, que requieren entradas numéricas. Por ello, se utilizan técnicas de codificación: One-Hot Encoding y Label Encoding son solo las tecnicas mas importantes. Manejo de Datos Faltantes (Imputación Estratégica) : Los datos sociales rara vez están completos. Faltan respuestas en encuestas, no se reportan indicadores en ciertos distritos, o hay errores de registro. Eliminar filas con datos faltantes puede sesgar el análisis, especialmente si los datos que faltan no son aleatorios (ej: en zonas de conflicto, los datos suelen ser escasos). La imputación estratégica implica reemplazar valores faltantes de forma informada. La elección depende del contexto. En un estudio sobre pobreza, imputar con la media nacional podría subestimar la realidad en zonas marginadas. Una imputación por región o distrito sería más justa. Normalización y Estandarización : Los modelos de regresión y otros algoritmos sensibles a la escala (como K-means o redes neuronales) requieren que las variables estén en rangos comparables. Si una variable está en escala 0–100 (como porcentaje de acceso a agua) y otra en miles (como ingreso mensual), el modelo dará más peso a la segunda, no porque sea más importante, sino por su escala. Para este aspecto podemos utilizar un par de estrategias bastante conocidas : MinMaxScaler y StandardScaler. En ciencias sociales, la elección de escalador puede afectar la interpretación de los coeficientes. Por ejemplo, en una regresión con variables estandarizadas, un coeficiente de 0.8 significa que un aumento de una desviación estándar en la variable independiente se asocia con un aumento de 0.8 desviaciones estándar en la dependiente. División de Datos: Entrenamiento, Validación y Prueba : Una de las prácticas más críticas en machine learning es la división del conjunto de datos. No se puede evaluar un modelo con los mismos datos con los que se entrenó; eso llevaría a un sobreajuste (overfitting), donde el modelo memoriza el ruido en lugar de aprender el patrón general. En contextos sociales, donde los datos pueden ser escasos, se usa a menudo validación cruzada (cross-validation), que divide los datos en k particiones y entrena el modelo k veces, cada vez usando una partición como prueba. Esto maximiza el uso de datos y mejora la robustez de la evaluación. La Experiencia del Expositor: Clave para la Compresión en Tiempo Reducido : Un curso de 24 horas para enseñar conceptos tan densos como el aprendizaje supervisado y la regresión múltiple y modelos más avanzados podría parecer insuficiente. Sin embargo, la experiencia del expositor es el factor decisivo que hace posible esta comprensión sin sacrificar la profundidad. Ética, Sesgos y Responsabilidad en la Predicción Social. Uno de los mayores riesgos del aprendizaje automático en contextos sociales es el reforzamiento de sesgos existentes. Un modelo entrenado con datos históricos de discriminación puede perpetuarla. Por ejemplo, un modelo que predice "riesgo de deserción escolar" podría penalizar a estudiantes de zonas pobres, no porque sean menos capaces, sino porque el sistema ha fallado con ellos. Por ello, el curso no solo enseña cómo construir modelos, sino por qué y para qué. Se discuten temas como: • Sesgo de selección: ¿los datos representan a todos los grupos sociales? Abraham Zamudio

• Fairness (equidad): ¿el modelo trata a todos los grupos
por igual? • Transparencia y reproducibilidad: ¿puede otro investigador replicar el análisis? • Impacto social: ¿cómo se usarán las predicciones? ¿Quién se beneficia? Estos temas no son ajenos a las ciencias sociales. De hecho, cursos como Teoría política contemporánea o Sociología del Desarrollo ya abordan cuestiones de justicia, poder y desigualdad. Este curso las conecta con las herramientas del siglo XXI. Hacia una Ciencia Social Predictiva y Crítica. Este curso no pretende convertir a los sociólogos en ingenieros de machine learning, ni a los politólogos en científicos de datos. Su objetivo es mucho más ambicioso: formar profesionales híbridos, capaces de: ➔ Plantear preguntas sociales profundas. ➔ Seleccionar y preparar datos relevantes. ➔ Aplicar modelos predictivos con rigor técnico. ➔ Interpretar resultados con sensibilidad crítica. ➔ Comunicar hallazgos con claridad y ética. En un mundo donde los gobiernos, las ONGs y las instituciones internacionales toman decisiones basadas en datos, es imperativo que los profesionales de las ciencias sociales no queden al margen. No se trata de adoptar ciegamente la lógica del "big data", sino de apropiarse críticamente, usando su poder analítico para visibilizar injusticias, evaluar políticas y fortalecer la democracia. La regresión lineal y los modelos más complejos, el preprocesamiento de datos, y en general, el aprendizaje supervisado no son solo herramientas técnicas; son extensiones del método científico. Y con la guía de un expositor con experiencia en ambos mundos —el teórico y el técnico—, es posible dominarlas en un tiempo reducido, no como recetas, sino como prácticas reflexivas y transformadoras. Este curso es, en última instancia, un llamado a no temer a las matemáticas (aplicadas) o a no temer a los datos, sino a dominarlos, interpretarlos y usarlos para construir sociedades más justas, equitativas y democráticas. Porque entender el mundo no basta: hay que predecirlo, intervenir y transformarlo. Y para hacerlo, necesitamos las herramientas del siglo XXI : Matemáticas y computadoras. 3.Objetivo general del curso Dotar a profesionales egresados de áreas no STEM de competencias prácticas y teóricas en aprendizaje supervisado y modelado predictivo con Python, con especial énfasis en la creación de modelos básicos y modelos más avanzados, para que puedan aplicar estos métodos en el análisis de fenómenos sociales, políticos y culturales, integrando el rigor matemático con la interpretación crítica y ética de los resultados. 4.Objetivos específicos del curso • Reforzar la conexión entre la estadística inferencial tradicional y el aprendizaje supervisado, permitiendo a los participantes comprender modelos de aprendizaje automático no sólo como una mera técnica operativa lineal, sino como un modelo predictivo con aplicaciones en distintas áreas. Abraham Zamudio

• Dominar el pipeline completo del aprendizaje supervisado, desde la
formulación de una pregunta hasta la generación de predicciones, pasando por la preparación, división y transformación de datos. • Aplicar técnicas avanzadas de preprocesamiento de datos en distintos contextos, incluyendo codificación de variables categóricas, imputación estratégica de datos faltantes y normalización de escalas, utilizando herramientas de Python como pandas, scikit-learn y numpy. • Implementar modelos en Python mediante la biblioteca scikit-learn, interpretando los coeficientes del modelo, evaluando su ajuste y validando sus supuestos estadísticos (linealidad, homocedasticidad, independencia, normalidad). • Evaluar el desempeño de modelos predictivos utilizando métricas como el coeficiente de determinación (R²), el error cuadrático medio (RMSE), el error absoluto medio (MAE) entre otros, así como mediante el análisis visual para diagnosticar problemas en el modelo. • Aplicar modelos de aprendizaje automático a problemas reales, como la predicción de desigualdad, deserción escolar, participación electoral o acceso a servicios, utilizando datos de fuentes oficiales y bases de datos internacionales. • Fomentar una actitud crítica hacia los modelos predictivos, discutiendo sus limitaciones, sesgos potenciales e implicancias éticas en contextos de toma de decisiones públicas y diseño de políticas sociales. 5.Resultados de aprendizaje Al finalizar el curso el alumno: • Diseñar un pipeline de aprendizaje supervisado completo • Preparar y limpiar conjuntos de datos para análisis predictivo, implementando técnicas de codificación, manejo de valores faltantes mediante imputación y transformación de variables para cumplir con los supuestos del modelo. • Dividir correctamente un conjunto de datos en muestras de entrenamiento, y prueba • Aplicar y ajustar modelos en Python usando scikit-learn, interpretando los coeficientes estimados. • Evaluar la calidad de un modelo mediante métricas adecuadas (R², RMSE, MAE, MAPE, ROC, etc) • Generar predicciones sobre nuevos datos utilizando un modelo entrenado, y comunicar los resultados de forma clara y responsable, destacando tanto el poder explicativo del modelo como sus limitaciones. • Integrar el análisis predictivo en procesos de investigación, utilizando modelos de aprendizaje automático para responder preguntas como: ◦ ¿Qué factores explican la variación en el acceso a servicios de salud entre regiones? ◦ ¿Cómo influyen la educación, el ingreso y la ubicación geográfica en la participación ciudadana? ◦ ¿Cuál es el impacto relativo de las políticas de vivienda en la reducción de la pobreza urbana? • Cuestionar críticamente el uso de modelos predictivos en diversos contextos, identificando riesgos como la falta de transparencia algorítmica y el uso indebido de predicciones para justificar malas decisiones. Abraham Zamudio

6.Metodología El desarrollo de las sesiones se efectuará mediante exposiciones
del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7. Contenido por Sesiones: # DE HORAS CONTENIDO 4hrs Fundamentos del Aprendizaje Supervisado y Preparación de Datos • Repaso crítico de estadística inferencial y su rol en la predicción. • Introducción al aprendizaje supervisado: clasificación vs. regresión. • Pipeline típico: desde la pregunta de investigación hasta la predicción. • Preprocesamiento avanzado: codificación de variables categóricas (One-Hot, Label), manejo de datos faltantes (imputación estratégica). • División de datos: entrenamiento, validación y prueba (train-test-split). • Normalización y estandarización: MinMaxScaler, StandardScaler. 4hrs Regresión Lineal y Múltiple con Aplicaciones Sociales • Fundamentos matemáticos de la regresión lineal simple y múltiple. • Supuestos del modelo: linealidad, homocedasticidad, independencia, normalidad. • Implementación con scikit-learn: ajuste, predicción, interpretación de coeficientes y análisis de resultados. • Evaluación: R², RMSE, MAE, análisis de residuos. 4hrs Modelos de Clasificación: Regresión Logística • Clasificación binaria y multiclase: conceptos y métricas (accuracy, precision, recall, F1-score, ROC-AUC). • Regresión logística: interpretación de odds ratios y probabilidades. • La técnica del barrido de Hiperparametros • Análisis e interpretación de resultados 4hrs Modelos de Clasificación:Árboles de Decisión Abraham Zamudio

• Árboles de decisión: entropía, ganancia de información, sobreajuste. •
Visualización de árboles y reglas de decisión. • Matriz de confusión y curva ROC: diagnóstico de desempeño. 4hrs Modelos Bagging : Random Forest • Ensemble methods: bagging (Random Forest) • Ventajas frente a modelos simples: reducción de varianza, mejor generalización. • Validación cruzada (k-fold): estimación robusta del desempeño. • Grid Search y Random Search para optimización de hiperparámetros. • Feature importance: interpretación social de variables clave. 4hrs Modelos Boosting : Gradient Boosting • Gradient Boosting y XGBoost • Ventajas frente a modelos simples: reducción de varianza, mejor generalización. • Validación cruzada (k-fold): estimación robusta del desempeño. • Grid Search y Random Search para optimización de hiperparámetros. • Feature importance: interpretación social de variables clave. • Prerrequisitos: Curso básico de Python Data Analytics con el ecosistema de Python Estadística Descriptiva y Estadística Inferencial 8.Bibliografía • Alpaydin, E. (2021). Machine learning. MIT press. • Semmelrock, H., Ross‐Hellauer, T., Kopeinik, S., Theiler, D., Haberl, A., Thalmann, S., & Kowald, D. (2025). Reproducibility in machine‐learning‐based research: Overview, barriers, and drivers. AI Magazine, 46(2), e70002. • Shi, H., Zhang, N., Caskurlu, S., & Na, H. (2025). Applications of Machine Learning for at‐Risk Student Prediction in Online Education: A 10‐Year Systematic Review of Literature. Journal of Computer Assisted Learning, 41(4), e70058. • Shinde, P. P., & Shah, S. (2018, August). A review of machine learning and deep learning applications. In 2018 Fourth international conference on computing communication control and automation (ICCUBEA) (pp. 1-6). IEEE. Abraham Zamudio

• El Mestari, S. Z., Lenzini, G., & Demirci, H.
(2024). Preserving data privacy in machine learning systems. Computers & Security, 137, 103605. • Rainio, O., Teuho, J., & Klén, R. (2024). Evaluation metrics and statistical tests for machine learning. Scientific Reports, 14(1), 6086. • Binson, V. A., Thomas, S., Subramoniam, M., Arun, J., Naveen, S., & Madhu, S. (2024). A review of machine learning algorithms for biomedical applications. Annals of Biomedical Engineering, 52(5), 1159-1183. • Forero-Corba, W., & Bennasar, F. N. (2024). Técnicas y aplicaciones del Machine Learning e Inteligencia Artificial en educación: una revisión sistemática. RIED-Revista Iberoamericana de Educación a Distancia, 27(1). • Barbierato, E., & Gatti, A. (2024). The challenges of machine learning: A critical review. Electronics, 13(2), 416. • Dritsas, E., & Trigka, M. (2025). Machine Learning and Data Science in Social Sciences: Methods, Applications, and Future Directions. IEEE Access. Abraham Zamudio

Módulo III : Machine Learning con el ecosistema...

Módulo III : Machine Learning con el ecosistema de Python

Abraham Zamudio

More Decks by Abraham Zamudio

Other Decks in Education

Featured

Transcript

Capacitación SCG Módulo III : Machine Learning con el ecosistema

1. Datos generales del curso Asignatura : Machine Learning con

2. Regresión: cuando la variable objetivo es continua (ej: predecir

transformación de escalas son tareas que se van a desarrollar

• Fairness (equidad): ¿el modelo trata a todos los grupos

• Dominar el pipeline completo del aprendizaje supervisado, desde la

6.Metodología El desarrollo de las sesiones se efectuará mediante exposiciones

• Árboles de decisión: entropía, ganancia de información, sobreajuste. •

• El Mestari, S. Z., Lenzini, G., & Demirci, H.