Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Módulo II : Data Analytics con el ecosistema de...

Módulo II : Data Analytics con el ecosistema de Python

Avatar for Abraham Zamudio

Abraham Zamudio

September 09, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. Capacitación SCG Módulo II : Data Analytics con el ecosistema

    de Python 2025 ​ ​ Profesor Abraham Zamudio
  2. 1.​ Datos generales del curso Asignatura​ : Data Analytics con

    el ecosistema de Python Horas​ : 24 hrs + 8 hrs (OPCIONALES a elección del cliente) 2.​Presentación La inteligencia empresarial (BI) y el análisis de datos están interconectados, siendo el análisis de datos un componente clave en una estrategia de BI para interpretar los datos y facilitar la toma de decisiones. Mientras que la BI se centra en presentar datos históricos y actuales mediante informes y paneles para responder a preguntas como "¿qué sucedió?" y "¿cómo está sucediendo?", el análisis de datos implica métodos más profundos y complejos, como el aprendizaje automático, para descubrir patrones ocultos, predecir resultados futuros y responder a preguntas como "¿porqué sucedió esto?" y "¿qué podría suceder después?". Juntos, proporcionan un marco integral para que las empresas monitoreen el rendimiento, obtengan información y tomen decisiones estratégicas y operativas informadas. En vista de ello, en los últimos años, el mundo ha experimentado una transformación sin precedentes impulsada por la explosión de datos (big data), la digitalización de procesos sociales y el auge de tecnologías basadas en inteligencia artificial. Esta revolución no sólo ha impactado sectores como la tecnología, la salud o las finanzas, sino que también ha irrumpido con fuerza en el campo de las ciencias sociales, redefiniendo la forma en que investigadores, analistas, gestores públicos y activistas comprenden, interpretan y actúan sobre la realidad social. Hoy en día, los datos están en todas partes: en encuestas nacionales, registros administrativos del Estado, redes sociales, sistemas de monitoreo de políticas públicas, bases de datos de ONGs y plataformas internacionales. Sin embargo, poseer datos no es sinónimo de conocimiento. Lo que realmente transforma la evidencia en poder de intervención es la capacidad de procesar, analizar, visualizar e interpretar esos datos con rigor técnico y sensibilidad social. Es aquí donde surge la necesidad de integrar herramientas de ciencia de datos en la formación y práctica profesional de sociólogos, antropólogos, politólogos y otros especialistas en el estudio del comportamiento humano y las estructuras sociales. Este curso, no es un entrenamiento técnico aislado ni una mera introducción a la programación. Es, más bien, un puente entre dos mundos que tradicionalmente han estado distantes: el mundo del pensamiento crítico, teórico y metodológico de las ciencias sociales, y el mundo del análisis computacional, estadístico y algorítmico de los datos. Su propósito no es convertir a los participantes en ingenieros de software, sino en profesionales híbridos, capaces de articular preguntas sociales profundas con técnicas analíticas avanzadas, generando evidencia robusta para la investigación, la política pública, la gestión social y la incidencia ciudadana. Este curso parte del supuesto de que los participantes ya poseen conocimientos básicos de programación estructurada en Python, así como un manejo inicial de bibliotecas como pandas y matplotlib. Por lo tanto, no se trata de un curso introductorio a Python, sino de Abraham Zamudio
  3. un curso de aplicación, que busca llevar esas habilidades iniciales

    a un nivel profesional, aplicado específicamente a problemas sociales, políticos y culturales. La estructura del curso, dividido en clases de cuatro horas cada una, está diseñada para ser progresiva, práctica y contextualizada. Cada sesión no solo enseña una herramienta técnica, sino que la vincula con un caso de estudio real planteado por el profesor, una pregunta de investigación social o un desafío de política pública. El enfoque es proyect-based learning (PBL), lo que significa que los participantes no solo aprenden haciendo, sino que construyen un portafolio de análisis aplicados que pueden utilizar en su vida profesional. Este curso, por lo tanto, no solo responde a una necesidad técnica, sino a una necesidad estratégica del campo de las ciencias sociales. En un contexto donde los gobiernos, las empresas y las organizaciones internacionales toman decisiones basadas en datos, es fundamental que los profesionales de las ciencias sociales no queden al margen. No se trata de adoptar ciegamente las herramientas que provee el ecosistema de Python, sino de apropiarse críticamente de las oportunidades que genera este conocimiento tecnico, usando su poder analítico para visibilizar injusticias, evaluar políticas y fortalecer la democracia. Además, el curso está alineado con las tendencias globales en investigación social. Organismos como el World Bank, UNDP, OECD y Latinobarómetro ya publican sus datos en formatos abiertos y estructurados, muchos de ellos accesibles mediante APIs. La capacidad de acceder, procesar y analizar estos datos en tiempo real es una ventaja competitiva para cualquier investigador o gestor público. Como bien se mostró en el primer curso el uso de Python, como lenguaje abierto, gratuito y de código abierto, también promueve la reproducibilidad y la transparencia científica, dos pilares del método científico que son especialmente relevantes en un contexto de desinformación y polarización. Un análisis hecho en Google Colab puede ser compartido, revisado y replicado por otros, fortaleciendo así la credibilidad del conocimiento social. En resumen, este curso no es un simple entrenamiento en programación. Es una propuesta de modernización del campo de las ciencias sociales, que busca equipar a sus profesionales con las herramientas del siglo XXI, sin sacrificar su compromiso ético, crítico y transformador. Es un llamado a no temer a los datos, sino a dominarlos, interpretarlos y usarlos para construir sociedades más justas, equitativas y democráticas. Los egresados y profesionales de las ciencias sociales no deben limitarse a interpretar el mundo; deben tener las herramientas para transformarlo con evidencia. Y para transformarlo con evidencia, necesitan dominar el lenguaje de los datos : LA MATEMÁTICA. Este curso es un paso decisivo en esa dirección. 3.​Objetivo general del curso Capacitar a profesionales de ciencias sociales en el uso avanzado de Python para la exploración, análisis y visualización de datos sociales, integrando técnicas de estadística descriptiva, inferencial, aprendizaje automático, con el fin de fortalecer su capacidad crítica, analítica e interventora en contextos públicos, académicos y sociales. Abraham Zamudio
  4. 4.​Objetivos específicos del curso •​ Fortalecer las habilidades en manipulación

    y limpieza de datos usando pandas y numpy. •​ Aplicar técnicas de visualización (básica y avanzada) para comunicar hallazgos con claridad y rigor. •​ Implementar métodos estadísticos descriptivos e inferenciales para el análisis de datos. •​ Introducir modelos de aprendizaje no supervisado para la identificación de patrones en datos sociales. 5.​Resultados de aprendizaje Al finalizar el curso el alumno: •​ Limpiar y transformar conjuntos de datos sociales complejos •​ Visualizar datos con gráficos informativos y éticamente responsables (evitando sesgos visuales). •​ Producir inferencias estadísticas a partir de muestras, usando pruebas paramétricas y no paramétricas. •​ Identificar grupos o segmentos mediante clustering (K-means, agrupamiento jerárquico). 6.​Metodología El desarrollo de las sesiones se efectuará mediante exposiciones del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7.​ Contenido por Sesiones: # DE HORAS CONTENIDO 4hrs Fundamentos •​ El concepto de analytics y su aplicación en la organización. •​ Introducción al big data •​ Sesgos en la toma de decisiones •​ Fundamentos Teóricos : La estadística inferencial en Python 4hrs Abraham Zamudio
  5. Repaso Avanzado de Python y Manipulación de Datos Sociales •​

    Repaso de estructuras de datos en Python (listas, diccionarios, DataFrames). •​ Manejo avanzado de pandas: •​ Fusión de bases (merge, join) – ej: unir encuestas con datos censales. •​ Limpieza de datos faltantes, valores atípicos y codificación de variables categóricas. •​ Transformaciones con groupby, pivot_table, melt. 4hrs Visualización de Datos Sociales​ •​ Principios de visualización ética y efectiva en ciencias sociales. •​ Gráficos con seaborn y matplotlib: •​ Distribuciones (histogramas, KDE, boxplots) por grupos sociales. •​ Relaciones (scatter plots, pair plots) entre variables como ingreso, educación , etc •​ Gráficos categóricos (barplots, countplots, violin plots). •​ Personalización de gráficos para informes técnicos y públicos. 4hrs Estadística Descriptiva e Inferencial Aplicada •​ Medidas descriptivas: tendencia central, dispersión, asimetría, curtosis. •​ Estimación de parámetros y construcción de intervalos de confianza. •​ Pruebas de hipótesis: •​ t-test (diferencias de medias: urbanos vs rurales). •​ ANOVA (diferencias entre más de dos grupos). •​ Chi-cuadrado (relación entre variables categóricas: género y participación política). •​ Interpretación correcta de valores-p y tamaño del efecto. 4hrs Aprendizaje No Supervisado para la Identificación de Patrones Sociales •​ Introducción al machine learning en ciencias sociales. •​ Reducción de dimensionalidad: PCA (Análisis de Componentes Principales). •​ Clustering: •​ K-means: segmentación de distritos por perfil socioeconómico. •​ Clustering jerárquico: agrupamiento de actitudes políticas. •​ Evaluación de clusters (silhouette score, elbow method). •​ Interpretación social de los grupos encontrados. 4hrs Fundamentos del Análisis Geoespacial con Python – Datos, Proyecciones y Visualización Estática​ •​ Introducción conceptual al análisis geoespacial en ciencias sociales •​ ¿Por qué la información espacial importa en ciencias sociales Abraham Zamudio
  6. •​ Ejemplos: distribución de pobreza, acceso a servicios, conflictos territoriales,

    migración, voto por distrito. •​ Ética del mapeo: riesgos de estigmatización, representación sesgada, privacidad. •​ Estructura de datos geoespaciales •​ Tipos de geometrías: puntos, líneas, polígonos. •​ Formatos comunes: •​ Shapefile (.shp), GeoJSON, KML. •​ Fuentes oficiales: IGN, INEI, GeoPortal del Estado Peruano, GADM. •​ Sistema de coordenadas (CRS): •​ Diferencias entre CRS geográficos (WGS84) y proyectados (UTM). •​ Importancia de reproyectar correctamente para análisis precisos. •​ Trabajo práctico con geopandas •​ Carga y exploración de capas geográficas (departamentos, provincias, distritos del Perú). •​ Inspección de atributos espaciales (geometry, crs). •​ Operaciones básicas: •​ Filtrado espacial (ej: solo Lima Metropolitana). •​ Cálculo de áreas, distancias y centroides. •​ Fusión de datos sociales con geometrías: •​ Ejemplo: unir una base de pobreza por distrito con un shapefile de distritos. •​ Creación de mapas coropléticos estáticos con matplotlib y contextily: •​ Mapa de pobreza extrema por departamento. •​ Añadir fondo de mapa (OpenStreetMap o satellite) para contexto geográfico. 4hrs OPCIONAL Visualización Interactiva y Análisis Espacial Avanzado (I) •​ Visualización interactiva con folium •​ Introducción a mapas interactivos: ventajas para la divulgación y el análisis exploratorio. •​ Creación de mapas base con folium.Map(). •​ Añadir capas: ▪​ Marcadores (puntos de intervención social, sedes de ONGs). ▪​ Polígonos coloreados (choropleth maps) con datos sociales. ▪​ Capas superpuestas (WMS, GeoJSON remotos). •​ Interactividad: ▪​ Popups con información detallada (al hacer clic). ▪​ Control de capas (turn on/off). ▪​ Mapas comparativos (antes/después, dos variables). 4hrs OPCIONAL Visualización Interactiva y Análisis Espacial Avanzado (II) •​ Análisis espacial básico •​ Buffers y proximidad: •​ ¿Qué distritos están a menos de 50 km de una carretera principal? Abraham Zamudio
  7. •​ Superposición (overlay): •​ Identificar zonas de traslape •​ Agregación

    espacial: •​ Calcular promedios de indicadores por región natural (costa, sierra, selva). ​ •​ Prerrequisitos:​ Curso básico de Python Estadística Descriptiva 8.​ Bibliografía •​ Cambria, E., Rajagopal, D., Olsher, D., & Das, D. (2013). Big social data analysis. Big data computing, 13, 401-414. •​ Foster, I., Ghani, R., Jarmin, R. S., Kreuter, F., & Lane, J. (Eds.). (2020). Big data and social science: Data science methods and tools for research and practice. CRC Press. •​ Cielen, D., & Meysman, A. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Simon and Schuster. •​ Danchev, V. (2022). Reproducible Data Science with Python: An Open Learning Resource. Journal of Open Source Education, 5(56), 156. Abraham Zamudio