Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Curso Arquitecturas y Tecnologías de Big Data (...

Curso Arquitecturas y Tecnologías de Big Data (Abraham Zamudio)

Avatar for Abraham Zamudio

Abraham Zamudio

November 21, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. 1.​ Datos generales del curso Asignatura​ : Arquitecturas y Tecnologías

    de Big Data : De la Computación Local a la Escala Planetaria Horas​ : 30 horas 2.​ Presentación INTRODUCCIÓN: EL MOMENTO DE LA VERDAD PARA LOS DATOS Vivimos en una paradoja operativa. Nunca antes en la historia de la humanidad habíamos tenido acceso a tal volumen de información. Desde los sensores telemétricos en una mina a más de 4500 metros de altura en los andes peruanos, hasta las transacciones digitales de un ciudadano pagando sus impuestos desde un celular en la selva, estamos inundados de datos. Sin embargo, la mayoría de las organizaciones —públicas y privadas— siguen operando con una mentalidad de escasez, utilizando herramientas diseñadas para una era que ya no existe. Nosotros, como profesionales, probablemente hemos sentido este "muro". Lo hemos sentido cuando nuestro script de Python, que funcionaba perfectamente con un archivo de prueba, colapsa con un error de memoria (MemoryError) al intentar procesar el dataset real de producción. Lo ha sentido cuando un reporte de gestión tarda 18 horas en generarse, entregando información que ya es obsoleta al momento de ser leída. Lo ha sentido al intentar cruzar información de bases de datos aisladas, luchando con la integridad y la veracidad de cifras que no cuadran. Este no es un problema de "aprender una nueva herramienta". No se soluciona simplemente aprendiendo a escribir import pandas. Este es un problema de Física Computacional y de Arquitectura de Sistemas. El curso que les presento hoy, "Arquitecturas y Tecnologías de Big Data", no es un tutorial de herramientas. Es una inmersión profunda de 30 horas en la ingeniería que hace posible el mundo moderno. He diseñado este programa para profesionales que ya conocen los fundamentos de la programación y el análisis, pero que necesitan dar el salto hacia el procesamiento distribuido, la nube y la inteligencia artificial a escala. Este curso es su puente entre el "Análisis de Datos en Laptop" y la "Ingeniería de Datos a Escala de Petabytes". LA FILOSOFÍA DEL CURSO: POR QUÉ ESTE PROGRAMA ES DIFERENTE Como matemático de formación y desarrollador de software con años de experiencia desplegando soluciones en diferentes sectores que van desde banca, finanzas, telecomunicaciones, minería,pesca, gobierno, retail y otros más, he diseñado este syllabus basándome en una premisa fundamental: Las herramientas cambian, los fundamentos perduran. En el mercado actual, abundan los cursos que enseñan "recetas de cocina": cómo copiar y pegar código para hacer un gráfico. Este curso es diferente. Aquí enseñamos el "Por qué" y el "Cómo" bajo el capó.
  2. 1.​ Rigor Matemático Aplicado: No vamos a huir de la

    complejidad. Entenderemos la complejidad algorítmica (O(n) vs O(log n)) para saber por qué un algoritmo mata su servidor. Entenderemos el álgebra lineal detrás del Machine Learning distribuido. Pero lo haremos de una manera aplicada, visual y tangible. 2.​ Enfoque Agnóstico y Arquitectónico: Hoy usamos Spark y Kafka. Mañana podría ser Flink y Pulsar. El nombre de la herramienta es secundario; la arquitectura (Lambda vs. Kappa, Data Lake vs. Data Warehouse) es lo que define el éxito de un proyecto a largo plazo. 3.​ Visión Holística (360°): Un Ingeniero de Datos que no entiende de Negocio es un mal ingeniero. Un Gerente que no entiende las limitaciones técnicas del Big Data es un mal gerente. Este curso une ambos mundos: la profundidad técnica del código con la visión estratégica del Gobierno de Datos, la Ética y el ROI (Retorno de Inversión). EL PROBLEMA FUNDAMENTAL: EL MURO DEL RENDIMIENTO ¿Por qué necesitamos Big Data? La respuesta comienza en la primera sesión del curso. La Ley de Moore se está desacelerando desde hace algunos años atras. Ya no podemos simplemente esperar a que Intel saque un procesador el doble de rápido el próximo año para que nuestro software lento funcione bien. Hemos llegado al límite del Escalamiento Vertical (comprar una máquina más grande). Una sola máquina tiene un límite físico de RAM y de hilos de procesamiento. Cuando sus datos superan ese límite —sea 100 GB o 1 PB— la computación tradicional falla. La única salida es el Escalamiento Horizontal: usar cientos o miles de computadoras baratas ("commodity hardware") trabajando al unísono. Pero coordinar mil computadoras es un problema de ingeniería monumental. ¿Cómo divido los datos? ¿Qué pasa si una computadora se apaga? ¿Cómo sumo los resultados parciales? Este curso es la respuesta a esas preguntas. Es el manual de instrucciones para dominar la computación distribuida. DESGLOSE DETALLADO DEL CONTENIDO ACADÉMICO A continuación, presento la narrativa técnica de las 10 sesiones que transformarán su perfil profesional. MÓDULO 1: LOS FUNDAMENTOS FÍSICOS Y EL ALMACENAMIENTO (SESIONES 1-3) Clase 1: El Despertar - El Muro del Rendimiento y el Cambio de Paradigma Empezaremos derribando mitos. Analizaremos la arquitectura de Von Neumann y por qué la memoria RAM es el recurso más preciado y escaso. Entenderemos la complejidad temporal y espacial de los algoritmos. Veremos, con ejemplos prácticos en Python, cómo un mal diseño de datos puede hacer que un proceso tarde años en ejecutarse, y cómo un buen diseño lo reduce a minutos. Definiremos las "V" del Big Data no como un slogan de marketing, sino como retos de ingeniería: Volumen (Almacenamiento), Velocidad (Latencia), Variedad (Parsing). Clase 2: La Revolución del Elefante - Ecosistema Hadoop y el Teorema CAP
  3. Viajaremos al origen de todo: los papers de Google que

    dieron vida a GFS y MapReduce. Entenderemos Hadoop no como una tecnología "vieja", sino como el cimiento sobre el que se construye la nube moderna. Desmitificaremos HDFS: Bloques, Nodos de Datos, Nodos de Nombre y Replicación. Y nos enfrentaremos a una ley inmutable de los sistemas distribuidos: el Teorema CAP. Entenderá por qué es matemáticamente imposible tener un sistema distribuido que sea consistente, disponible y tolerante a particiones al mismo tiempo, y cómo esto define la elección de su base de datos. Clase 3: Persistencia Políglota - NoSQL y Modern Data Stack El paradigma de "una sola base de datos para todo" ha muerto. En esta sesión, exploraremos la taxonomía del NoSQL. Veremos cuándo usar bases Documentales (MongoDB) para flexibilidad, Columnares (Cassandra) para escritura masiva, Key-Value (Redis) para velocidad extrema, y Grafos (Neo4j) para relaciones complejas. Además, entraremos en la ingeniería de archivos: CSV es el enemigo. Aprenderá por qué formatos binarios y columnares como Parquet y Avro son el estándar de facto para el almacenamiento eficiente y la compresión. MÓDULO 2: EL MOTOR DE PROCESAMIENTO (SESIONES 4-6) Clase 4: El Rey del Big Data - Apache Spark (Core) Esta es la clase bisagra. Dejaremos atrás el disco lento de MapReduce para entrar en la velocidad de la memoria RAM con Apache Spark. Entenderemos la arquitectura Driver-Executor. Aprenderemos qué es la Evaluación Perezosa (Lazy Evaluation) y por qué Spark "procrastina" inteligentemente para optimizar consultas. Analizaremos el concepto de RDD (Resilient Distributed Dataset) y cómo Spark logra tolerancia a fallos sin escribir en disco, reconstruyendo el linaje de los datos. Clase 5: Ingeniería de Precisión - SparkSQL y Optimización Escribir código es fácil; escribir código eficiente es ingeniería. Aquí abriremos el capó de Spark para ver el Optimizador Catalyst. Veremos cómo Spark reescribe su código SQL para hacerlo más rápido. Estudiaremos el problema del Shuffle (el movimiento de datos por la red), que es la causa #1 de fallos en clusters. Aprenderemos estrategias avanzadas de Joins (Broadcast vs Sort Merge) y técnicas de limpieza de datos a escala masiva, manejando nulos y datos corruptos sin detener el proceso. Clase 6: La Arquitectura Definitiva - Data Lakes, Warehouses y Lakehouses ¿Dónde guardamos los datos? Analizaremos la evolución histórica: del orden rígido y costoso del Data Warehouse (Snowflake, Redshift), al caos económico del Data Lake (S3, ADLS). Y presentaremos la solución convergente: el Data Lakehouse. Estudiaremos tecnologías como Delta Lake y Apache Iceberg, que permiten traer transacciones ACID (confiabilidad bancaria) al mundo de los archivos abiertos, permitiendo cosas que antes eran imposibles, como el "Time Travel" (ver cómo estaban los datos ayer) y la evolución de esquemas. MÓDULO 3: STREAMING, NUBE Y FUTURO (SESIONES 7-10) Clase 7: El Tiempo es Dinero - Procesamiento en Tiempo Real (Streaming)
  4. El valor del dato decae con el tiempo. En esta

    sesión, cambiaremos el paradigma de Batch (lotes) a Streaming (flujo continuo). Estudiaremos las arquitecturas Lambda y Kappa. Diseccionaremos el sistema nervioso central de las empresas modernas: Apache Kafka. Entenderemos Tópicos, Particiones y Offsets, y cómo garantizar que ningún mensaje se pierda, incluso si se apagan los servidores. Implementaremos ventanas de tiempo para calcular métricas en tiempo real. Clase 8: Inteligencia a Escala - Machine Learning Distribuido (Spark MLlib) Scikit-Learn es fantástico, pero no escala. ¿Cómo entrenamos un modelo con 1 billón de registros? Aquí veremos la matemática distribuida. Cómo funciona el descenso del gradiente cuando los datos están partidos en 100 máquinas. Usaremos Spark MLlib para crear pipelines de Feature Engineering (VectorAssembler, OneHotEncoding) y entrenar modelos de clasificación y regresión que aprenden de todo el dataset, no solo de una muestra. Clase 9: El Mundo Real - Cloud Computing y MLOps Dejaremos la teoría local para ir a la Nube. Compararemos AWS, Azure y GCP. Entenderemos la economía de la nube (Spot Instances, Serverless). Y abordaremos el problema más grande de la Ciencia de Datos: poner modelos en producción. Hablaremos de MLOps, el ciclo de vida del modelo, monitoreo de Data Drift (cuando los datos cambian y el modelo falla) y orquestación de flujos de trabajo complejos utilizando Apache Airflow. Clase 10: La Visión del Asesor - Ética, Gobierno y Futuro Cerraremos con la visión estratégica. El Big Data sin control es un riesgo legal. Hablaremos de Gobierno de Datos: Calidad, Linaje y Catálogos. Abordaremos la Ética y Privacidad: GDPR, sesgos algorítmicos y el derecho al olvido. Y finalmente, miraremos al horizonte: Computación Cuántica, Aprendizaje Federado y el impacto de los LLMs (Large Language Models) en la infraestructura de datos. VALOR PARA EL SECTOR PÚBLICO: TRANSPARENCIA Y EFICIENCIA Para los profesionales que sirven en el Sector Público, este curso no es un lujo, es una necesidad de estado. •​ Interoperabilidad: El estado maneja silos de información (Salud, Policía, Impuestos). Las arquitecturas de Data Lakehouse enseñadas aquí son la clave para la interoperabilidad real, permitiendo una visión única del ciudadano sin duplicar bases de datos. •​ Detección de Fraude y Evasión: Las técnicas de Streaming y Machine Learning distribuido son las herramientas estándar para detectar anomalías en compras públicas, facturación electrónica y movimientos financieros en tiempo real, no meses después cuando el dinero ya desapareció. •​ Diseño de Políticas Basadas en Evidencia: Moverse de la estadística muestral (encuestas) al análisis censal en tiempo real permite diseñar políticas públicas hiper-focalizadas y eficientes. •​ Soberanía del Dato: Entender las tecnologías Open Source (Spark, Kafka, Hadoop) permite al Estado construir infraestructuras soberanas sin depender de licencias costosas y cajas negras de proveedores propietarios ("Vendor Lock-in").
  5. VALOR PARA EL SECTOR PRIVADO: COMPETITIVIDAD Y RETORNO Para el

    Sector Privado, desde Startups hasta Corporaciones, este curso es una inversión en supervivencia y rentabilidad. •​ Minería e Industria: La aplicación de Streaming para IoT (Internet of Things) permite el mantenimiento predictivo de maquinaria pesada, ahorrando millones en paradas no planificadas. •​ Banca y Retail: La personalización masiva y la detección de riesgos crediticios requieren procesar el historial completo de transacciones de los clientes. Spark y los Lakehouses son la única forma económicamente viable de hacerlo. •​ Logística y Servicios: La optimización de rutas y la cadena de suministro en tiempo real mediante grafos y streaming define quién gana el mercado en un mundo de márgenes reducidos. •​ Reducción de Costos (TCO): Entender la diferencia entre almacenamiento en caliente y frío, y cómo usar instancias Spot en la nube, puede reducir la factura de infraestructura de TI en un 40% a 60%.​ 3.​ Objetivo general del curso Dotar al participante de las competencias arquitectónicas y técnicas necesarias para diseñar, implementar y gobernar ecosistemas de Big Data escalables, permitiéndole realizar la transición estratégica desde el paradigma de computación local hacia el procesamiento distribuido y la nube. A través de una inmersión teórica y práctica en el estado del arte tecnológico (Hadoop, Spark, NoSQL, Streaming y MLOps), el profesional será capaz de gestionar el ciclo de vida completo del dato —desde su ingesta masiva y almacenamiento eficiente, hasta su procesamiento analítico y operacionalización con Inteligencia Artificial— para resolver problemas de alta complejidad en entornos corporativos y gubernamentales. 4.​ Objetivos específicos del curso A.​ Dominar la Arquitectura de Sistemas Distribuidos y Cloud: Analizar y diseñar infraestructuras de datos modernas (Data Lakes, Data Warehouses y Lakehouses), aplicando criterios de escalabilidad horizontal y el Teorema CAP para seleccionar las tecnologías de almacenamiento (HDFS, S3, NoSQL) más adecuadas según la naturaleza del dato y los requerimientos del negocio.​ B.​ Implementar Pipelines de Procesamiento Masivo (Batch y Streaming): Desarrollar flujos de ingeniería de datos robustos y eficientes utilizando Apache Spark y Apache Kafka, capaces de ingerir, transformar y limpiar grandes volúmenes de información tanto en cargas históricas como en tiempo real, optimizando el uso de memoria y recursos computacionales.​ C.​ Operacionalizar la Analítica Avanzada y el Gobierno del Dato: Integrar modelos de Machine Learning en entornos productivos mediante prácticas de MLOps y orquestación de flujos, asegurando simultáneamente la calidad, ética, privacidad y trazabilidad de la información a través de estrategias sólidas de Gobierno de Datos.
  6. 5.​ Resultados de aprendizaje Al finalizar el curso el alumno:​

    •​ Diseñar Arquitecturas de Datos Escalables: Evaluar y seleccionar la arquitectura de datos óptima (Lambda, Kappa o Lakehouse) para un problema de negocio específico, justificando la elección de tecnologías de almacenamiento (SQL vs. NoSQL, HDFS vs. S3) basándose en el Teorema CAP, el volumen de datos y los requisitos de latencia. •​ Desarrollar Pipelines de Procesamiento Distribuido de Alto Rendimiento: Construir flujos de trabajo ETL (Extract, Transform, Load) robustos utilizando Apache Spark, aplicando técnicas avanzadas de optimización (como partitioning, bucketing y gestión del shuffle) para procesar Terabytes de información reduciendo tiempos de ejecución y costos computacionales. •​ Implementar Soluciones de Streaming en Tiempo Real: Configurar y gestionar sistemas de ingesta y procesamiento de eventos en tiempo real utilizando Apache Kafka y Spark Structured Streaming, permitiendo la transición de procesos batch tradicionales a arquitecturas orientadas a eventos para la toma de decisiones inmediata. •​ Gestionar el Ciclo de Vida del Dato en la Nube: Desplegar infraestructuras de Big Data en entornos Cloud (AWS o GCP) bajo un modelo de costos eficiente (OpEx), implementando arquitecturas modernas de Data Lakehouse (con Delta Lake) que unifiquen la fiabilidad de los Data Warehouses con la flexibilidad de los Data Lakes. •​ Operacionalizar Modelos de Machine Learning a Escala (MLOps): Entrenar algoritmos de Machine Learning distribuido con Spark MLlib sobre datasets masivos y orquestar su puesta en producción mediante pipelines automatizados (usando herramientas como Apache Airflow), asegurando la reproducibilidad y el monitoreo del modelo. •​ Aplicar Estrategias de Gobierno y Ética de Datos: Establecer marcos de Gobierno de Datos que garanticen la calidad, el linaje y la seguridad de la información, integrando principios éticos y de privacidad (como GDPR y detección de sesgos) en el diseño de las soluciones tecnológicas. 6.​ Metodología : APRENDER HACIENDO (HANDS-ON) Este no es un curso de "ver diapositivas". Usaremos: •​ Entornos Reales: Usaremos Google Colab y simuladores de Docker para que cada alumno tenga su propio cluster. No necesitan una supercomputadora en casa; usaremos la nube. •​ Código sobre Click: No usaremos herramientas de "arrastrar y soltar". Escribiremos código en Python (PySpark). Esto les da el control total y la capacidad de automatizar. •​ Retos de Ingeniería: No solo correremos el "Hola Mundo". Simularemos fallos. Generaremos datos sucios. Intentaremos colapsar la memoria RAM para entender los límites. Enfrentaremos problemas reales.
  7. 7.​ Contenido por Clases : # DE HORAS CONTENIDO 3hrs.

    El Muro del Rendimiento y el Cambio de Paradigma​ •​ ¿Por qué falla mi RAM? Complejidad temporal y espacial en algoritmos (O(n) vs escalabilidad). •​ Las "V" del Big Data (más allá del marketing): Volumen, Velocidad, Variedad, Veracidad y Valor. •​ Escalamiento Vertical (Hardware más grande) vs. Escalamiento Horizontal (Más máquinas). •​ Introducción a Sistemas Distribuidos: Tolerancia a fallos y disponibilidad. 3hrs Ecosistema Hadoop y el Teorema CAP •​ Historia: El paper de Google (GFS y MapReduce) y el nacimiento de Hadoop. •​ HDFS (Hadoop Distributed File System): Bloques, Nodos de Datos (DataNodes) y Nodos de Nombre (NameNodes). Replicación. •​ Teorema CAP: Consistencia, Disponibilidad y Tolerancia a Particiones. ¿Por qué no podemos tener los tres? •​ Bases de Datos Relacionales (ACID) vs. NoSQL (BASE). 3hrs. Bases de Datos NoSQL y Modern Data Stack​ •​ Tipos de NoSQL y casos de uso: ◦​ Documentales: MongoDB (JSON semi-estructurado). ◦​ Columnares: Cassandra/HBase (Escritura masiva). ◦​ Key-Value: Redis (Caché y alta velocidad). ◦​ Grafos: Neo4j (Relaciones complejas). •​ Formatos de Archivo Eficientes: CSV vs. Parquet vs. Avro. (Compresión y esquemas). 3hrs El Rey del Big Data - Apache Spark (Core)​ •​ ¿Por qué MapReduce "murió" y Spark ganó? (Procesamiento en memoria). •​ Arquitectura Spark: Driver, Workers, Executors. •​ Concepto clave: Lazy Evaluation (Evaluación perezosa) y DAG (Grafo Acíclico Dirigido). •​ RDDs (Resilient Distributed Datasets) vs. DataFrames. 3hrs. Ingeniería de Datos con SparkSQL​ •​ El optimizador Catalyst: Cómo Spark optimiza tu código SQL. •​ Operaciones complejas distribuidas: Joins (Broadcast Hash Join vs. Sort Merge Join). El problema del Shuffle (mover datos por la red). •​ Manejo de datos faltantes y limpieza a gran escala. 3hrs Data Lakes, Data Warehouses y Lakehouses​ •​ Evolución: De la Base de Datos al Data Warehouse (Snowflake, Redshift) al Data Lake (S3, ADLS). •​ El concepto moderno: Data Lakehouse (Databricks/Delta Lake). •​ Transacciones ACID en Big Data (Delta Lake, Apache Iceberg).
  8. 3hrs. Procesamiento en Tiempo Real (Streaming)​ •​ Batch (Lotes) vs.

    Streaming. •​ Arquitectura Lambda y Kappa. •​ Apache Kafka: Productores, Consumidores, Tópicos, Particiones y Offsets. El sistema nervioso central de los datos. 3hrs Machine Learning Distribuido (Spark MLlib)​ •​ ¿Por qué Scikit-Learn falla con Big Data? •​ Matemática distribuida: Descenso del gradiente en paralelo. •​ Librerías: Spark MLlib. 3hrs Big Data en la Nube y MLOps​ •​ El ecosistema Cloud (AWS vs Azure vs GCP). ◦​ AWS EMR, Glue, S3, Kinesis. ◦​ GCP DataProc, BigQuery, Pub/Sub. •​ MLOps: Cómo llevar modelos a producción. •​ Orquestación de flujos de trabajo: Apache Airflow. 3hrs Ética, Gobierno y Futuro (La Visión del Consultor)​ •​ Gobierno del Dato: Calidad, Linaje (Data Lineage) y Catálogos. •​ Privacidad y Ética: GDPR, sesgos algorítmicos amplificados por Big Data. •​ El Futuro: ◦​ Computación Cuántica y Criptografía. ◦​ Federated Learning (Aprender sin mover los datos). ◦​ LLMs (Large Language Models) y su relación con la infraestructura de Big Data (entrenar GPT requiere Big Data + HPC). ​ Requisitos :​ Conocimientos Técnicos (Indispensables) •​ Programación en Python (Nivel Intermedio) •​ Manipulación de Datos (Pandas Básico) •​ Fundamentos de SQL Requisitos de Hardware y Software •​ Cuenta de Google: Necesaria para acceder a Google Colab, donde se realizarán los laboratorios prácticos sin necesidad de instalaciones locales complejas. •​ Navegador Web Moderno: Chrome, Firefox o Edge actualizados. •​ (Opcional): Una computadora con al menos 12GB de RAM si el participante desea replicar los laboratorios de Docker en su entorno local (fuera de Colab).
  9. 8.​ Bibliografía •​ Camargo-Vega, J. J., Camargo-Ortega, J. F., Joyanes-Aguilar,

    L. (2015). Conociendo big data. Revista Facultad de Ingeniería, 24(38), 63-77. •​ Rachmad, Y. E. (2024). Danantara and Smart Infrastructure: Leveraging AI and Big Data for Investment Decisions. The United Nations Global Compact. •​ Matter, U. (2023). Big Data Analytics: A Guide to Data Science Practitioners Making the Transition to Big Data. Estados Unidos: CRC Press. •​ Big Data Computing: Advances in Technologies, Methodologies, and Applications. (2024). Estados Unidos: CRC Press. •​ BONNEFOY, P., CHAIZE, E., MANSUY, R., TAZI, M. (n.d.). The Definitive Guide to Data Integration: Unlock the Power of Data Integration to Efficiently Manage, Transform, and Analyze Data. Alemania: Packt Publishing. •​ Majchrzak, J., Balnojan, S., Siwiak, M. (2023). Data Mesh in Action. Estados Unidos: Manning. •​ Mastering Apache Kafka. (2023). (n.p.): Cybellium Ltd.