Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introducción a la Ciencia de Datos Financiera

Introducción a la Ciencia de Datos Financiera

Avatar for Abraham Zamudio

Abraham Zamudio

May 26, 2026

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. 1.​ Datos generales del curso Asignatura​ : Introducción a la

    Ciencia de Datos Financiera Horas​ : Módulo I (21 Horas) - Módulo II (30 Horas) - Módulo 3 (21 Horas) 2.​ Presentación En el panorama contemporáneo de los mercados globales, la intersección entre la teoría económica clásica y la computación de alto rendimiento ha dejado de ser una novedad para convertirse en el estándar operativo de la industria financiera. La generación masiva de datos, la complejidad de los instrumentos derivados y la necesidad de una gestión de riesgos en tiempo real han creado un entorno donde las herramientas tradicionales de análisis resultan insuficientes. El curso "Introducción a la Ciencia de Datos Financiera" nace como una respuesta estructurada y rigurosa a esta demanda, diseñada específicamente para profesionales con formación en ingeniería y economía que buscan trascender el uso superficial de algoritmos y adentrarse en la construcción de sistemas analíticos robustos, reproducibles y fundamentados matemáticamente. Esta presentación técnica detalla la arquitectura pedagógica, los fundamentos metodológicos y la justificación epistemológica de un programa formativo de más de 70 horas que integra el ecosistema moderno de datos financieros con casos de uso reales de alta complejidad. La premisa fundamental de este curso es que la ciencia de datos aplicada a finanzas no es meramente una extensión de la programación, sino una disciplina híbrida que requiere un entendimiento profundo tanto de la estocasticidad de los mercados como de la arquitectura del software científico. A diferencia de los programas convencionales que priorizan la predicción puntual sobre la inferencia válida, este curso establece como pilar central la distinción crítica entre señal financiera y ruido estadístico. Para un perfil profesional que combina la capacidad de modelado abstracto de la ingeniería con la comprensión de los mecanismos de mercado de la economía, el enfoque debe ser necesariamente dual: se exige rigor en la especificación econométrica y eficiencia en la implementación computacional. Por ello, el currículo ha sido diseñado para evitar la caja negra, promoviendo en su lugar una transparencia algorítmica donde cada decisión de modelado esté respaldada por diagnósticos estadísticos formales y buenas prácticas de desarrollo de software. El primer bloque conceptual del curso aborda el ecosistema de datos financieros no como un insumo pasivo, sino como un objeto de estudio en sí mismo. En la práctica profesional, la calidad de los modelos está acotada superiormente por la calidad de los datos. Se introduce al participante en la arquitectura de datos de alta frecuencia y baja frecuencia, diferenciando las propiedades topológicas y estadísticas de las series OHLCV, los datos de ticks y los fundamentales contables. Sin embargo, más allá de la ingestión, se enfatiza la ingeniería de características financieras bajo restricciones temporales estrictas. Uno de los errores más costosos y frecuentes en la aplicación de machine learning a finanzas es el *look-ahead bias* o sesgo de anticipación. Este curso dedica un esfuerzo significativo a enseñar técnicas de validación cruzada temporal, como el Purged K-Fold y el Embargo, que respetan la estructura causal de las series de tiempo. Se analiza cómo la no estacionariedad, la heterocedasticidad condicional y las colas pesadas invalidan las asunciones de independencia e idéntica distribución (i.i.d.) comunes en otros dominios de la ciencia de datos, obligando al profesional a adoptar marcos de validación específicos para activos financieros. En lo referente al modelado predictivo y descriptivo, el curso cubre cinco casos de uso paradigmáticos que representan el núcleo de la industria cuantitativa moderna: scoring Abraham Zamudio
  2. crediticio, gestión de riesgos, trading algorítmico, detección de fraude y

    forecasting financiero. Cada uno de estos módulos se aborda desde una perspectiva que integra la teoría clásica con las técnicas modernas de aprendizaje automático. En el caso del scoring crediticio, por ejemplo, no se limita a la aplicación de modelos de boosting; se contextualiza dentro de la tradición de la regresión logística y el Weight of Evidence (WoE), explicando por qué la interpretabilidad y la monotonicidad son requisitos regulatorios y no solo preferencias analíticas. Se introduce el uso de SHAP values y otras técnicas de explicabilidad post-hoc como herramientas de auditoría y cumplimiento, permitiendo al profesional justificar decisiones de crédito ante reguladores y comités de riesgo con base en evidencia matemática sólida. El módulo de forecasting financiero y gestión de riesgos confronta directamente la incertidumbre inherente a los mercados. Se enseña que predecir el precio futuro es un problema mal planteado si no se acompaña de una cuantificación honesta de la incertidumbre. Se transita desde los modelos paramétricos clásicos, como ARIMA y GARCH, hacia enfoques modernos basados en redes neuronales recurrentes y transformers, pero siempre manteniendo el foco en la evaluación probabilística. Se discuten métricas de evaluación adecuadas para series temporales financieras, como el MASE y el sMAPE, y se profundiza en la estimación de Value at Risk (VaR) y Expected Shortfall (ES) mediante métodos históricos filtrados y simulaciones de Monte Carlo. La detección de anomalías y fraude se aborda no solo como un problema de clasificación binaria, sino como un desafío de aprendizaje no supervisado en entornos con desbalance extremo y deriva conceptual (*concept drift*), donde los regímenes de mercado cambian dinámicamente y los modelos deben adaptarse o degradarse gracefully. Un componente transversal y diferenciador de este curso es la integración de principios de ingeniería de software y MLOps en el flujo de trabajo del científico de datos financieros. La investigación académica y la producción industrial difieren radicalmente en sus requisitos de mantenibilidad y trazabilidad. Mientras que un notebook exploratorio puede ser suficiente para un paper, es inaceptable para un sistema de trading o un motor de scoring en producción. Se instruye a los participantes en la estructuración modular de proyectos, el versionado de datos y modelos con herramientas como DVC y MLflow, y la importancia de la reproducibilidad determinista. Se discute la arquitectura de pipelines ETL resilientes, la gestión de dependencias y la escritura de pruebas unitarias para funciones críticas de transformación de datos. Este enfoque garantiza que los profesionales no solo sepan construir modelos, sino desplegarlos, monitorearlos y mantenerlos en entornos empresariales reales, cerrando la brecha entre el prototipo y el producto de software con valor agregado. La dimensión ética y epistemológica ocupa también un lugar relevante en la propuesta formativa. La inteligencia artificial en finanzas conlleva riesgos sistémicos y sociales que no pueden ser ignorados. Se analizan los sesgos algorítmicos en la concesión de créditos, los peligros de la optimización excesiva (*overfitting*) en estrategias de trading y las limitaciones fundamentales de los modelos basados en datos históricos para predecir eventos de cisne negro. Se fomenta una postura de escepticismo metodológico saludable, donde el profesional entiende que todo modelo es una aproximación incompleta de la realidad y que la verdadera competencia reside en saber identificar cuándo un modelo ha dejado de ser válido. Esta reflexión crítica es esencial para asesores senior y tomadores de decisiones que deben evaluar el impacto social y económico de la automatización financiera. Desde una perspectiva pedagógica, la secuencia de las ocho sesiones de tres horas ha sido meticulosamente orquestada para maximizar la retención y la aplicabilidad. Se comienza estableciendo los cimientos de datos y estadística, se avanza hacia el feature engineering riguroso, se aplican los modelos a casos de uso específicos y se cierra con la Abraham Zamudio
  3. integración operativa y ética. Esta progresión permite que los conceptos

    abstractos se anclen continuamente en implementaciones prácticas, utilizando el ecosistema de Python (`pandas`, `numpy`, `scikit-learn`, `statsmodels`, `xgboost`) como lenguaje vehicular. Los ejercicios no son juguetes académicos; están diseñados para replicar los desafíos, la suciedad de los datos y las restricciones computacionales que los profesionales enfrentarán en sus organizaciones. Se promueve el análisis de residuos y el diagnóstico de modelos como hábitos intelectuales indelebles, asegurando que la intuición financiera se calibre constantemente contra la evidencia empírica. El valor estratégico de este curso para instituciones y profesionales radica en su capacidad para formar perfiles traductores. En el mercado actual, abundan los programadores que saben llamar a una API de machine learning pero no entienden la dinámica de tasas de interés, y los economistas que dominan la teoría de portafolios pero no pueden implementar un backtester libre de sesgos. Este programa forma precisamente en la intersección: ingenieros que piensan en términos de riesgo y retorno, y economistas que razonan en términos de complejidad algorítmica y escalabilidad. Al finalizar las 24 horas, los participantes no solo habrán adquirido un conjunto de habilidades técnicas, sino que habrán internalizado un marco de pensamiento estructurado para abordar problemas financieros complejos. Estarán capacitados para liderar iniciativas de transformación digital en banca, seguros, gestoras de activos y fintechs, aportando no solo código, sino criterio analítico maduro. En conclusión, "Introducción a la Ciencia de Datos Financiera" es una propuesta formativa de alta especialización que responde a la madurez del sector. Rechaza el sensacionalismo tecnológico en favor de la solidez metodológica. Reconoce que, en finanzas, el costo del error es asimétrico y que la excelencia técnica se mide por la robustez y la confiabilidad, no por la novedad del algoritmo. Para el profesional de ingeniería o economía, este curso representa una inversión en capital humano de alto rendimiento, proporcionando las herramientas conceptuales y computacionales necesarias para navegar, interpretar y aprovechar el ecosistema de datos financieros con la autoridad que exige el mercado actual. Es, en definitiva, un puente necesario entre la teoría cuantitativa y la práctica industrial, construido con los estándares de rigor que caracterizan a la ciencia de datos aplicada de vanguardia. La integración de visualización científica, diagnósticos estadísticos avanzados y arquitecturas de software reproducibles asegura que el conocimiento adquirido sea inmediatamente transferible a entornos productivos, elevando el estándar de calidad analítica de las organizaciones que cuenten con profesionales formados bajo esta metodología. 3.​ Objetivo general del curso Desarrollar competencias técnicas y metodológicas para diseñar, implementar y validar soluciones de ciencia de datos aplicadas al sector financiero, integrando el rigor estadístico, las buenas prácticas de ingeniería de software y la comprensión del dominio económico para resolver problemas reales de scoring, riesgo, trading, fraude y pronóstico con criterios de robustez, reproducibilidad y ética profesional. ​ 4.​ Objetivos específicos del curso •​ Dominar el ecosistema de datos financieros •​ Aplicar diagnóstico estadístico riguroso •​ Implementar feature engineering financiero •​ Desarrollar modelos de scoring crediticio interpretables •​ Construir sistemas de forecasting probabilístico Abraham Zamudio
  4. •​ Operacionalizar frameworks de gestión de riesgos y detección de

    anomalía •​ Ejecutar backtesting de estrategias algorítmicas libre de sesgos •​ Integrar prácticas de MLOps y ética en producción. 5.​ Resultados de aprendizaje Al finalizar el curso el alumno: •​ Construir pipelines de datos financieros reproducibles: Diseñar e implementar flujos de ingesta y transformación de datos de mercado y fundamentales que cumplan con estándares de integridad, versionado y documentación técnica, eliminando la dependencia de procesos manuales o ad-hoc. •​ Diagnosticar la validez estadística de series financieras: Ejecutar e interpretar baterías de pruebas formales (estacionariedad, normalidad, heterocedasticidad, autocorrelación) para validar supuestos de modelado, identificando patologías en los datos antes de cualquier etapa predictiva y evitando inferencias espurias. •​ Generar características financieras libres de sesgos temporales: Aplicar protocolos de feature engineering y validación cruzada temporal (Purged K-Fold, Embargo) que garanticen la ausencia de look-ahead bias en matrices de entrenamiento, asegurando que las señales predictivas sean causalmente válidas y generalizables. •​ Desarrollar scorecards crediticias auditables: Entrenar y evaluar modelos de clasificación de riesgo que equilibren precisión predictiva con explicabilidad regulatoria, utilizando métricas de negocio asimétricas y técnicas de atribución de features para justificar decisiones ante áreas de cumplimiento y gestión de riesgo. •​ Producir pronósticos financieros con incertidumbre calibrada: Implementar y comparar modelos de series temporales (clásicos y modernos) para variables financieras, reportando no solo predicciones puntuales sino intervalos de confianza probabilísticos validados mediante backtesting riguroso y métricas de evaluación robustas. •​ Cuantificar riesgos de mercado y detectar anomalías operacionales: Estimar VaR/CVaR mediante métodos paramétricos y simulados, y desarrollar sistemas de detección de fraude o cambios de régimen usando aprendizaje no supervisado, integrando pruebas de estrés que validen la resiliencia del modelo ante escenarios extremos. •​ Evaluar estrategias de trading con rigor metodológico: Ejecutar backtests de estrategias cuantitativas controlando sesgos de supervivencia, sobreajuste y costos de transacción, optimizando parámetros mediante Walk-Forward Analysis y seleccionando estrategias basándose en métricas ajustadas al riesgo (Sharpe, Sortino, Calmar) y no solo en retorno absoluto. •​ Operacionalizar modelos con estándares de MLOps y responsabilidad ética: Desplegar soluciones de ciencia de datos financiera utilizando herramientas de versionado de artefactos (DVC/MLflow), documentación estructurada y evaluaciones de impacto ético, garantizando que los sistemas sean mantenibles, trazables y alineados con principios de transparencia algorítmica y equidad. 6.​ Metodología El desarrollo de las sesiones se efectuará mediante exposiciones del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Abraham Zamudio
  5. Asimismo, se aplicarán casos de estudio durante el desarrollo del

    curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7.​ Contenido por Sesiones: Sesión Tema Principal Contenidos Clave Caso de Uso / Práctica Nivel I 1 Ecosistema de Datos Financieros y Python Científico (I) • Arquitectura de datos financieros (OHLCV, Tick data, Fundamentales). • Librerías especializadas (pandas, yfinance, zipline/backtrader). Construcción de un pipeline ETL reproducible para datos de mercado y visualización de estructuras temporales complejas. 2 Ecosistema de Datos Financieros y Python Científico (II) • Buenas prácticas: Entornos virtuales, estructura de proyectos y reproducibilidad. • Visualización financiera avanzada (K-lines, drawdowns, correlaciones). 3 Estadística Financiera y Análisis Exploratorio Riguroso (I) • Propiedades estadísticas de retornos: No-normalidad, fat tails, volatilidad estocástica. • Pruebas de estacionariedad (ADF, KPSS) y cointegración. Análisis de residuos y diagnóstico estadístico en modelos de factores de riesgo (Fama-French). 4 Estadística Financiera y Análisis Exploratorio Riguroso (II) • Diagnósticos de regresión: Heterocedasticidad, autocorrelación (Durbin-Watson), normalidad (Omnibus). • Transformaciones y manejo de outliers financieros. Abraham Zamudio
  6. 5 Feature Engineering Financiero y Selección de Variables (I) •

    Indicadores técnicos vs. fundamentales como features. • Transformaciones para estacionariedad y reducción de ruido. Construcción de matriz de features para predicción de volatilidad con validación estricta. 6 Feature Engineering Financiero y Selección de Variables (II) • Técnicas de selección: Importancia basada en permutación, LASSO/Ridge en contexto financiero. 7 Feature Engineering Financiero y Selección de Variables (III) • Análisis de técnicas Validación cruzada temporal (Purged K-Fold) para evitar look-ahead bias. Nivel II 8 Scoring Crediticio y Clasificación Interpretable (I) • Regresión Logística y WoE (Weight of Evidence) tradicional. Desarrollo de scorecard crediticio con análisis de trade-off entre riesgo y aprobación. 9 Scoring Crediticio y Clasificación Interpretable (II) • Modelos basados en árboles (XGBoost/LightGBM) para scoring. • Métricas financieras: Gini, KS, Matriz de costo asimétrico. 10 Scoring Crediticio y Clasificación Interpretable (III) • Explicabilidad: SHAP values para cumplimiento regulatorio. 11 Forecasting Financiero y Series Temporales Avanzadas (I) • Modelos clásicos: ARIMA/GARCH para volatilidad. Pronóstico de flujo de caja o demanda con análisis de residuos y comparación de modelos. 12 Forecasting Financiero y Series Temporales Avanzadas (II) • Enfoques modernos: Prophet, N-BEATS, Transformers temporales. Abraham Zamudio
  7. 13 Forecasting Financiero y Series Temporales Avanzadas (III) • Evaluación

    de pronósticos: MASE, sMAPE, backtesting de predicciones. • Incertidumbre: Intervalos de confianza y predicción probabilística. 14 Gestión de Riesgos y Detección de Anomalías (I) • VaR y CVaR: Métodos paramétricos, históricos y Monte Carlo. Sistema de alerta temprana de fraude transaccional o detección de cambios de régimen. 15 Gestión de Riesgos y Detección de Anomalías (II) • Detección de fraude/anomalías: Isolation Forest, Autoencoders. 16 Gestión de Riesgos y Detección de Anomalías (III) • Aprendizaje no supervisado para regímenes de mercado (HMM, Clustering). . 17 Gestión de Riesgos y Detección de Anomalías (IV) • Stress testing y simulación de escenarios extremos Nivel III 18 Trading Algorítmico: Backtesting Robusto (I) • Anatomía de un backtester: Eventos vs. Vectorizado. • Sesgos críticos: Survivorship, look-ahead, overfitting. Implementación y evaluación rigurosa de estrategia de mean-reversion o momentum. 19 Trading Algorítmico: Backtesting Robusto (II) • Métricas de desempeño ajustadas al riesgo: Sharpe, Sortino, Calmar. 20 Trading Algorítmico: Backtesting Robusto (III) • Optimización de parámetros con Walk-Forward Analysis. Abraham Zamudio
  8. 21 Integración, Ética y Tendencias Futuras (I) • MLOps en

    finanzas: Versionado de modelos y datos (DVC/MLflow). Revisión crítica de casos + Roadmap de implementación en organizaciones. 22 Integración, Ética y Tendencias Futuras (II) • Riesgos éticos: Bias en scoring, transparencia algorítmica. 23 Integración, Ética y Tendencias Futuras (III) • Tendencias: Alternative data, LLMs en finanzas, RL para ejecución. 24 Integración, Ética y Tendencias Futuras (IV) • Proyecto integrador: Presentación de resultados con enfoque profesional. ​ •​ Prerrequisitos:​ Conocimientos intermedio sobre python Conocimientos sobre Economía y Finanzas Estadística (Descriptiva e Inferenial) 8.​ Bibliografía •​ De Prado, M. L. (2018). Advances in financial machine learning. John Wiley & Sons. •​ Yanglet, X. Y. L., Cao, Y., & Deng, L. (2025). Multimodal financial foundation models (MFFMs): Progress, prospects, and challenges. arXiv preprint arXiv:2506.01973. •​ Alghamdi, H., & Alqithami, S. (2025). A robust machine learning framework for stock market classification. Expert Systems with Applications, 294, 128573. •​ Mertzanis, C. (2025). Artificial intelligence and investment management: Structure, strategy, and governance. International Review of Financial Analysis, 104599. •​ Hilpisch, Y. (2018). Python for finance. " O'Reilly Media, Inc.". •​ Tang, S. (2026). Creating a Python platform for students to learn full-stack development of financial applications. Financial Innovation, 12(1), 32. •​ Hu, Z., Uhryn, D., Ushenko, Y., Yatsko, O., Kodrianu, O., Kovalchuk, M., & Tomka, Y. (2024, January). Corporate information system for exchange rate analysis and commodity money forecasting. In Sixteenth International Conference on Correlation Optics (Vol. 12938, pp. 94-97). SPIE. •​ Ghanavati, N., & Ali, H. (2025, December). Graph-Theoretical Approaches for Analyzing Financial Markets. In International Conference on Complex Networks and Their Applications (pp. 123-134). Cham: Springer Nature Switzerland. •​ Taleb, N. N. (2020). Statistical consequences of fat tails: Real world preasymptotics, epistemology, and applications. arXiv preprint arXiv:2001.10488. Abraham Zamudio
  9. •​ Petropoulos, F., Apiletti, D., Assimakopoulos, V., Babai, M. Z.,

    Barrow, D. K., Taieb, S. B., ... & Ziel, F. (2022). Forecasting: theory and practice. International Journal of forecasting, 38(3), 705-871. •​ Grobys, K., Junttila, J., Kolari, J. W., & Sapkota, N. (2021). On the stability of stablecoins. Journal of Empirical Finance, 64, 207-223. •​ Taleb, N. N., Bar-Yam, Y., & Cirillo, P. (2022). On single point forecasts for fat-tailed variables. International Journal of Forecasting, 38(2), 413-422. •​ Abraham Zamudio