Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Fundamentos Estadísticos del Deep Learning ¿Por...

Fundamentos Estadísticos del Deep Learning ¿Por qué funciona el Deep Learning? : Una perspectiva estadística

Avatar for Abraham Zamudio

Abraham Zamudio

March 27, 2026
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. www.educateperuconsultores.com Fundamentos Estadísticos del Deep Learning ¿Por qué funciona el

    Deep Learning? : Una perspectiva estadística Abraham Zamudio https://www.linkedin.com/in/abraham-zamudio/
  2. www.educateperuconsultores.com El milagro estadístico del Deep Learning Principio fundamental Para

    garantizar la generalización, la capacidad del modelo (complejidad) debe estar controlada respecto al número de muestras n. Herramientas teóricas clásicas • Dimensión VC (Vapnik-Chervonenkis) • Complejidad de Rademacher La predicción clásica: Si el número de parámetros P excede significativamente el número de muestras n ( P ≫ n), el modelo tiene capacidad suficiente para memorizar los datos de entrenamiento. • Consecuencia esperada: Error de entrenamiento ≈0, pero Error de prueba → Alto (Sobreajuste severo). • Solución clásica: Regularización explícita (L1,L2),reducción de dimensionalidad o aumento de datos.
  3. www.educateperuconsultores.com La Realidad Empírica del Deep Learning El régimen moderno:

    Las redes neuronales modernas (ResNet, Transformers, etc.) operan consistentemente en el régimen sobreparametrizado. Ejemplo: Un ResNet-50 tiene ~25 millones de parámetros. ImageNet tiene ~1.2 millones de imágenes. P≫n. La observación contraintuitiva: 1. Las redes logran error de entrenamiento cero (interpolación perfecta). 2. A pesar de esto, logran error de prueba bajo (generalización robusta) 3. Aumentar el tamaño del modelo (más parámetros) a menudo mejora la generalización, en lugar de empeorarla.
  4. www.educateperuconsultores.com La Evidencia Crítica: El Experimento de Zhang (2017) Metodología

    del experimento: 1. Entrenar una red potente (Inception, AlexNet) en CIFAR-10 (datos reales). 2. Entrenar la misma red en CIFAR-10 con etiquetas aleatorizadas (shuffled labels). 3. Entrenar la misma red en imágenes de ruido (gaussiano) con etiquetas reales. Resultados: • Datos Reales: Train Error → 0%, Test Error ≈ 10% (Excelente). • Etiquetas Aleatorias Train Error → 0% (La red memoriza el ruido), Test Error ≈ 90% (Error chance). • Imágenes de Ruido: Train Error → 0%, Test Error ≈ ≈ 90%. Conclusión devastadora para la teoría clásica: • La red tiene la capacidad expresiva para memorizar ruido completo. • Por lo tanto, las cotas clásicas basadas solo en la capacidad del modelo (VC dimension) son demasiado laxas (vacuously true bounds). • La generalización no depende solo de la arquitectura, sino de la interacción entre algoritmo de optimización (SGD) y estructura de los datos.
  5. www.educateperuconsultores.com Marco Conceptual — Aprendizaje Estadístico vs. Optimización 1. Fundamentos

    Formales del Problema de Aprendizaje a. El Espacio de Probabilidad Subyacente i. Definición 1 (Espacio de Generación de Datos): b. La Clase de Hipótesis (Espacio de Funciones) i. Definición 2 (Clase de Hipótesis Paramétrica): ii. Estructura típica de una red neuronal: 2. La Función de Pérdida Empírica a. Definición 3 (Riesgo Empírico): b. El Problema de Optimización Empírica (ERM) c. Propiedades Estadísticas del Riesgo Empírico 3. El Riesgo Verdadero a. Definición 4 (Riesgo Verdadero / Riesgo Esperado) b. Descomposición del Riesgo Verdadero i. Teorema 1 (Descomposición Sesgo-Varianza-Ruido): c. Estimación del Riesgo Verdadero en la Práctica 4. La Brecha de Generalización: El Objeto de Estudio Central a. Definición Formal i. Definición 5 (Brecha de Generalización): b. Cotas Teóricas Clásicas i. Teorema 2 (Cota basada en Dimensión VC - Vapnik-Chervonenkis) ii. Teorema 3 (Cota basada en Complejidad de Rademacher) c. La Brecha en el Régimen Sobreparametrizado Vapnik, Vladimir. The nature of statistical learning theory. Springer science & business media, 2013. Bartlett, Peter L., and Shahar Mendelson. "Rademacher and gaussian complexities: Risk bounds and structural results." Journal of machine learning research 3.Nov (2002): 463-482. Zhang, C., et al. "Understanding deep learning requires rethinking generalization. arXiv." arXiv preprint arXiv:1611.03530 26 (2017). Belkin, Mikhail, et al. "Reconciling modern machine-learning practice and the classical bias–variance trade-off." Proceedings of the National Academy of Sciences 116.32 (2019): 15849-15854.
  6. www.educateperuconsultores.com La Paradoja Fundamental Imaginen por un momento que son

    arquitectos. La física clásica les dice que el edificio que diseñaron debería colapsar: tiene demasiadas ventanas, muy pocos pilares de soporte, y materiales que exceden los límites teóricos de estabilidad. Sin embargo, cuando lo construyen, no solo se mantiene en pie, sino que resiste terremotos mejor que edificios convencionales. ¿Qué harían? O bien: 1. Descartan los cálculos como irrelevantes, o 2. Sospechan que hay principios físicos no descubiertos operando en su diseño En Deep Learning, vivimos la segunda opción.
  7. www.educateperuconsultores.com La Paradoja Fundamental : La Pregunta Central ¿Qué propiedades

    del algoritmo de optimización (por ejemplo, descenso de gradiente estocástico) inducen un sesgo implícito (implicit bias) que selecciona, entre el conjunto de minimizadores globales, aquellas soluciones con buena capacidad de generalización? ¿Qué mecanismo induce una regularización implícita que restringe efectivamente el espacio de hipótesis, favoreciendo soluciones de baja complejidad (en algún sentido funcional o geométrico), a pesar de la ausencia de regularización explícita? Dado que múltiples hipótesis interpolan perfectamente los datos, ¿por qué el algoritmo de optimización (e.g., SGD) selecciona soluciones cuya complejidad efectiva —medida en términos de normas funcionales, márgenes o subconjuntos efectivos induce cotas no vacuas de generalización (por ejemplo, a través de una baja complejidad de Rademacher efectiva)?
  8. www.educateperuconsultores.com Por Qué Esto Importa Si son Investigadores Entender por

    qué funciona el DL les permite: • Diseñar arquitecturas con principios, no por prueba y error • Identificar cuándo el DL fallará (límites teóricos) • Contribuir a la teoría que aún está en construcción Si son Practicantes Entender por qué funciona el DL les permite: • Diagnosticar problemas de generalización rigurosamente • Justificar decisiones de diseño ante stakeholders • Evitar seguir recetas ciegamente cuando el contexto cambia Si son Educadores Entender por qué funciona el DL les permite: • Enseñar fundamentos, no solo herramientas • Preparar estudiantes para un campo en evolución rápida • Fomentar pensamiento crítico sobre afirmaciones de "state-of-the-art"
  9. www.educateperuconsultores.com Teorema de aproximación universal El Teorema de Aproximación Universal

    de Cybenko (1989) constituye uno de los resultados fundacionales de la teoría de redes neuronales artificiales. Este teorema establece rigurosamente que una red neuronal feedforward con una sola capa oculta, un número finito de neuronas y una función de activación sigmoidea no polinomial puede aproximar cualquier función continua definida sobre un subconjunto compacto de Rn , con precisión arbitraria en la norma del supremo. El teorema no garantiza que la aproximación sea eficiente en términos de número de neuronas, ni que los parámetros puedan ser encontrados mediante algoritmos de optimización prácticos. Sin embargo, proporciona el fundamento teórico que justifica el uso de redes neuronales como aproximadores universales de funciones, estableciendo las bases matemáticas para el desarrollo posterior del aprendizaje profundo. Enunciado simplificado: Una red feedforward con una capa oculta y activación no lineal no polinomial puede aproximar cualquier función continua en un compacto, con precisión arbitraria. Codigo Fuente
  10. www.educateperuconsultores.com Teorema de aproximación universal Enunciado simplificado: Una red feedforward

    con una capa oculta y activación no lineal no polinomial puede aproximar cualquier función continua en un compacto, con precisión arbitraria. Codigo Fuente
  11. www.educateperuconsultores.com Teorema de aproximación universal Enunciado simplificado: Una red feedforward

    con una capa oculta y activación no lineal no polinomial puede aproximar cualquier función continua en un compacto, con precisión arbitraria.
  12. www.educateperuconsultores.com Limitaciones prácticas del teorema aproximación universal Limitación teórica Implicación

    práctica Existencia ≠ constructividad El teorema no dice cómo encontrar los pesos óptimos Número de neuronas puede crecer exponencialmente En alta dimensión, la aproximación requiere recursos prohibitivos No considera ruido ni muestreo finito La generalización depende de propiedades estadísticas de los datos Ignora la optimización SGD puede converger a mínimos locales o planos
  13. www.educateperuconsultores.com Descomposición clásica del error de generalización La descomposición clásica

    del error de generalización constituye uno de los resultados fundamentales de la teoría de aprendizaje estadístico. Este teorema establece que el error cuadrático esperado de un predictor puede descomponerse aditivamente en tres componentes conceptualmente distintos:
  14. www.educateperuconsultores.com Descomposición clásica del error de generalización La descomposición sesgo-varianza

    informa decisiones críticas en el flujo de trabajo de ML/DL: Decisión Relacionado con Acción basada en diagnóstico Selección de modelo Sesgo vs. Varianza Aumentar/disminuir capacidad Regularización Principalmente varianza Añadir penalización para reducir varianza Recolección de datos Principalmente varianza Más datos reducen varianza Ingeniería de features Principalmente sesgo Mejores features reducen sesgo Ensembling Principalmente varianza Promediar modelos reduce varianza
  15. www.educateperuconsultores.com Descomposición clásica del error de generalización Derivación Completa de

    la Descomposición Estrategia de Demostración La demostración sigue estos pasos: 1. Expandir el error cuadrático 2. Añadir y restar términos estratégicos 3. Aplicar propiedades de expectativa 4. Agrupar términos para identificar sesgo, varianza y ruido
  16. www.educateperuconsultores.com Descomposición clásica del error de generalización Interpretación Detallada de

    Cada Componente Sesgo (Bias) Interpretación: • Mide cuánto se desvía sistemáticamente el predictor promedio (sobre todos los posibles conjuntos de entrenamiento) de la función verdadera • Sesgo alto indica que el modelo es demasiado simple para capturar la estructura de los datos • Es un error determinístico que no se reduce con más datos
  17. www.educateperuconsultores.com Descomposición clásica del error de generalización Interpretación Detallada de

    Cada Componente Varianza Interpretación: • Mide cuánto varía el predictor cuando se entrena con diferentes conjuntos de datos • Varianza alta indica que el modelo es demasiado sensible a fluctuaciones aleatorias en los datos de entrenamiento • Se reduce con más datos de entrenamiento
  18. www.educateperuconsultores.com Descomposición clásica del error de generalización Interpretación Detallada de

    Cada Componente Ruido Irreducible Interpretación: • Representa la variabilidad en y que no puede ser explicada por x • Es un límite inferior fundamental: ningún modelo puede tener error menor que σ2 • No se reduce con mejores modelos ni más datos
  19. www.educateperuconsultores.com Descomposición clásica del error de generalización El Trade-off Sesgo-Varianza

    : En general, reducir el sesgo aumenta la varianza y viceversa. Esto crea un trade-off que debe ser equilibrado para minimizar el error total. Escenario Sesgo Varianza Error Total Acción Recomendada Underfitting Alto Bajo Alto Aumentar complejidad, añadir features Overfitting Bajo Alto Alto Regularizar, más datos, simplificar modelo Balance óptimo Moderado Moderado Mínimo Mantener configuración actual
  20. www.educateperuconsultores.com Dropout como Aproximación Bayesiana Dropout, introducido originalmente por Hinton

    et al. (2012) como una técnica heurística de regularización para redes neuronales, fue rigorosamente fundamentado teóricamente por Gal & Ghahramani (2016) como una aproximación variacional a la inferencia Bayesiana en redes neuronales profundas. Este informe técnico establece que: 1. Dropout durante el entrenamiento es equivalente a entrenar un ensemble de 2N sub-redes (donde N es el número de unidades con dropout), cada una con una configuración diferente de neuronas activas. 2. Dropout durante la inferencia (con escalado apropiado) aproxima la media predictiva posterior de un proceso Gaussiano profundo, proporcionando no solo predicciones puntuales sino también estimaciones de incertidumbre. 3. Desde la perspectiva de descomposición de error, dropout incrementa ligeramente el sesgo pero reduce significativamente la varianza, resultando en una mejora neta del error de generalización.
  21. www.educateperuconsultores.com Batch Normalization Batch Normalization (BN), introducido por Ioffe &

    Szegedy (2015), representa uno de los avances más significativos en el entrenamiento de redes neuronales profundas. Originalmente propuesto para mitigar el Internal Covariate Shift (cambio en la distribución de activaciones entre capas durante el entrenamiento), análisis posteriores han revelado que sus beneficios principales provienen de: 1. Estabilización del paisaje de optimización: BN suaviza la función de pérdida, permitiendo tasas de aprendizaje más altas y reduciendo la sensibilidad a la inicialización de parámetros. 2. Regularización implícita mediante ruido de mini-batch: La estimación de estadísticas (media y varianza) sobre mini-batches introduce ruido estocástico que actúa como regularizador, similar a Dropout. 3. Normalización de momentos de primer y segundo orden: Por cada mini-batch, BN estandariza las activaciones a media cero y varianza unitaria, mejorando el flujo de gradientes durante backpropagation.
  22. www.educateperuconsultores.com Early Stopping como Validación Cruzada Secuencial Early Stopping (parada

    temprana) representa una de las técnicas de regularización implícita más efectivas y computacionalmente eficientes en el entrenamiento de redes neuronales profundas. Originalmente propuesto como una heurística práctica para prevenir sobreajuste, análisis teóricos posteriores han establecido que: 1. Early stopping es equivalente a validación cruzada secuencial: Cada época de entrenamiento representa un modelo de complejidad creciente, y la parada en el punto óptimo selecciona el modelo con mejor compromiso sesgo-varianza. 2. Regularización implícita mediante control de complejidad efectiva: Detener el entrenamiento antes de la convergencia completa limita la capacidad efectiva del modelo, similar a regularización L2 pero sin modificar la función de pérdida. 3. Eficiencia computacional superior: A diferencia de k-fold cross-validation que requiere entrenar k modelos, early stopping obtiene beneficios similares con un solo entrenamiento monitoreado.