solo busca minimizar la p´ erdida, sino que debe hacerlo de manera que favorezca soluciones que capturen patrones genuinos y no ruido espurio. En segundo lugar, la escalabilidad de los algoritmos de optimizaci´ on determina qu´ e tipos de problemas pueden abordarse. Los m´ etodos de segundo orden, como el m´ etodo de Newton, convergen en menos iteraciones pero requieren calcular y almacenar la matriz Hessiana (o su inversa), lo cual es imposible para modelos con millones de par´ ametros. Los m´ etodos de primer orden, y especialmente el SGD, ofrecen un compromiso pr´ actico: cada iteraci´ on es barata y el progreso hacia el ´ optimo, aunque ruidoso, es suficiente para alcanzar soluciones de buena calidad. En tercer lugar, la optimizaci´ on es el motor que permite el aprendizaje en tiempo real (online learn- ing). En aplicaciones como sistemas de recomendaci´ on, publicidad program´ atica o veh´ ıculos aut´ onomos, los datos llegan en flujo continuo y los modelos deben actualizarse incrementalmente. El SGD, con su ca- pacidad de actualizar par´ ametros muestra por muestra, es el algoritmo ideal para entornos de aprendizaje en l´ ınea. Un aspecto frecuentemente subestimado es la interacci´ on entre la optimizaci´ on y la arquitectura del modelo. Por ejemplo, la elecci´ on de funciones de activaci´ on no lineales (ReLU, sigmoide, tanh) afecta la forma del paisaje de p´ erdida y, por ende, el comportamiento del SGD. Las t´ ecnicas de normalizaci´ on (batch normalization, layer normalization) fueron desarrolladas precisamente para estabilizar la opti- mizaci´ on y permitir tasas de aprendizaje m´ as altas. Asimismo, la inicializaci´ on de pesos (Xavier, He) es cr´ ıtica para evitar gradientes desvanecientes o explosivos en redes profundas, problemas que el SGD por s´ ı solo no puede resolver. La optimizaci´ on tambi´ en juega un papel crucial en la investigaci´ on de nuevas arquitecturas. El ´ exito de Transformers en procesamiento de lenguaje natural, por ejemplo, no habr´ ıa sido posible sin opti- mizadores como Adam (una variante del SGD con momentos adaptativos) que manejan eficientemente las escalas variables de los gradientes. De manera similar, los modelos generativos como GANs (Gen- erative Adversarial Networks) requieren resolver un problema de optimizaci´ on minimax, donde SGD se aplica alternativamente al generador y al discriminador. Desde una perspectiva pr´ actica, la eficiencia de los algoritmos de optimizaci´ on tiene un impacto econ´ omico directo. Entrenar modelos de lenguaje grandes (LLMs) como GPT-4 o BERT cuesta millones de d´ olares en recursos computacionales. Mejoras marginales en la velocidad de convergencia o en el uso de memoria pueden traducirse en ahorros significativos. Por esta raz´ on, los laboratorios de IA invierten grandes esfuerzos en investigar variantes de SGD, programaci´ on de tasas de aprendizaje (learning rate schedules) y t´ ecnicas de paralelizaci´ on. Finalmente, la optimizaci´ on es el puente entre la teor´ ıa estad´ ıstica del aprendizaje y la implementaci´ on pr´ actica. La teor´ ıa del riesgo emp´ ırico establece que minimizar la p´ erdida emp´ ırica sobre un conjunto de entrenamiento es una aproximaci´ on al verdadero riesgo esperado. El SGD, al utilizar estimaciones estoc´ asticas del gradiente, introduce ruido que puede actuar como regularizador impl´ ıcito, mejorando la capacidad de generalizaci´ on. Este fen´ omeno, conocido como “efecto regularizador del ruido estoc´ astico”, es un ´ area activa de investigaci´ on que conecta la optimizaci´ on con la teor´ ıa de la generalizaci´ on. 1.3 Relaci´ on entre aprendizaje estad´ ıstico y optimizaci´ on num´ erica El aprendizaje estad´ ıstico y la optimizaci´ on num´ erica est´ an intr´ ınsecamente entrelazados, formando una simbiosis conceptual que ha definido el desarrollo de la inteligencia artificial moderna. Para comprender esta relaci´ on, es necesario partir del marco fundamental del aprendizaje supervisado. Dado un espacio de entrada X (por ejemplo, im´ agenes, texto, vectores num´ ericos) y un espacio de salida Y (etiquetas de clase, valores reales), se asume la existencia de una distribuci´ on de probabilidad conjunta desconocida P(x, y) sobre X × Y. El objetivo del aprendizaje es encontrar una funci´ on hip´ otesis h : X → Y, parametrizada por un vector θ ∈ Rd, que minimice el riesgo esperado: R(θ) = E(x,y)∼P [L(hθ (x), y)] (1) donde L : Y × Y → R+ es una funci´ on de p´ erdida que cuantifica el error de predicci´ on. El problema fundamental es que P es desconocida; solo se dispone de un conjunto finito de muestras independientes e id´ enticamente distribuidas (i.i.d.) {(xi , yi )}n i=1 . Por lo tanto, en lugar de minimizar R(θ), se minimiza el riesgo emp´ ırico: ˆ Rn (θ) = 1 n n i=1 L(hθ (xi ), yi ) (2) https://educateperuconsultores.com/ P´ ag. 7