del algoritmo de optimización (por ejemplo, descenso de gradiente estocástico) inducen un sesgo implícito (implicit bias) que selecciona, entre el conjunto de minimizadores globales, aquellas soluciones con buena capacidad de generalización? ¿Qué mecanismo induce una regularización implícita que restringe efectivamente el espacio de hipótesis, favoreciendo soluciones de baja complejidad (en algún sentido funcional o geométrico), a pesar de la ausencia de regularización explícita? Dado que múltiples hipótesis interpolan perfectamente los datos, ¿por qué el algoritmo de optimización (e.g., SGD) selecciona soluciones cuya complejidad efectiva —medida en términos de normas funcionales, márgenes o subconjuntos efectivos induce cotas no vacuas de generalización (por ejemplo, a través de una baja complejidad de Rademacher efectiva)?