Upgrade to Pro — share decks privately, control downloads, hide ads and more …

El Paradigma de Secuencia Clasico en CNNs : Un...

El Paradigma de Secuencia Clasico en CNNs : Un analisis profundo de VGG16 y VGG19

Avatar for Abraham Zamudio

Abraham Zamudio

June 26, 2026

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. El Paradigma de Secuencia Cl´ asico en CNNs Un an´

    alisis profundo de VGG16 y VGG19 Abraham Zamudio 2026 1 / 13
  2. Contenido 1 Introducci´ on y Contexto 2 El Paradigma de

    Secuencia Cl´ asico 3 Arquitectura General 4 VGG16 y VGG19 5 La Magia de los Filtros 3x3 6 An´ alisis Comparativo 7 Ventajas, Desventajas y Legado 8 Conclusiones 2 / 13
  3. El Contexto Pre-VGG AlexNet (2012): Introdujo las CNNs profundas, pero

    usaba filtros grandes y asim´ etricos (11x11, 5x5). GoogLeNet (2014): Introdujo m´ odulos complejos y manuales (Inception) para optimizar el c´ omputo. La Pregunta de VGG (2014): ¿Es posible mejorar la precisi´ on simplemente aumentando la profundidad utilizando una arquitectura extremadamente simple y uniforme? La Respuesta: VGGNet El Visual Geometry Group (Oxford) demostr´ o que la profundidad, combinada con filtros peque˜ nos y una secuencia cl´ asica repetitiva, es la clave del ´ exito. 3 / 13
  4. ¿Qu´ e es el Paradigma de Secuencia Cl´ asico? A

    diferencia de las arquitecturas con ”m´ odulos especiales”(como Inception), el paradigma cl´ asico de VGG se basa en la uniformidad estricta: 1 Filtros Peque˜ nos: Uso exclusivo de convoluciones 3x3 (y 1x1 en capas finales). 2 Secuencia Repetitiva: Bloques id´ enticos de (Conv 3x3 → ReLU → MaxPool). 3 Reducci´ on Progresiva: El tama˜ no espacial se reduce a la mitad (stride 2) mientras la profundidad (canales) se duplica (64 → 128 → 256 → 512). 4 Clasificador Est´ andar: Transici´ on de caracter´ ısticas a un clasificador de Capas Totalmente Conectadas (FC). 4 / 13
  5. Estructura General de la Red VGG La red se divide

    en dos grandes partes: 1. Extractor de Caracter´ ısticas 5 bloques de convoluci´ on. Filtros 3x3, stride 1, padding 1. MaxPool 2x2, stride 2. Activaci´ on ReLU en cada conv. 2. Clasificador (Cabeza) FC1: 4096 neuronas. FC2: 4096 neuronas. FC3: 1000 neuronas (ImageNet). Softmax al final. Entrada est´ andar: Im´ agenes de 224 × 224 × 3 (RGB) 5 / 13
  6. VGG16: 16 Capas de Peso La variante m´ as popular

    y equilibrada de la familia VGG. Desglose de las 16 Capas de Peso 13 Capas Convolucionales: Distribuidas en 5 bloques. Extraen caracter´ ısticas jer´ arquicas (bordes → texturas → objetos). 3 Capas Totalmente Conectadas (FC): FC1, FC2 y FC3. Mapean las caracter´ ısticas extra´ ıdas a las clases de salida. Caracter´ ısticas clave: Total de par´ ametros: ≈ 138 millones. Tama˜ no del modelo: ≈ 528 MB (en float32). 6 / 13
  7. VGG19: 19 Capas de Peso Una versi´ on m´ as

    profunda dise˜ nada para evaluar el l´ ımite del paradigma de profundidad. Desglose de las 19 Capas de Peso 16 Capas Convolucionales: A˜ nade 3 capas convolucionales extra en los bloques m´ as profundos (bloques 3, 4 y 5) en comparaci´ on con VGG16. 3 Capas Totalmente Conectadas (FC): Id´ enticas a VGG16 (FC1, FC2, FC3). Caracter´ ısticas clave: Total de par´ ametros: ≈ 144 millones. Nota: A pesar de ser m´ as profunda, la mejora en precisi´ on respecto a VGG16 es marginal, pero el coste computacional aumenta. 7 / 13
  8. ¿Por qu´ e exclusivamente filtros 3x3? El uso de filtros

    3x3 es el pilar fundamental del paradigma de secuencia cl´ asico. 1. Campo Receptivo Equivalente Dos capas 3x3 apiladas = Campo receptivo de un filtro 5x5. Tres capas 3x3 apiladas = Campo receptivo de un filtro 7x7. 2. Menos Par´ ametros Un filtro 7x7 tiene 49 par´ ametros. Tres filtros 3x3 tienen 3 × 9 = 27 par´ ametros. Reducci´ on del 45 % en par´ ametros. 3. M´ as No-Linealidad Al usar tres capas 3x3 en lugar de una 7x7, se aplican tres funciones de activaci´ on ReLU en lugar de una. Esto hace que la funci´ on de decisi´ on sea m´ as discriminativa y mejore el aprendizaje. 8 / 13
  9. Comparativa de Arquitecturas Caracter´ ıstica VGG16 VGG19 Capas Convolucionales 13

    16 Capas FC 3 3 Total Capas de Peso 16 19 Par´ ametros Totales ≈ 138.3 M ≈ 143.6 M Par´ ametros en Convs ≈ 15.3 M ≈ 20.0 M Par´ ametros en FC ≈ 123.0 M ≈ 123.0 M Top-1 Accuracy (ImageNet) 71.5 % 72.2 % Observaci´ on: La inmensa mayor´ ıa de los par´ ametros (casi el 90 %) residen en las capas totalmente conectadas, no en las convolucionales. 9 / 13
  10. Fortalezas y Debilidades Ventajas Simplicidad: Extremadamente f´ acil de implementar

    y depurar. Extractor de Caracter´ ısticas: Excelente para tareas de visi´ on por computadora (detecci´ on, segmentaci´ on). Transfer Learning: Sus pesos preentrenados son un est´ andar de oro para inicializar otras redes. Desventajas Peso Masivo: Requiere mucha memoria RAM/VRAM. Inferencia Lenta: Alto coste computacional en producci´ on. Desvanecimiento del Gradiente: Al ser muy profunda sin conexiones residuales, sufre en el entrenamiento desde cero. 10 / 13
  11. Legado e Impacto en el Paradigma Validaci´ on de la

    Profundidad: VGG demostr´ o que ”m´ as profundo es mejor”(hasta cierto punto), cambiando el foco de la comunidad desde el dise˜ no de m´ odulos complejos hacia el aumento de profundidad. El Puente hacia ResNet: Los problemas de desvanecimiento del gradiente en VGG19 motivaron directamente la creaci´ on de las Skip Connections (Conexiones Residuales) en ResNet (2015). Uso Actual: Aunque ha sido superada en eficiencia, VGG16 sigue siendo ampliamente utilizada como backbone en modelos de estilo art´ ıstico (Neural Style Transfer) y como extractor de caracter´ ısticas en modelos de dos etapas. 11 / 13
  12. Conclusiones 1 El paradigma de secuencia cl´ asico de VGG

    prioriza la simplicidad, la uniformidad y la profundidad mediante filtros peque˜ nos (3x3). 2 VGG16 (16 capas de peso) ofrece el mejor equilibrio entre precisi´ on y coste computacional, convirti´ endose en un est´ andar de la industria. 3 VGG19 (19 capas de peso) explora los l´ ımites de la profundidad, demostrando mejoras marginales a costa de mayor complejidad. 4 La innovaci´ on de los filtros 3x3 apilados redujo par´ ametros y aument´ o la no-linealidad, sentando las bases para las CNNs modernas. 12 / 13