Computer Vision : Modelos Multimodales

Silabo del curso Computer Vision : Modelos Multimodales 2026
Profesor Abraham Zamudio

1. Datos generales del curso Asignatura : Computer Vision :
Modelos Multimodales Horas : 24 2. Presentación La inteligencia artificial está experimentando una de las transformaciones más profundas de su historia: la convergencia de modalidades. Durante décadas, la visión artificial y el procesamiento del lenguaje natural evolucionaron en silos independientes, desarrollando arquitecturas, métricas y paradigmas de optimización por separado. Sin embargo, la irrupción de los modelos multimodales ha demostrado que la verdadera inteligencia artificial general requiere la capacidad de percibir, interpretar y generar información a través de múltiples canales sensoriales de manera simultánea. Este curso intensivo de 24 horas, estructurado en 8 sesiones técnicas de 3 horas, ha sido diseñado meticulosamente para proporcionar a los profesionales de las ciencias básicas y la ingeniería una comprensión rigurosa, tanto teórica como práctica, de la vanguardia en modelos de visión y lenguaje. A lo largo de este programa, los participantes no solo estudiarán la evolución histórica que nos ha traído hasta la era de los "Foundation Models", sino que desentrañarán las arquitecturas de vanguardia que están redefiniendo la industria, con un énfasis especial en modelos paradigmáticos como CLIP, BLIP, BLIP-2 y Flamingo, culminando con una visión panorámica de los ecosistemas multimodales de gran escala como Kosmos, PaLI y Gemini. Desglose Técnico del Contenido Académico Clase 1: Fundamentos y Evolución de la Visión Artificial (3 horas) El curso establece una base sólida repasando los problemas fundamentales de la visión por computador: clasificación, detección, segmentación y generación. Se realiza un recorrido crítico por la evolución histórica de la disciplina, analizando las limitaciones y logros de cada era. Se inicia con la primera generación, basada en la ingeniería de características manuales (filtros convolutivos, operadores de gradiente, detectores de bordes como Canny o Sobel, y descriptores locales como SIFT o HOG). Se avanza hacia la segunda generación, dominada por el aprendizaje automático clásico, donde algoritmos como Support Vector Machines (SVM), Random Forest y métodos de Boosting (AdaBoost, Gradient Boosting) consumían estas características extraídas. La tercera generación marca el punto de inflexión con el aprendizaje profundo (Deep Learning), detallando la arquitectura y el impacto de redes convolucionales (CNNs) históricas como AlexNet, VGG y ResNet, introduciendo conceptos como residuos y normalización por lotes. Finalmente, se establece el puente hacia la cuarta generación actual: la era de los Transformers aplicados a la visión (Vision Transformers), el aprendizaje autosupervisado (Auto-supervised learning) y el surgimiento de los Modelos de Fundación (Foundation Models), que aprenden representaciones ricas a partir de datos no etiquetados a escala web. Clase 2: CLIP - Conectando Lenguaje e Imágenes, Parte I (3 horas) Este módulo se centra en la arquitectura revolucionaria de CLIP (Contrastive Language-Image Pretraining). Se analiza en detalle su diseño de encoders duales: un encoder visual (que puede ser una ResNet o un Vision Transformer) y un encoder textual (basado en Transformers), los cuales proyectan imágenes y texto en un espacio latente compartido. El núcleo técnico de esta sesión es el entrenamiento contrastivo. Se explicará Abraham Zamudio

matemáticamente cómo la función de pérdida (típicamente una variante de
InfoNCE) maximiza la similitud del producto punto entre pares imagen-texto correctos (diagonal de la matriz de similitud) y minimiza la similitud con todos los demás pares del batch (negativos). Este mecanismo es el que permite la capacidad emergente más poderosa de CLIP: el Zero-Shot Learning. Se demostrará cómo, sin necesidad de fine-tuning, el modelo puede clasificar imágenes en categorías nunca vistas durante el entrenamiento, simplemente comparando la imagen con los "prompts" textuales de las clases objetivo. Clase 3: CLIP - Conectando Lenguaje e Imágenes, Parte II (3 horas) Profundizando en las capacidades de CLIP, esta sesión explora la clasificación sin entrenamiento adicional y los mecanismos de transferencia de conocimiento. Se analizarán las implicaciones de utilizar CLIP como un extractor de características universal para tareas posteriores (downstream tasks). Además, se examinarán casos de uso industriales y de investigación de alto impacto, como la recuperación de imágenes a gran escala (Image Retrieval) y la búsqueda semántica. A diferencia de la búsqueda por metadatos o hash perceptual, la búsqueda semántica basada en CLIP permite consultas complejas y abstractas (ej. "un perro triste bajo la lluvia en una ciudad cyberpunk"), mapeando la intención del usuario directamente al espacio visual. Clase 4: BLIP - Bootstrapping Language-Image Pretraining, Parte I (3 horas) Mientras CLIP se especializa en la comprensión y alineación contrastiva, BLIP introduce un paradigma unificado que combina la comprensión con la capacidad generativa. Esta sesión detalla la arquitectura de BLIP, la cual incorpora un codificador de imagen, un codificador de texto y, crucialmente, un decodificador de texto. Se explicará cómo esta arquitectura permite abordar tareas generativas complejas como el "Image Captioning" (generación automática de descripciones textuales detalladas y contextualizadas de una imagen) y el "Visual Question Answering" (VQA), donde el modelo debe razonar sobre el contenido visual para responder preguntas en lenguaje natural. Se discutirá el mecanismo de "bootstrapping", que utiliza datos generados por el propio modelo (filtrados por un proceso de "capfilt" o filtrado de captions) para ampliar y mejorar los conjuntos de datos de entrenamiento, superando el ruido inherente en los pares imagen-texto de la web. Clase 5: BLIP - Bootstrapping Language-Image Pretraining, Parte II (3 horas) Esta sesión amplía el alcance de BLIP hacia la recuperación multimodal (Multimodal Retrieval), donde el modelo debe buscar imágenes a partir de texto o viceversa con una precisión semántica superior a la de CLIP en ciertos dominios, gracias a su entrenamiento generativo complementario. Se realizará un análisis comparativo técnico riguroso: BLIP vs. CLIP. Se discutirán las compensaciones (trade-offs) entre la eficiencia computacional y la flexibilidad generativa, explicando por qué CLIP es superior en tareas de clasificación zero-shot a gran escala, mientras que BLIP domina en tareas que requieren una salida textual estructurada o generativa a partir de una entrada visual. Clase 6: BLIP-2 y Laboratorio Práctico (3 horas) El salto cualitativo de BLIP a BLIP-2 representa uno de los avances más elegantes en eficiencia computacional multimodal. Se estudiará la introducción del "Query Transformer" (Q-Former), un módulo ligero que actúa como puente entre un encoder visual congelado (pre-entrenado, como ViT) y un Modelo de Lenguaje Grande (LLM) también congelado. El Q-Former extrae un conjunto fijo de "queries" visuales informativas que el LLM puede procesar eficientemente, evitando el costoso reentrenamiento de modelos de miles de millones de parámetros. La segunda mitad de esta sesión está dedicada a un laboratorio práctico intensivo. Los participantes implementarán pipelines de "captioning" automático, desarrollarán sistemas básicos de VQA y diseñarán prototipos de sistemas de asistencia visual, aplicando los conceptos teóricos en entornos de programación reales (ej. PyTorch/Hugging Face). Abraham Zamudio

Clase 7: Flamingo y Modelos Multimodales de Gran Escala, Parte
I (3 horas) Se introduce Flamingo, un modelo pionero en el aprendizaje multimodal con pocos ejemplos (Visual Few-Shot Learning). A diferencia de los enfoques anteriores que requerían fine-tuning para nuevas tareas, Flamingo puede adaptar su comportamiento a partir de unas pocas imágenes y textos de ejemplo intercalados en el prompt. El núcleo técnico de esta sesión es el mecanismo de "Cross-Attention" (atención cruzada) con compuertas (gated cross-attention), que permite inyectar información visual en las capas de un modelo de lenguaje preexistente (como un LLM de gran escala) de manera no intrusiva, preservando las capacidades lingüísticas originales mientras se habilita el razonamiento visual. Clase 8: Flamingo y Modelos Multimodales de Gran Escala, Parte II (3 horas) La sesión final consolida el conocimiento explorando la fusión profunda de Imagen-Lenguaje y el aprendizaje mediante instrucciones (Instruction Tuning) en el contexto multimodal. Se analizará cómo los modelos modernos no solo reconocen patrones, sino que siguen instrucciones complejas que involucran múltiples modalidades. Para cerrar el curso, se ofrecerá una visión panorámica y actualizada de los modelos posteriores que han heredado y expandido estos conceptos, incluyendo Kosmos (que integra percepción multimodal con razonamiento), PaLI (Pathways Language and Image model de Google, que escala estos principios a cientos de idiomas y tareas) y Gemini (el enfoque nativamente multimodal de última generación). Se discutirán las tendencias futuras, los desafíos de alineación, sesgo y escalabilidad computacional. Al finalizar este curso de 24 horas, los participantes de ciencias e ingeniería no solo habrán adquirido un vocabulario técnico preciso, sino que poseerán la intuición arquitectónica necesaria para evaluar, seleccionar e implementar modelos multimodales en proyectos de investigación o desarrollo de productos. Las habilidades adquiridas son directamente aplicables en campos de alta demanda como la robótica autónoma, el diagnóstico médico asistido por IA, los sistemas de búsqueda y recomendación de nueva generación, la creación de contenido automatizado y el desarrollo de agentes de inteligencia artificial capaces de interactuar con el mundo visual y textual de manera fluida. Este brochure representa una invitación a estar a la vanguardia de la revolución de la inteligencia artificial multimodal. 3. Objetivo general del curso Analizar, comprender e implementar las arquitecturas, mecanismos de entrenamiento y aplicaciones prácticas de los modelos multimodales de visión y lenguaje de vanguardia (CLIP, BLIP, BLIP-2 y Flamingo), mediante el estudio riguroso de sus fundamentos técnicos (espacios latentes compartidos, entrenamiento contrastivo, Query Transformers y Cross-Attention) y la ejecución de laboratorios prácticos. 4. Objetivos específicos del curso • Analizar los problemas fundamentales de la visión artificial (clasificación, detección, segmentación y generación) y su evolución histórica, contrastando las limitaciones de los métodos clásicos (filtros, SVM, Random Forest) con las capacidades de las CNNs profundas y la cuarta generación de Foundation Models basados en Transformers y aprendizaje autosupervisado. • Describir y explicar la arquitectura de encoders duales de CLIP, detallando el funcionamiento matemático del entrenamiento contrastivo y su aplicación práctica Abraham Zamudio

para lograr Zero-Shot Learning y transferencia de conocimiento en tareas
de clasificación sin entrenamiento adicional. • Diferenciar y comparar las capacidades arquitectónicas y de rendimiento entre CLIP y BLIP, identificando cuándo utilizar cada modelo para tareas específicas como recuperación de imágenes, búsqueda semántica, generación automática de descripciones (Image Captioning) y respuesta a preguntas visuales (Visual Question Answering o VQA). • Implementar soluciones técnicas prácticas a través de laboratorios dirigidos, aplicando la arquitectura de BLIP-2 y su módulo Query Transformer para integrar de manera eficiente y computacionalmente viable encoders visuales preentrenados con Modelos de Lenguaje Grande (LLMs) en sistemas de asistencia visual. • Evaluar los mecanismos de Cross-Attention y Few-Shot Learning visual en modelos multimodales de gran escala como Flamingo, comprendiendo cómo logran la fusión profunda de imagen y lenguaje y el aprendizaje mediante instrucciones (instruction tuning). • Examinar el estado del arte y las tendencias futuras de la visión multimodal, analizando las arquitecturas y enfoques de modelos posteriores de vanguardia como Kosmos, PaLI y Gemini, para anticipar su impacto en el desarrollo de soluciones de inteligencia artificial en la industria y la investigación. 5. Resultados de aprendizaje Al finalizar el curso el alumno: • Contextualizar y evaluar críticamente la evolución histórica de la visión artificial, identificando las limitaciones y capacidades de cada generación tecnológica, desde los descriptores locales y métodos clásicos de aprendizaje automático (SVM, Random Forest) hasta las arquitecturas de cuarta generación basadas en Transformers, aprendizaje autosupervisado y Foundation Models. • Aplicar los principios matemáticos y arquitectónicos del entrenamiento contrastivo y los encoders duales (CLIP) para ejecutar tareas de clasificación Zero-Shot, transferencia de conocimiento y recuperación de imágenes (Image Retrieval) sin requerir entrenamiento adicional (fine-tuning) del modelo. • Diseñar flujos de trabajo generativos multimodales utilizando la arquitectura BLIP, diferenciando sus capacidades de las de CLIP, para resolver tareas complejas como la generación automática de descripciones (Image Captioning), la respuesta a preguntas visuales (VQA) y la recuperación multimodal de alta precisión semántica. • Implementar prototipos funcionales en un entorno de laboratorio, integrando de manera eficiente encoders visuales preentrenados con Modelos de Lenguaje Grande (LLMs) a través del módulo Query Transformer (BLIP-2), desarrollando sistemas prácticos de captioning automático y asistencia visual. • Analizar los mecanismos avanzados de fusión imagen-lenguaje, como la Cross-Attention y el Few-Shot Learning visual (ejemplificados en Flamingo), para comprender cómo los modelos modernos logran el aprendizaje mediante Abraham Zamudio

instrucciones (instruction tuning) y se adaptan a nuevas tareas con
mínimos ejemplos. • Examinar el estado del arte de la inteligencia artificial multimodal, comparando las arquitecturas, escalabilidad y enfoques de los modelos de gran escala posteriores (Kosmos, PaLI y Gemini), para tomar decisiones técnicas fundamentadas en el desarrollo de proyectos de investigación o innovación tecnológica. 6. Metodología El desarrollo de las sesiones se efectuará mediante exposiciones del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7. Contenido por Sesiones: # DE HORAS CONTENIDO 3hrs Introducción a la visión artificial • Problemas fundamentales • Clasificación • Detección • Segmentación • Generación Evolución histórica • Primera generación : Filtros y operadores, Detectores de bordes, Descriptores locales • Segunda generación : Aprendizaje automático, SVM, Random Forest, Boosting • Tercera generación : CNNs profundas, AlexNet, VGG, ResNet • Cuarta generación : Transformers, Auto-supervised learning, Foundation Models 3hrs CLIP: Connecting Language and Images (I) • Arquitectura CLIP • Encoders duales ◦ Encoder visual ◦ Encoder textual • Entrenamiento contrastivo • Zero-Shot Learning Abraham Zamudio

3hrs CLIP: Connecting Language and Images (II) • Clasificación sin
entrenamiento adicional • Transferencia de conocimiento • Casos de uso ◦ Recuperación de imágenes ◦ Búsqueda semántica 3hrs BLIP: Bootstrapping Language-Image Pretraining (I) • Arquitectura BLIP • Image Captioning • Visual Question Answering 3hrs BLIP: Bootstrapping Language-Image Pretraining (I) • Retrieval Multimodal • Generación automática de descripciones • BLIP vs CLIP 3hrs BLIP: Bootstrapping Language-Image Pretraining (I) • BLIP-2 ◦ Query Transformer ◦ Integración con LLMs • Laboratorio ◦ Captioning automático ◦ VQA ◦ Sistemas de asistencia visual 3hrs Flamingo y Modelos Multimodales de Gran Escala • Introducción a Flamingo • Few-Shot Learning Visual • Cross-Attention 3hrs Flamingo y Modelos Multimodales de Gran Escala • Fusión Imagen-Lenguaje • Aprendizaje mediante instrucciones • Modelos posteriores ◦ Kosmos ◦ PaLI ◦ Gemini • Prerrequisitos: Fundamentos de Visión Computacional usando Python Abraham Zamudio

Computer Vision : Modelos Multimodales

Computer Vision : Modelos Multimodales

Abraham Zamudio

More Decks by Abraham Zamudio

Other Decks in Education

Featured

Transcript

Silabo del curso Computer Vision : Modelos Multimodales 2026

1. Datos generales del curso Asignatura : Computer Vision :

matemáticamente cómo la función de pérdida (típicamente una variante de

Clase 7: Flamingo y Modelos Multimodales de Gran Escala, Parte

para lograr Zero-Shot Learning y transferencia de conocimiento en tareas

instrucciones (instruction tuning) y se adaptan a nuevas tareas con

3hrs CLIP: Connecting Language and Images (II) • Clasificación sin