Modelos Multimodales Horas : 24 2. Presentación La inteligencia artificial está experimentando una de las transformaciones más profundas de su historia: la convergencia de modalidades. Durante décadas, la visión artificial y el procesamiento del lenguaje natural evolucionaron en silos independientes, desarrollando arquitecturas, métricas y paradigmas de optimización por separado. Sin embargo, la irrupción de los modelos multimodales ha demostrado que la verdadera inteligencia artificial general requiere la capacidad de percibir, interpretar y generar información a través de múltiples canales sensoriales de manera simultánea. Este curso intensivo de 24 horas, estructurado en 8 sesiones técnicas de 3 horas, ha sido diseñado meticulosamente para proporcionar a los profesionales de las ciencias básicas y la ingeniería una comprensión rigurosa, tanto teórica como práctica, de la vanguardia en modelos de visión y lenguaje. A lo largo de este programa, los participantes no solo estudiarán la evolución histórica que nos ha traído hasta la era de los "Foundation Models", sino que desentrañarán las arquitecturas de vanguardia que están redefiniendo la industria, con un énfasis especial en modelos paradigmáticos como CLIP, BLIP, BLIP-2 y Flamingo, culminando con una visión panorámica de los ecosistemas multimodales de gran escala como Kosmos, PaLI y Gemini. Desglose Técnico del Contenido Académico Clase 1: Fundamentos y Evolución de la Visión Artificial (3 horas) El curso establece una base sólida repasando los problemas fundamentales de la visión por computador: clasificación, detección, segmentación y generación. Se realiza un recorrido crítico por la evolución histórica de la disciplina, analizando las limitaciones y logros de cada era. Se inicia con la primera generación, basada en la ingeniería de características manuales (filtros convolutivos, operadores de gradiente, detectores de bordes como Canny o Sobel, y descriptores locales como SIFT o HOG). Se avanza hacia la segunda generación, dominada por el aprendizaje automático clásico, donde algoritmos como Support Vector Machines (SVM), Random Forest y métodos de Boosting (AdaBoost, Gradient Boosting) consumían estas características extraídas. La tercera generación marca el punto de inflexión con el aprendizaje profundo (Deep Learning), detallando la arquitectura y el impacto de redes convolucionales (CNNs) históricas como AlexNet, VGG y ResNet, introduciendo conceptos como residuos y normalización por lotes. Finalmente, se establece el puente hacia la cuarta generación actual: la era de los Transformers aplicados a la visión (Vision Transformers), el aprendizaje autosupervisado (Auto-supervised learning) y el surgimiento de los Modelos de Fundación (Foundation Models), que aprenden representaciones ricas a partir de datos no etiquetados a escala web. Clase 2: CLIP - Conectando Lenguaje e Imágenes, Parte I (3 horas) Este módulo se centra en la arquitectura revolucionaria de CLIP (Contrastive Language-Image Pretraining). Se analiza en detalle su diseño de encoders duales: un encoder visual (que puede ser una ResNet o un Vision Transformer) y un encoder textual (basado en Transformers), los cuales proyectan imágenes y texto en un espacio latente compartido. El núcleo técnico de esta sesión es el entrenamiento contrastivo. Se explicará Abraham Zamudio