Los modelos de Procesamiento de Lenguaje Natural (PLN) son cada vez más críticos en aplicaciones como chatbots, análisis de sentimientos y traducción automática. Sin embargo, su exposición a ataques adversarios —modificaciones sutiles en los inputs diseñadas para engañar al modelo— revela vulnerabilidades de seguridad y robustez.
En esta charla, exploraremos cómo TextAttack, un framework de código abierto, permite simular estos ataques para evaluar y mejorar la resistencia de los modelos de PLN. A través de ejemplos prácticos, demostraremos técnicas comunes de ataque, su impacto en modelos preentrenados (como BERT o GPT), y estrategias para mitigarlos.
Puntos a tratar en la charla:
1. Introducción a los ataques adversarios en NLP
2. TextAttack: Un framework para evaluación y adversarial training
3. Simulación de un ataque adversario contra un modelo de análisis de sentimientos.
4. Estrategias de defensa