Construir uma POC com LLMs é fácil. Operar isso em produção, com latência previsível e custo controlado, é outra história. Nesta palestra, compartilho a jornada de transformar um experimento de Busca Agêntica em uma aplicação robusta, discutindo decisões técnicas que funcionaram, decisões que precisaram ser revistas, e compromissos inevitáveis entre qualidade, custo e performance. Abordo LLMOps, observabilidade, controle de latência, caching, resiliência, monitoramento e avaliação de modelos, com foco em como esses aspectos se influenciam mutuamente em sistemas em tempo real.