Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Do Vibe Coding ao LLM em Produção para Busca Ag...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Do Vibe Coding ao LLM em Produção para Busca Agêntica - TDC 2026 - Summit IA - São Paulo

Construir uma POC com LLMs é fácil. Operar isso em produção, com latência previsível e custo controlado, é outra história. Nesta palestra, compartilho a jornada de transformar um experimento de Busca Agêntica em uma aplicação robusta, discutindo decisões técnicas que funcionaram, decisões que precisaram ser revistas, e compromissos inevitáveis entre qualidade, custo e performance. Abordo LLMOps, observabilidade, controle de latência, caching, resiliência, monitoramento e avaliação de modelos, com foco em como esses aspectos se influenciam mutuamente em sistemas em tempo real.

Avatar for Jessica Pauli de C Bonson

Jessica Pauli de C Bonson

April 23, 2026

More Decks by Jessica Pauli de C Bonson

Other Decks in Technology

Transcript

  1. Do Vibe Coding ao LLM em Produção para Busca Agêntica

    Jéssica Bonson | Senior Staff Engineer @ MERCADO LIVRE TDC 2026 - Summit IA - São Paulo Trilha: Engenharia de IA, LLMOps e Infraestrutura
  2. OLÁ! Eu sou Jéssica Bonson (@jpbonson) Senior Staff Engineer @

    MercadoLivre | Search Graduação em Ciências da Computação (UFSC) 15+ anos de experiência em techstacks e projetos diversos Foco em Backend Engineering e Machine Learning aplicado Mestrado em CS/Machine Learning (Dalhousie University)
  3. Sobre o Mercado Livre Empresa líder em tecnologia em soluções

    de e-commerce e fintech na América Latina https://news.mercadolivre.com/pt/o-melhor-do-brasil-2025
  4. Busca no MercadoLivre ~500k RPM no pico só no Brasil

    • Atua em 18 países • Milhões de vendedores e compradores • Mais de 60 milhões de ofertas de produtos
  5. Com os novos horizontes abertos pela IA Generativa, surge a

    pergunta: Como podemos usar LLMs para melhorar a busca do Mercado Livre?
  6. Primeiros Passos: Exploração Setup • time pequeno de alta senioridade

    • sem experiência prévia com uso de LLMs • conhecimentos de backend, ML aplicado e infra ~3 meses • muito vibe coding, protótipos e experimentação para aprender como e com que usar os LLMs no contexto de busca ◦ iterações: ▪ usar LLMs para acelerar aprendizado ▪ fornecer a busca atual como tool ao LLM, e pedir ao LLM para fazer a busca ▪ chat conversacional de busca de produtos ▪ protótipos de apps mobiles com features novas • interação forte com produto para validar features
  7. Nasce a POC! • Proxy entre o frontend e o

    Search atual ◦ Objetivos: ▪ Ser transparente para o usuário e para os outros sistemas ▪ Validar funcionalidade e melhoria de qualidade • Limitações ◦ Só usuários logados ◦ Só mobile ◦ Maior limite de tempo de resposta (até 5s) ◦ Alta resiliência Search Frontend Search Backend Agentic Search
  8. E o que ela faz? Exemplos de coisas que se

    tornaram possíveis: • Agora a busca funciona para termos semânticos/abstratos ◦ como "algo para desenhar", "aquele negócio para pendurar coisas na parede", "você pode me ajudar com um presente para minha mãe?", etc… • Agora a busca leva em consideração seu contexto de longo prazo ◦ por exemplo, quais marcas você mais gosta ou, se você pesquisar por "bolas" e for comprador de produtos de golfe, com base no seu histórico de compras, mais bolas de golfe aparecerão • Agora a busca leva em consideração seu contexto de curto prazo ◦ o que você clicou, favoritos e carrinho recentes • Uma busca que normalmente não retorna nada ou quase nada agora é capaz de generalizar e retornar algo.
  9. E isso já está em produção! Você pode testar essas

    funcionalidades você mesmo no seu app do MercadoLivre. (só em mobile, ainda não em desktop)
  10. O que é esse Agentic Search? Query Search Backend Get

    User Context Expand Query Merge/Filter/Rerank Results • Adiciona layers ao fluxo de busca com tasks para LLMs ◦ Tasks real-time ◦ Tasks em batch/async • Modelo gemini-2.5-flash-lite da GCP
  11. Decisões de Resiliência & Performance Circuit Breaker Se o proxy

    falha de forma sistemática, cai automaticamente para Search Backend. Graceful Degradation Múltiplas camadas de timeouts e fallbacks. Budget de Latência Caching e paralelismo sempre que possível para atender todas as requisições dentro do limite de 5s. Fluxo de 'Dual Execution' Se tudo falhar, há uma execução para Search Backend que executa em paralelo ao mesmo tempo que Agentico. Regra de Ouro: Nunca quebrar a busca do usuário. Agentic é enriquecimento, não dependência.
  12. Otimização de Prompt ANTES { "attributes": [ { "attribute_id": "BRAND",

    "value_id": "343642", "value_name": "New Balance" }, { "attribute_id": "MAIN_COLOR", "value_id": "2450295", "value_name": "Negro" } ] } DEPOIS 1|BRAND|New Balance 2|MAIN_COLOR|Negro • Não usar JSON. • Mapear IDs para números simples no código da aplicação. • Usar exemplos + instruções específicas no system prompt. • Prompts regionalizados funcionaram melhor. Ganhos em latência e custo
  13. Números em Produção - Latência End-to-end ~3.4s Latency budget: 5s

    LLM-bound ~1s Overhead non-LLM ~2.4s p99 p99 p99 ~2.6s p95 ~1.8s p50 ~0.8s p95 ~0.6s p50 ~1.8s p95 ~1.2s p50
  14. Paradoxo da POC bem-sucedida • Lançamos a POC para Friends

    & Family -> Sucesso! • Lançamos a POC para 1% dos usuários da Argentina -> Sucesso! • Lançamos a POC (...?) para 5% dos usuários da Argentina -> Sucesso! • Lançamos a POC (???) para 25% dos usuários da Argentina -> Sucesso! • Lançamos a POC (?!?!) para 95% dos usuários da Argentina -> Sucesso! Paradoxo: A medida que uma POC tem sucesso, se quer fazer um rollout cada vez mais agressivo, adicionando suporte a mais usuários e mais features. Não pode parar de crescer, mas se continuar com uma arquitetura de Proof of Concept, não vai conseguir crescer! Após os 3 meses de exploração, a v0 da POC levou 1 mês, e em apenas 2 meses ocorreu o processo abaixo:
  15. Engenharia com Responsabilidade: De POC a Prod! • Alternar entre

    PRs de feature e PRs de refactor ◦ Automatizar, padronizar e validar sempre que possível ao longo do crescimento • Começar com uma arquitetura modular, e manter ela modular. ◦ Controla complexidade sem bloquear velocidade • Evitar overengineering (tanto de código como de prompts) ◦ Se coisas simples estão complexas, não há espaço para complexidade real • Revisões de código em parceria: Claude + Human ◦ Importante perguntar e iterar, não só aceitar • Refatorar com objetivo, não 'perfumaria' ◦ Os agentes de código podem ajudar muito tanto na análise como na escrita do refactor
  16. Observabilidade BigQuery requests e uso de LLMs - Todo evento

    logado. - Reprodução de casos reais. - Crucial para iterar a solução. Datadog dashboards + métricas RPM, latência, erros, tokens, etc… Slack #alerts #warnings #deploys Facilidade em acompanhar alertas e deploys. OpsGenie incidentes Gestão de incidentes
  17. Evolução de modelos: Em busca de resiliência e latência múltiplos

    modelos Explorações iniciais GPT-4.1-mini POC do F&F Gemini 2.5 Flash-Lite Produção Qwen3 4b (self-served) Atual GPT-4.1-mini -> Gemini 2.5 Flash-Lite • ~50% menos latência • ~20% menos custo total • maior qualidade Gemini 2.5 Flash-Lite -> Qwen3 4b • ~50% menos latência • menos custo total • manteve qualidade em teste A/B • evitar intermitências do GCP
  18. Novos desafios • Rollout segue agressivo: Brasil, México, Colombia e

    Chile • Novas funcionalidades: Busca por imagem, busca guiada…
  19. Prompt para revisão de arquitetura de um repo please analyse

    this app code and write a report in markdown stating the patterns and anti-patterns that it has, and analysing its modularity. Add the main actions points you think should be prioritized to improve maintainability and what are the main risks (for example, threads, performance, bugs, security, magic numbers…) that the app currently have