Do Vibe Coding ao LLM em Produção para Busca Agêntica

Do Vibe Coding ao LLM em Produção para Busca Agêntica
Jéssica Bonson | Senior Staff Engineer @ MERCADO LIVRE TDC 2026 - Summit IA - São Paulo Trilha: Engenharia de IA, LLMOps e Infraestrutura

OLÁ! Eu sou Jéssica Bonson (@jpbonson) Senior Staff Engineer @
MercadoLivre | Search Graduação em Ciências da Computação (UFSC) 15+ anos de experiência em techstacks e projetos diversos Foco em Backend Engineering e Machine Learning aplicado Mestrado em CS/Machine Learning (Dalhousie University)

Sobre o Mercado Livre Empresa líder em tecnologia em soluções
de e-commerce e fintech na América Latina https://news.mercadolivre.com/pt/o-melhor-do-brasil-2025

Busca no MercadoLivre ~500k RPM no pico só no Brasil
• Atua em 18 países • Milhões de vendedores e compradores • Mais de 60 milhões de ofertas de produtos

Com os novos horizontes abertos pela IA Generativa, surge a
pergunta: Como podemos usar LLMs para melhorar a busca do Mercado Livre?

Primeiros Passos: Exploração Setup • time pequeno de alta senioridade
• sem experiência prévia com uso de LLMs • conhecimentos de backend, ML aplicado e infra ~3 meses • muito vibe coding, protótipos e experimentação para aprender como e com que usar os LLMs no contexto de busca ◦ iterações: ▪ usar LLMs para acelerar aprendizado ▪ fornecer a busca atual como tool ao LLM, e pedir ao LLM para fazer a busca ▪ chat conversacional de busca de produtos ▪ protótipos de apps mobiles com features novas • interação forte com produto para validar features

Nasce a POC! • Proxy entre o frontend e o
Search atual ◦ Objetivos: ▪ Ser transparente para o usuário e para os outros sistemas ▪ Validar funcionalidade e melhoria de qualidade • Limitações ◦ Só usuários logados ◦ Só mobile ◦ Maior limite de tempo de resposta (até 5s) ◦ Alta resiliência Search Frontend Search Backend Agentic Search

E o que ela faz? Exemplos de coisas que se
tornaram possíveis: • Agora a busca funciona para termos semânticos/abstratos ◦ como "algo para desenhar", "aquele negócio para pendurar coisas na parede", "você pode me ajudar com um presente para minha mãe?", etc… • Agora a busca leva em consideração seu contexto de longo prazo ◦ por exemplo, quais marcas você mais gosta ou, se você pesquisar por "bolas" e for comprador de produtos de golfe, com base no seu histórico de compras, mais bolas de golfe aparecerão • Agora a busca leva em consideração seu contexto de curto prazo ◦ o que você clicou, favoritos e carrinho recentes • Uma busca que normalmente não retorna nada ou quase nada agora é capaz de generalizar e retornar algo.

E isso já está em produção! Você pode testar essas
funcionalidades você mesmo no seu app do MercadoLivre. (só em mobile, ainda não em desktop)

O que é esse Agentic Search? Query Search Backend Get
User Context Expand Query Merge/Filter/Rerank Results • Adiciona layers ao ﬂuxo de busca com tasks para LLMs ◦ Tasks real-time ◦ Tasks em batch/async • Modelo gemini-2.5-ﬂash-lite da GCP

Decisões de Resiliência & Performance Circuit Breaker Se o proxy
falha de forma sistemática, cai automaticamente para Search Backend. Graceful Degradation Múltiplas camadas de timeouts e fallbacks. Budget de Latência Caching e paralelismo sempre que possível para atender todas as requisições dentro do limite de 5s. Fluxo de 'Dual Execution' Se tudo falhar, há uma execução para Search Backend que executa em paralelo ao mesmo tempo que Agentico. Regra de Ouro: Nunca quebrar a busca do usuário. Agentic é enriquecimento, não dependência.

Otimização de Prompt ANTES { "attributes": [ { "attribute_id": "BRAND",
"value_id": "343642", "value_name": "New Balance" }, { "attribute_id": "MAIN_COLOR", "value_id": "2450295", "value_name": "Negro" } ] } DEPOIS 1|BRAND|New Balance 2|MAIN_COLOR|Negro • Não usar JSON. • Mapear IDs para números simples no código da aplicação. • Usar exemplos + instruções especíﬁcas no system prompt. • Prompts regionalizados funcionaram melhor. Ganhos em latência e custo

Números em Produção - Latência End-to-end ~3.4s Latency budget: 5s
LLM-bound ~1s Overhead non-LLM ~2.4s p99 p99 p99 ~2.6s p95 ~1.8s p50 ~0.8s p95 ~0.6s p50 ~1.8s p95 ~1.2s p50

Paradoxo da POC bem-sucedida • Lançamos a POC para Friends
& Family -> Sucesso! • Lançamos a POC para 1% dos usuários da Argentina -> Sucesso! • Lançamos a POC (...?) para 5% dos usuários da Argentina -> Sucesso! • Lançamos a POC (???) para 25% dos usuários da Argentina -> Sucesso! • Lançamos a POC (?!?!) para 95% dos usuários da Argentina -> Sucesso! Paradoxo: A medida que uma POC tem sucesso, se quer fazer um rollout cada vez mais agressivo, adicionando suporte a mais usuários e mais features. Não pode parar de crescer, mas se continuar com uma arquitetura de Proof of Concept, não vai conseguir crescer! Após os 3 meses de exploração, a v0 da POC levou 1 mês, e em apenas 2 meses ocorreu o processo abaixo:

Engenharia com Responsabilidade: De POC a Prod! • Alternar entre
PRs de feature e PRs de refactor ◦ Automatizar, padronizar e validar sempre que possível ao longo do crescimento • Começar com uma arquitetura modular, e manter ela modular. ◦ Controla complexidade sem bloquear velocidade • Evitar overengineering (tanto de código como de prompts) ◦ Se coisas simples estão complexas, não há espaço para complexidade real • Revisões de código em parceria: Claude + Human ◦ Importante perguntar e iterar, não só aceitar • Refatorar com objetivo, não 'perfumaria' ◦ Os agentes de código podem ajudar muito tanto na análise como na escrita do refactor

Observabilidade BigQuery requests e uso de LLMs - Todo evento
logado. - Reprodução de casos reais. - Crucial para iterar a solução. Datadog dashboards + métricas RPM, latência, erros, tokens, etc… Slack #alerts #warnings #deploys Facilidade em acompanhar alertas e deploys. OpsGenie incidentes Gestão de incidentes

Evolução de modelos: Em busca de resiliência e latência múltiplos
modelos Explorações iniciais GPT-4.1-mini POC do F&F Gemini 2.5 Flash-Lite Produção Qwen3 4b (self-served) Atual GPT-4.1-mini -> Gemini 2.5 Flash-Lite • ~50% menos latência • ~20% menos custo total • maior qualidade Gemini 2.5 Flash-Lite -> Qwen3 4b • ~50% menos latência • menos custo total • manteve qualidade em teste A/B • evitar intermitências do GCP

Novos desafios • Rollout segue agressivo: Brasil, México, Colombia e
Chile • Novas funcionalidades: Busca por imagem, busca guiada…

¡Muchas gracias! Mercado Livre | Jéssica Bonson @jpbonson https://speakerdeck.com/jpbonson Obrigada!

Anexos

Prompt para revisão de arquitetura de um repo please analyse
this app code and write a report in markdown stating the patterns and anti-patterns that it has, and analysing its modularity. Add the main actions points you think should be prioritized to improve maintainability and what are the main risks (for example, threads, performance, bugs, security, magic numbers…) that the app currently have

Do Vibe Coding ao LLM em Produção para Busca Ag...

Do Vibe Coding ao LLM em Produção para Busca Agêntica - TDC 2026 - Summit IA - São Paulo

Jessica Pauli de C Bonson

More Decks by Jessica Pauli de C Bonson

Other Decks in Technology

Featured

Transcript

OLÁ! Eu sou Jéssica Bonson (@jpbonson) Senior Staff Engineer @

Sobre o Mercado Livre Empresa líder em tecnologia em soluções

Busca no MercadoLivre ~500k RPM no pico só no Brasil

Com os novos horizontes abertos pela IA Generativa, surge a

Primeiros Passos: Exploração Setup • time pequeno de alta senioridade

Nasce a POC! • Proxy entre o frontend e o

E o que ela faz? Exemplos de coisas que se

E isso já está em produção! Você pode testar essas

O que é esse Agentic Search? Query Search Backend Get

Decisões de Resiliência & Performance Circuit Breaker Se o proxy

Otimização de Prompt ANTES { "attributes": [ { "attribute_id": "BRAND",

Números em Produção - Latência End-to-end ~3.4s Latency budget: 5s

Paradoxo da POC bem-sucedida • Lançamos a POC para Friends

Engenharia com Responsabilidade: De POC a Prod! • Alternar entre

Observabilidade BigQuery requests e uso de LLMs - Todo evento

Evolução de modelos: Em busca de resiliência e latência múltiplos

Novos desafios • Rollout segue agressivo: Brasil, México, Colombia e

¡Muchas gracias! Mercado Livre | Jéssica Bonson @jpbonson https://speakerdeck.com/jpbonson Obrigada!

Anexos

Prompt para revisão de arquitetura de um repo please analyse