Como avaliar agentes LLM em produção: além dos testes unitários
As falhas de agente acontecem no nível dos spans, não no resultado final. Este guia cobre métricas RAGAS, avaliação no nível de span, configuração do LangSmith e os scores-alvo que importam em 2026.
Seção 01 · O problema central
Por que avaliar agentes é diferente de avaliar chamadas LLM
Uma única chamada LLM ou responde bem à pergunta ou não. Uma execução de agente toma de 20 a 100 decisões em sequência. Uma falha no passo 7 pode produzir uma saída final com aparência plausível e completamente errada.
Resposta rápida
A resposta curta: A avaliação de agentes precisa acontecer no nível do span — cada chamada de ferramenta, decisão de retrieval e etapa de raciocínio — e não só na saída final. A avaliação de saída pega falhas depois que elas já se propagaram pelo pipeline.
O padrão para avaliar um chatbot — a saída responde à pergunta, é factualmente exata, segue o guia de estilo — é insuficiente para agentes. Um agente que recupera o documento errado, chama a ferramenta certa com parâmetros errados ou classifica mal uma intenção do usuário no passo 3 muitas vezes vai produzir uma saída final com cara de confiante. Quando você avalia a saída, o erro já se propagou pelos passos restantes.
Quase metade dos projetos de IA agêntica devem ser cancelados em 2026 por falta de infraestrutura de avaliação adequada. Os times entregam, recebem resultados inconsistentes, não conseguem diagnosticar o porquê e perdem confiança no sistema. A correção não é um modelo melhor — é uma medição melhor no nível do passo.
Seção 02 · Categorias de falha
As três categorias de falha que você precisa medir
Falhas de retrieval
O agente recupera os documentos errados, recupera poucos ou recupera chunks contextualmente irrelevantes. O raciocínio downstream fica então fundamentado em informação errada. As métricas RAGAS context precision e context recall medem isso. Mire context precision acima de 0,80 e context recall acima de 0,75.
Falhas de raciocínio
O agente tem o contexto certo mas tira a conclusão errada, classifica mal uma intenção ou escolhe a ferramenta errada para a tarefa. Essas são mais difíceis de medir automaticamente e muitas vezes exigem um modelo juiz separado ou um dataset de avaliação curado com caminhos de raciocínio sabidamente corretos.
Falhas de ação
O agente chama a ferramenta certa com parâmetros errados, chama a ferramenta errada ou executa uma ação tecnicamente válida mas contextualmente inadequada. Logging no nível do span de cada chamada de ferramenta com seus parâmetros, valor de retorno e a etapa de raciocínio subsequente do agente é a única forma de pegar isso de forma consistente.
Seção 03 · Métricas RAGAS
As cinco métricas RAGAS para agentes RAG em produção
| Métrica | O que mede | Alvo |
|---|---|---|
| Faithfulness | As afirmações na resposta são suportadas pelo contexto recuperado | Acima de 0,90 |
| Answer relevancy | A resposta endereça o que a pergunta perguntou | Acima de 0,85 |
| Context precision | Os chunks recuperados são relevantes para a pergunta | Acima de 0,80 |
| Context recall | Toda a informação necessária para responder foi recuperada | Acima de 0,75 |
| Answer correctness | A resposta é factualmente correta vs ground truth | Acima de 0,80 |
O RAGAS roda sem labels de ground truth para faithfulness, answer relevancy e context precision. Isso torna prático rodar em tráfego de produção ao vivo, onde você não tem respostas corretas verificadas por humanos para cada query. Context recall e answer correctness exigem ground truth, então use em um conjunto de avaliação curado durante o desenvolvimento, não em tráfego ao vivo.
Seção 04 · Avaliação no nível do span
Medir no passo, não na saída
A avaliação no nível do span loga cada passo intermediário de uma execução de agente como um span nomeado, com entradas, saídas, latência e custo em tokens. É isso que o LangSmith captura por padrão para agentes baseados em LangGraph.
Cada chamada de ferramenta é um span. Cada retrieval é um span. Cada passo de raciocínio é um span. Quando uma execução de agente produz um resultado errado, você abre a trace no LangSmith, encontra o span onde o erro se originou e lê as entradas, saídas e contexto exatos presentes naquele passo. Você não chuta — você vê.
Essa é a propriedade que separa os sistemas de produção debugáveis dos frágeis. Sem observabilidade no nível do span, uma saída de agente errada é um mistério. Com ela, a saída errada é um único span que você consegue identificar, reproduzir e corrigir.
Seção 05 · A stack de avaliação
LangSmith mais RAGAS mais DeepEval: a stack de produção 2026
LangSmith para observabilidade
Captura todo span automaticamente para agentes baseados em LangGraph. Armazena traces. Suporta integração RAGAS. Permite rodar evaluators em amostras de tráfego ao vivo e em traces históricas. O setup mínimo viável para qualquer agente em produção.
RAGAS para qualidade de retrieval
Métricas sem referência para faithfulness, answer relevancy e context precision em tráfego ao vivo. Rode de forma assíncrona em uma amostra de 5 a 10 por cento das queries de produção. Alerte em quedas de métrica abaixo do threshold.
DeepEval para testes comportamentais
Framework de suíte de testes para avaliar comportamento de agente contra datasets curados. Rode no CI/CD a cada deploy para pegar regressões antes que cheguem em produção. Cobre detecção de alucinação, resiliência a prompt injection e métricas comportamentais customizadas.
Seção 06 · Checklist de produção
O setup mínimo de avaliação antes de você ir para produção
| Requisito | Ferramenta | Frequência |
|---|---|---|
| Tracing no nível do span para todas as execuções de agente | LangSmith | Sempre ligado |
| Faithfulness acima de 0,90 | RAGAS via LangSmith | Async, amostra 10 por cento |
| Answer relevancy acima de 0,85 | RAGAS via LangSmith | Async, amostra 10 por cento |
| Testes de regressão comportamental | DeepEval no CI/CD | Todo deploy |
| Validação de schema das chamadas de ferramenta | Validador custom no pipeline | Toda chamada de ferramenta |
| Fila de revisão humana para execuções de baixa confiança | Dataset do LangSmith | Semanal |
FAQ
Perguntas frequentes
Como avaliar agentes de IA em produção?
Rode tracing no nível do span para capturar cada passo intermediário, chamada de ferramenta e decisão de retrieval. Use métricas RAGAS de forma assíncrona em uma amostra de tráfego ao vivo para monitorar faithfulness e answer relevancy. Rode testes de regressão comportamental com DeepEval a cada deploy. Evite bloquear o pipeline de resposta na avaliação — rode de forma assíncrona.
O que é avaliação no nível do span para agentes LLM?
A avaliação no nível do span loga cada passo intermediário de uma execução de agente — cada chamada de ferramenta, etapa de retrieval e passo de raciocínio — como um span nomeado com entradas, saídas e contexto. Avaliar no nível do span deixa você identificar exatamente qual passo produziu o erro em vez de fazer engenharia reversa a partir da saída final.
Que métricas RAGAS devo usar para um agente RAG em produção?
Comece com faithfulness e answer relevancy — as duas são sem referência e podem rodar em tráfego ao vivo sem labels de ground truth. Mire faithfulness acima de 0,90 e answer relevancy acima de 0,85. Adicione context precision e context recall usando um dataset de avaliação curado para medir especificamente a qualidade de retrieval.
LangSmith é a melhor ferramenta de avaliação para agentes LangGraph?
LangSmith é a opção mais integrada para agentes baseados em LangGraph — captura spans automaticamente sem código de instrumentação, suporta integração RAGAS nativamente e fornece uma interface de dataset para rodar avaliações em traces históricas. Para times em outros frameworks, Arize Phoenix e Langfuse são alternativas fortes com capacidades similares.
Perguntas frequentes
- Como se avalia agentes de IA em produção?
- Faça tracing no nível de span para capturar cada passo intermediário, cada chamada de ferramenta e cada decisão de retrieval. Use métricas RAGAS de forma assíncrona em uma amostra do tráfego real para monitorar fidelidade e relevância de resposta. Rode testes de regressão de comportamento com DeepEval a cada deploy.
- O que é avaliação no nível de span para agentes LLM?
- A avaliação no nível de span registra cada etapa intermediária da execução do agente — cada chamada de ferramenta, etapa de retrieval e etapa de raciocínio — como um span nomeado com inputs, outputs e contexto. Avaliar no nível de span permite identificar exatamente qual passo gerou o erro, em vez de inferir a partir do output final.
- Quais métricas RAGAS para um agente RAG em produção?
- Comece com fidelidade e relevância de resposta — ambas são reference-free e rodam em tráfego real sem labels de verdade. Mire fidelidade acima de 0,90 e relevância acima de 0,85. Adicione precisão e recall de contexto com um dataset de avaliação curado para medir especificamente a qualidade do retrieval.
- LangSmith é a melhor ferramenta de avaliação para agentes LangGraph?
- LangSmith é a opção mais integrada para agentes baseados em LangGraph: captura spans automaticamente sem código de instrumentação, suporta integração nativa com RAGAS e oferece interface de datasets para avaliações sobre traces históricos. Para times em outros frameworks, Arize Phoenix e Langfuse são alternativas fortes.