AI EngineeringAgentic AI

Como avaliar agentes LLM em produção: além dos testes unitários

As falhas de agente acontecem no nível dos spans, não no resultado final. Este guia cobre métricas RAGAS, avaliação no nível de span, configuração do LangSmith e os scores-alvo que importam em 2026.

9 min read

Seção 01 · O problema central

Por que avaliar agentes é diferente de avaliar chamadas LLM

Uma única chamada LLM ou responde bem à pergunta ou não. Uma execução de agente toma de 20 a 100 decisões em sequência. Uma falha no passo 7 pode produzir uma saída final com aparência plausível e completamente errada.

Resposta rápida

A resposta curta: A avaliação de agentes precisa acontecer no nível do span — cada chamada de ferramenta, decisão de retrieval e etapa de raciocínio — e não só na saída final. A avaliação de saída pega falhas depois que elas já se propagaram pelo pipeline.

O padrão para avaliar um chatbot — a saída responde à pergunta, é factualmente exata, segue o guia de estilo — é insuficiente para agentes. Um agente que recupera o documento errado, chama a ferramenta certa com parâmetros errados ou classifica mal uma intenção do usuário no passo 3 muitas vezes vai produzir uma saída final com cara de confiante. Quando você avalia a saída, o erro já se propagou pelos passos restantes.

Quase metade dos projetos de IA agêntica devem ser cancelados em 2026 por falta de infraestrutura de avaliação adequada. Os times entregam, recebem resultados inconsistentes, não conseguem diagnosticar o porquê e perdem confiança no sistema. A correção não é um modelo melhor — é uma medição melhor no nível do passo.

Seção 02 · Categorias de falha

As três categorias de falha que você precisa medir

Falhas de retrieval

O agente recupera os documentos errados, recupera poucos ou recupera chunks contextualmente irrelevantes. O raciocínio downstream fica então fundamentado em informação errada. As métricas RAGAS context precision e context recall medem isso. Mire context precision acima de 0,80 e context recall acima de 0,75.

Falhas de raciocínio

O agente tem o contexto certo mas tira a conclusão errada, classifica mal uma intenção ou escolhe a ferramenta errada para a tarefa. Essas são mais difíceis de medir automaticamente e muitas vezes exigem um modelo juiz separado ou um dataset de avaliação curado com caminhos de raciocínio sabidamente corretos.

Falhas de ação

O agente chama a ferramenta certa com parâmetros errados, chama a ferramenta errada ou executa uma ação tecnicamente válida mas contextualmente inadequada. Logging no nível do span de cada chamada de ferramenta com seus parâmetros, valor de retorno e a etapa de raciocínio subsequente do agente é a única forma de pegar isso de forma consistente.

Seção 03 · Métricas RAGAS

As cinco métricas RAGAS para agentes RAG em produção

Métricas de produção do RAGAS — definições e alvos
MétricaO que medeAlvo
FaithfulnessAs afirmações na resposta são suportadas pelo contexto recuperadoAcima de 0,90
Answer relevancyA resposta endereça o que a pergunta perguntouAcima de 0,85
Context precisionOs chunks recuperados são relevantes para a perguntaAcima de 0,80
Context recallToda a informação necessária para responder foi recuperadaAcima de 0,75
Answer correctnessA resposta é factualmente correta vs ground truthAcima de 0,80

O RAGAS roda sem labels de ground truth para faithfulness, answer relevancy e context precision. Isso torna prático rodar em tráfego de produção ao vivo, onde você não tem respostas corretas verificadas por humanos para cada query. Context recall e answer correctness exigem ground truth, então use em um conjunto de avaliação curado durante o desenvolvimento, não em tráfego ao vivo.

Seção 04 · Avaliação no nível do span

Medir no passo, não na saída

A avaliação no nível do span loga cada passo intermediário de uma execução de agente como um span nomeado, com entradas, saídas, latência e custo em tokens. É isso que o LangSmith captura por padrão para agentes baseados em LangGraph.

Cada chamada de ferramenta é um span. Cada retrieval é um span. Cada passo de raciocínio é um span. Quando uma execução de agente produz um resultado errado, você abre a trace no LangSmith, encontra o span onde o erro se originou e lê as entradas, saídas e contexto exatos presentes naquele passo. Você não chuta — você vê.

Essa é a propriedade que separa os sistemas de produção debugáveis dos frágeis. Sem observabilidade no nível do span, uma saída de agente errada é um mistério. Com ela, a saída errada é um único span que você consegue identificar, reproduzir e corrigir.

Fluxo de avaliação no nível do span: cada passo do agente (retrieval, raciocínio, chamada de ferramenta) é logado como um span nomeado. RAGAS e modelos juízes avaliam os spans de forma assíncrona. Os dashboards expõem violações de threshold.
A avaliação no nível do span pega falhas no passo onde elas se originam. A avaliação de saída só vê o resultado final — depois que a falha já se propagou.

Seção 05 · A stack de avaliação

LangSmith mais RAGAS mais DeepEval: a stack de produção 2026

LangSmith para observabilidade

Captura todo span automaticamente para agentes baseados em LangGraph. Armazena traces. Suporta integração RAGAS. Permite rodar evaluators em amostras de tráfego ao vivo e em traces históricas. O setup mínimo viável para qualquer agente em produção.

RAGAS para qualidade de retrieval

Métricas sem referência para faithfulness, answer relevancy e context precision em tráfego ao vivo. Rode de forma assíncrona em uma amostra de 5 a 10 por cento das queries de produção. Alerte em quedas de métrica abaixo do threshold.

DeepEval para testes comportamentais

Framework de suíte de testes para avaliar comportamento de agente contra datasets curados. Rode no CI/CD a cada deploy para pegar regressões antes que cheguem em produção. Cobre detecção de alucinação, resiliência a prompt injection e métricas comportamentais customizadas.

Seção 06 · Checklist de produção

O setup mínimo de avaliação antes de você ir para produção

Checklist de avaliação de produção para agentes LLM
RequisitoFerramentaFrequência
Tracing no nível do span para todas as execuções de agenteLangSmithSempre ligado
Faithfulness acima de 0,90RAGAS via LangSmithAsync, amostra 10 por cento
Answer relevancy acima de 0,85RAGAS via LangSmithAsync, amostra 10 por cento
Testes de regressão comportamentalDeepEval no CI/CDTodo deploy
Validação de schema das chamadas de ferramentaValidador custom no pipelineToda chamada de ferramenta
Fila de revisão humana para execuções de baixa confiançaDataset do LangSmithSemanal

FAQ

Perguntas frequentes

Como avaliar agentes de IA em produção?

Rode tracing no nível do span para capturar cada passo intermediário, chamada de ferramenta e decisão de retrieval. Use métricas RAGAS de forma assíncrona em uma amostra de tráfego ao vivo para monitorar faithfulness e answer relevancy. Rode testes de regressão comportamental com DeepEval a cada deploy. Evite bloquear o pipeline de resposta na avaliação — rode de forma assíncrona.

O que é avaliação no nível do span para agentes LLM?

A avaliação no nível do span loga cada passo intermediário de uma execução de agente — cada chamada de ferramenta, etapa de retrieval e passo de raciocínio — como um span nomeado com entradas, saídas e contexto. Avaliar no nível do span deixa você identificar exatamente qual passo produziu o erro em vez de fazer engenharia reversa a partir da saída final.

Que métricas RAGAS devo usar para um agente RAG em produção?

Comece com faithfulness e answer relevancy — as duas são sem referência e podem rodar em tráfego ao vivo sem labels de ground truth. Mire faithfulness acima de 0,90 e answer relevancy acima de 0,85. Adicione context precision e context recall usando um dataset de avaliação curado para medir especificamente a qualidade de retrieval.

LangSmith é a melhor ferramenta de avaliação para agentes LangGraph?

LangSmith é a opção mais integrada para agentes baseados em LangGraph — captura spans automaticamente sem código de instrumentação, suporta integração RAGAS nativamente e fornece uma interface de dataset para rodar avaliações em traces históricas. Para times em outros frameworks, Arize Phoenix e Langfuse são alternativas fortes com capacidades similares.

Perguntas frequentes

Como se avalia agentes de IA em produção?
Faça tracing no nível de span para capturar cada passo intermediário, cada chamada de ferramenta e cada decisão de retrieval. Use métricas RAGAS de forma assíncrona em uma amostra do tráfego real para monitorar fidelidade e relevância de resposta. Rode testes de regressão de comportamento com DeepEval a cada deploy.
O que é avaliação no nível de span para agentes LLM?
A avaliação no nível de span registra cada etapa intermediária da execução do agente — cada chamada de ferramenta, etapa de retrieval e etapa de raciocínio — como um span nomeado com inputs, outputs e contexto. Avaliar no nível de span permite identificar exatamente qual passo gerou o erro, em vez de inferir a partir do output final.
Quais métricas RAGAS para um agente RAG em produção?
Comece com fidelidade e relevância de resposta — ambas são reference-free e rodam em tráfego real sem labels de verdade. Mire fidelidade acima de 0,90 e relevância acima de 0,85. Adicione precisão e recall de contexto com um dataset de avaliação curado para medir especificamente a qualidade do retrieval.
LangSmith é a melhor ferramenta de avaliação para agentes LangGraph?
LangSmith é a opção mais integrada para agentes baseados em LangGraph: captura spans automaticamente sem código de instrumentação, suporta integração nativa com RAGAS e oferece interface de datasets para avaliações sobre traces históricos. Para times em outros frameworks, Arize Phoenix e Langfuse são alternativas fortes.