RAGAI Engineering

RAG em produção: por que a recuperação falha e como corrigir

A maioria das falhas de RAG acontece na recuperação. Este guia cobre chunking, busca híbrida, reranking e métricas RAGAS para pipelines de RAG em produção em 2026.

11 min read

Seção 01 · O problema

Por que a maioria dos pipelines de RAG falha em produção

A falha quase nunca está na geração. Quando um sistema de RAG dá uma resposta errada, alucinada ou incompleta, a causa raiz costuma ser o retrieval — o sistema buscou os chunks errados, ou nenhum.

Resposta rápida

A resposta curta: Um pipeline de RAG em produção falha quando o retriever retorna um contexto irrelevante ou incompleto. O gerador então não tem nada correto para se apoiar, e ou alucina, ou se esquiva. Conserte o retrieval primeiro.

Em 2026, RAG ingênuo — chunking de tamanho fixo somado a busca de similaridade por vetor único — falha em recuperar o contexto correto em cerca de 40 por cento das vezes. Esse número sobe à medida que as coleções de documentos crescem e as queries ficam mais específicas. O gerador está fazendo o trabalho dele. O retriever não está entregando o material que ele precisa.

São quatro causas raiz. Cada uma tem uma correção correspondente, e as correções estão ordenadas por retorno sobre investimento. Comece pelo topo.

As quatro causas raiz da falha de retrieval em RAG: limites errados de chunk, recall de palavras-chave ausente, falta de reranking e retrieval sem score de confiança.
Os quatro modos de falha aparecem em diferentes estágios do pipeline de retrieval. A maioria dos times os encontra na ordem mostrada.

Seção 02 · Chunking

Pare de quebrar por contagem de caracteres

A estratégia de chunking limita a precisão de retrieval mais do que a escolha do modelo de embedding. Um estudo clínico de 2025 mostrou que chunking adaptativo atingiu 87 por cento de precisão de retrieval contra 13 por cento das baselines de tamanho fixo no mesmo dataset.

Chunking de tamanho fixo — quebrar a cada 512 ou 1024 caracteres sem olhar o conteúdo — corta frases no meio do raciocínio, separa perguntas das respostas e descarta o contexto que torna um trecho significativo. O modelo de embedding codifica uma ideia incompleta. O score de similaridade fica mais baixo do que deveria. O retriever erra.

Chunking semântico

Usa similaridade de embedding para detectar limites de tópico. Quando a distância de cosseno entre frases adjacentes cruza um threshold, o chunker começa um novo chunk. Cada chunk contém uma ideia coerente. Esse é o default prático para a maioria dos sistemas de RAG em 2026.

Chunking por proposições

Decompõe documentos em afirmações factuais atômicas, cada uma expressando exatamente uma alegação verificável. É a abordagem de maior precisão para aplicações intensivas em conhecimento como pesquisa jurídica e QA médica, onde recuperar um único fato mal atribuído é inaceitável.

Chunking hierárquico

Mantém tanto um chunk de resumo quanto seus chunks-filhos constituintes. Na hora da query, o sistema recupera o resumo para o contexto e o chunk-filho para a precisão. Funciona bem para documentos longos em que o contexto em nível de seção importa para interpretar conteúdo em nível de parágrafo.

Qualquer que seja a estratégia, valide com métricas de recall em um conjunto de queries de amostra antes de fazer deploy. A qualidade do chunking é invisível até você medi-la.

Seção 04 · Avaliação

RAGAS: os cinco números que importam em produção

O RAGAS oferece métricas de avaliação sem referência que você pode rodar em tráfego real sem anotação humana. Essas cinco métricas cobrem o pipeline inteiro do retrieval até a resposta.

Métricas de produção do RAGAS — valores-alvo para um sistema de RAG confiável
MétricaO que medeAlvo em produção
FaithfulnessA resposta contém apenas alegações apoiadas pelo contexto recuperado?Acima de 0,90
Answer relevancyA resposta endereça o que a pergunta pediu?Acima de 0,85
Context precisionOs chunks recuperados são de fato relevantes para a pergunta?Acima de 0,80
Context recallO retrieval trouxe toda a informação necessária para responder?Acima de 0,75
Answer correctnessA resposta está factualmente correta em comparação à verdade-base?Acima de 0,80

Faithfulness é a métrica mais importante para a segurança em produção. Um score de faithfulness abaixo de 0,85 significa que o modelo está gerando regularmente alegações não apoiadas pelo que recuperou — isso é alucinação por definição. Conserte o retrieval ou aumente o top-k antes de fazer deploy.

Rode as avaliações do RAGAS de forma assíncrona em uma amostra do tráfego de produção, e não em linha com as requests do usuário. Bloquear o pipeline de resposta na avaliação adiciona latência e não traz nada para o usuário. Colete, avalie de madrugada e dispare alertas em quebras de threshold.

Seção 05 · Arquitetura

RAG adaptativo: o padrão de arquitetura de 2026

O RAG adaptativo classifica cada query que chega antes do retrieval e a roteia para a estratégia apropriada. É a arquitetura que separa sistemas em produção de protótipos.

Um sistema de RAG ingênuo trata toda query do mesmo jeito: recuperar e gerar. O RAG adaptativo adiciona uma etapa de classificação na entrada. Queries factuais simples são roteadas para busca vetorial rápida. Queries complexas em múltiplas etapas vão para retrieval iterativo ou hierárquico. Queries fora da base de conhecimento vão direto para o conhecimento paramétrico do modelo, pulando o retrieval por completo.

A lógica de roteamento costuma ser uma chamada pequena de LLM ou um classificador. O custo é baixo — alguns milissegundos e poucos tokens — e o ganho de precisão é significativo. Sistemas que pulam o retrieval quando a confiança do retrieval está baixa produzem bem menos alucinações do que sistemas que sempre recuperam e passam contexto de baixa qualidade.

Fluxo de RAG adaptativo: o classificador de query roteia para retrieval rápido, retrieval iterativo ou geração direta com base no tipo de query e na confiança do retrieval.
O RAG adaptativo roteia cada query para a estratégia apropriada de retrieval. A checagem de confiança antes da geração é o recurso que impede contexto de baixa qualidade de chegar ao modelo.

Se você está construindo um novo sistema de RAG em 2026, projete para roteamento adaptativo desde o início. Adicionar isso depois exige reestruturar o pipeline de retrieval, não só envolvê-lo.

Para sistemas de IA agêntica em produção que usam RAG como camada de memória ou conhecimento, veja meu serviço de consultoria em IA agêntica para entender como o retrieval se encaixa em uma arquitetura agêntica mais ampla.

Seção 06 · Custo

Quanto o RAG custa por query em diferentes níveis de complexidade

O caminho de upgrade tem um custo real. Aqui vai o que orçar à medida que você sai do ingênuo para o adaptativo.

Estimativas de custo por query nos níveis de complexidade do RAG (2026)
ArquiteturaCusto típico por queryTeto de qualidade
Vetorial ingênuo0,0005 a 0,002 dólarModerado — falha em correspondência exata e queries multi-conceito
Busca híbrida + reranker0,002 a 0,008 dólarBom — atende a maioria dos tipos de query em produção
RAG adaptativo com roteamento0,005 a 0,015 dólarAlto — perto do teto para sistemas baseados em retrieval
RAG agêntico (iterativo)0,02 a 0,10 dólarMuito alto — para workflows de pesquisa e analista

FAQ

Perguntas frequentes

Por que o RAG falha mesmo quando os chunks parecem corretos?

Conteúdo do chunk e ranking no retrieval são problemas separados. Um chunk pode conter a informação certa mas ficar abaixo do corte de top-k porque a similaridade do embedding está mais baixa do que a de chunks irrelevantes mas superficialmente parecidos. A correção é um reranker que repontua com base na relação real pergunta-chunk, não só na proximidade de embedding.

Qual a diferença entre chunking semântico e chunking de tamanho fixo?

Chunking de tamanho fixo quebra a cada N caracteres sem olhar o conteúdo, frequentemente cortando frases ou ideias ao meio. Chunking semântico usa similaridade de embedding entre frases adjacentes para detectar limites de tópico, mantendo ideias coerentes juntas no mesmo chunk. Chunking semântico supera de forma consistente o de tamanho fixo nos benchmarks de precisão de retrieval.

Quanto adicionar um reranker melhora a qualidade do RAG?

Um reranker cross-encoder de forma confiável move o chunk certo da posição 8 ou 12 para o top 3, que é tudo que o modelo de linguagem enxerga. Times que adicionam reranking a um pipeline de busca híbrida existente costumam ver melhora de 20 a 40 por cento nos scores de faithfulness sem mudar nenhum outro componente.

Que score do RAGAS eu devo mirar antes de subir para produção?

Faithfulness acima de 0,90, answer relevancy acima de 0,85. Se qualquer uma das duas estiver abaixo desses thresholds em uma amostra representativa de queries de produção, diagnostique a falha antes de fazer ship. Faithfulness abaixo de 0,85 em produção significa, em média, 1 em cada 7 respostas com alguma alegação alucinada.

Quando devo usar RAG adaptativo versus RAG padrão?

Use RAG adaptativo quando seu conjunto de queries é heterogêneo — algumas precisam de retrieval rápido, outras de busca iterativa e outras estão totalmente fora da sua base de conhecimento. Se toda query é parecida em natureza e sua base de conhecimento é bem delimitada, RAG híbrido padrão com reranking dá conta.

Perguntas frequentes

Por que o RAG falha mesmo quando os chunks parecem corretos?
O conteúdo do chunk e o ranking da recuperação são problemas separados. Um chunk pode ter a informação certa, mas ficar abaixo do corte top-k porque a similaridade do embedding é menor que a de chunks irrelevantes mas superficialmente parecidos. A correção é um reranker que repontua com base na relação real entre pergunta e chunk, não só na proximidade do embedding.
Qual a diferença entre chunking semântico e chunking de tamanho fixo?
O chunking de tamanho fixo divide a cada N caracteres independentemente do conteúdo, frequentemente cortando frases ou ideias no meio. O chunking semântico usa similaridade de embedding entre frases adjacentes para detectar fronteiras de tópico, mantendo ideias coesas em um mesmo chunk. Ele supera consistentemente o chunking fixo em benchmarks de precisão de retrieval.
Quanto um reranker melhora a qualidade do RAG?
Um reranker cross-encoder reposiciona de forma confiável o chunk certo da posição 8 ou 12 para o top 3. Times que adicionam reranking a um pipeline de busca híbrida existente costumam ver de 20 a 40 por cento de melhoria nos scores de fidelidade sem alterar nenhum outro componente.
Qual score RAGAS mirar antes de ir para produção?
Fidelidade acima de 0,90 e relevância de resposta acima de 0,85. Se qualquer uma dessas métricas estiver abaixo desses limiares em uma amostra representativa de queries de produção, faça o diagnóstico antes do deploy. Fidelidade abaixo de 0,85 em produção significa, em média, uma alucinação a cada sete respostas.
Quando usar RAG adaptativo em vez do RAG padrão?
Use RAG adaptativo quando o seu conjunto de queries for heterogêneo: algumas exigem retrieval rápido, outras busca iterativa, e outras estão fora da sua base de conhecimento. Se todas as queries são similares e a base é bem delimitada, o RAG híbrido padrão com reranking é suficiente.