RAG em produção: por que a recuperação falha e como corrigir
A maioria das falhas de RAG acontece na recuperação. Este guia cobre chunking, busca híbrida, reranking e métricas RAGAS para pipelines de RAG em produção em 2026.
Seção 01 · O problema
Por que a maioria dos pipelines de RAG falha em produção
A falha quase nunca está na geração. Quando um sistema de RAG dá uma resposta errada, alucinada ou incompleta, a causa raiz costuma ser o retrieval — o sistema buscou os chunks errados, ou nenhum.
Resposta rápida
A resposta curta: Um pipeline de RAG em produção falha quando o retriever retorna um contexto irrelevante ou incompleto. O gerador então não tem nada correto para se apoiar, e ou alucina, ou se esquiva. Conserte o retrieval primeiro.
Em 2026, RAG ingênuo — chunking de tamanho fixo somado a busca de similaridade por vetor único — falha em recuperar o contexto correto em cerca de 40 por cento das vezes. Esse número sobe à medida que as coleções de documentos crescem e as queries ficam mais específicas. O gerador está fazendo o trabalho dele. O retriever não está entregando o material que ele precisa.
São quatro causas raiz. Cada uma tem uma correção correspondente, e as correções estão ordenadas por retorno sobre investimento. Comece pelo topo.
Seção 02 · Chunking
Pare de quebrar por contagem de caracteres
A estratégia de chunking limita a precisão de retrieval mais do que a escolha do modelo de embedding. Um estudo clínico de 2025 mostrou que chunking adaptativo atingiu 87 por cento de precisão de retrieval contra 13 por cento das baselines de tamanho fixo no mesmo dataset.
Chunking de tamanho fixo — quebrar a cada 512 ou 1024 caracteres sem olhar o conteúdo — corta frases no meio do raciocínio, separa perguntas das respostas e descarta o contexto que torna um trecho significativo. O modelo de embedding codifica uma ideia incompleta. O score de similaridade fica mais baixo do que deveria. O retriever erra.
Chunking semântico
Usa similaridade de embedding para detectar limites de tópico. Quando a distância de cosseno entre frases adjacentes cruza um threshold, o chunker começa um novo chunk. Cada chunk contém uma ideia coerente. Esse é o default prático para a maioria dos sistemas de RAG em 2026.
Chunking por proposições
Decompõe documentos em afirmações factuais atômicas, cada uma expressando exatamente uma alegação verificável. É a abordagem de maior precisão para aplicações intensivas em conhecimento como pesquisa jurídica e QA médica, onde recuperar um único fato mal atribuído é inaceitável.
Chunking hierárquico
Mantém tanto um chunk de resumo quanto seus chunks-filhos constituintes. Na hora da query, o sistema recupera o resumo para o contexto e o chunk-filho para a precisão. Funciona bem para documentos longos em que o contexto em nível de seção importa para interpretar conteúdo em nível de parágrafo.
Qualquer que seja a estratégia, valide com métricas de recall em um conjunto de queries de amostra antes de fazer deploy. A qualidade do chunking é invisível até você medi-la.
Seção 03 · Retrieval
Busca híbrida e reranking: as duas melhorias de maior ROI
Rodar BM25 e busca vetorial em paralelo, e depois fundir os resultados com Reciprocal Rank Fusion, é a maior melhoria de qualidade que está disponível para um pipeline de RAG ingênuo.
Busca vetorial recupera trechos semanticamente similares — lida bem com paráfrase e matching conceitual, mas erra correspondências exatas de palavras-chave. BM25 lida bem com correspondências exatas e termos raros, mas erra relações semânticas. Nenhum dos dois sozinho é suficiente para um sistema de RAG em produção que lida com tipos variados de query.
Busca híbrida roda os dois em paralelo e funde as listas ranqueadas usando Reciprocal Rank Fusion. Quando retrieval híbrido e técnicas contextuais são combinados, as taxas de erro caem cerca de 69 por cento em comparação com retrieval ingênuo só vetorial. A implementação é direta em qualquer vector store de produção: o Weaviate entrega busca híbrida nativamente; a Pinecone adicionou em 2025; o pgvector exige compor manualmente com um índice BM25.
| Upgrade | Ganho | Custo de implementação | Prioridade |
|---|---|---|---|
| Chunking semântico | Alto | Baixo | Faça primeiro |
| Busca híbrida (BM25 + vetorial) | Alto | Baixo a médio | Faça em segundo |
| Reranker cross-encoder | Alto | Médio | Faça em terceiro |
| Retrieval contextual | Médio | Médio | Faça em quarto |
| Roteamento de RAG adaptativo | Médio a alto | Alto | Faça quando estiver em escala |
O passo de reranking merece destaque próprio. Um modelo cross-encoder repontua cada chunk recuperado contra a query original com atenção completa — ele vê tanto a query quanto o chunk juntos, ao contrário do bi-encoder que pontua os dois separadamente. Um pipeline de produção típico recupera o top-50 com busca híbrida, faz reranking para o top-5 com um cross-encoder e então passa esses cinco chunks para o modelo de linguagem. O custo é modesto; o ganho de precisão é substancial.
Seção 04 · Avaliação
RAGAS: os cinco números que importam em produção
O RAGAS oferece métricas de avaliação sem referência que você pode rodar em tráfego real sem anotação humana. Essas cinco métricas cobrem o pipeline inteiro do retrieval até a resposta.
| Métrica | O que mede | Alvo em produção |
|---|---|---|
| Faithfulness | A resposta contém apenas alegações apoiadas pelo contexto recuperado? | Acima de 0,90 |
| Answer relevancy | A resposta endereça o que a pergunta pediu? | Acima de 0,85 |
| Context precision | Os chunks recuperados são de fato relevantes para a pergunta? | Acima de 0,80 |
| Context recall | O retrieval trouxe toda a informação necessária para responder? | Acima de 0,75 |
| Answer correctness | A resposta está factualmente correta em comparação à verdade-base? | Acima de 0,80 |
Faithfulness é a métrica mais importante para a segurança em produção. Um score de faithfulness abaixo de 0,85 significa que o modelo está gerando regularmente alegações não apoiadas pelo que recuperou — isso é alucinação por definição. Conserte o retrieval ou aumente o top-k antes de fazer deploy.
Rode as avaliações do RAGAS de forma assíncrona em uma amostra do tráfego de produção, e não em linha com as requests do usuário. Bloquear o pipeline de resposta na avaliação adiciona latência e não traz nada para o usuário. Colete, avalie de madrugada e dispare alertas em quebras de threshold.
Seção 05 · Arquitetura
RAG adaptativo: o padrão de arquitetura de 2026
O RAG adaptativo classifica cada query que chega antes do retrieval e a roteia para a estratégia apropriada. É a arquitetura que separa sistemas em produção de protótipos.
Um sistema de RAG ingênuo trata toda query do mesmo jeito: recuperar e gerar. O RAG adaptativo adiciona uma etapa de classificação na entrada. Queries factuais simples são roteadas para busca vetorial rápida. Queries complexas em múltiplas etapas vão para retrieval iterativo ou hierárquico. Queries fora da base de conhecimento vão direto para o conhecimento paramétrico do modelo, pulando o retrieval por completo.
A lógica de roteamento costuma ser uma chamada pequena de LLM ou um classificador. O custo é baixo — alguns milissegundos e poucos tokens — e o ganho de precisão é significativo. Sistemas que pulam o retrieval quando a confiança do retrieval está baixa produzem bem menos alucinações do que sistemas que sempre recuperam e passam contexto de baixa qualidade.
Se você está construindo um novo sistema de RAG em 2026, projete para roteamento adaptativo desde o início. Adicionar isso depois exige reestruturar o pipeline de retrieval, não só envolvê-lo.
Para sistemas de IA agêntica em produção que usam RAG como camada de memória ou conhecimento, veja meu serviço de consultoria em IA agêntica para entender como o retrieval se encaixa em uma arquitetura agêntica mais ampla.
Seção 06 · Custo
Quanto o RAG custa por query em diferentes níveis de complexidade
O caminho de upgrade tem um custo real. Aqui vai o que orçar à medida que você sai do ingênuo para o adaptativo.
| Arquitetura | Custo típico por query | Teto de qualidade |
|---|---|---|
| Vetorial ingênuo | 0,0005 a 0,002 dólar | Moderado — falha em correspondência exata e queries multi-conceito |
| Busca híbrida + reranker | 0,002 a 0,008 dólar | Bom — atende a maioria dos tipos de query em produção |
| RAG adaptativo com roteamento | 0,005 a 0,015 dólar | Alto — perto do teto para sistemas baseados em retrieval |
| RAG agêntico (iterativo) | 0,02 a 0,10 dólar | Muito alto — para workflows de pesquisa e analista |
FAQ
Perguntas frequentes
Por que o RAG falha mesmo quando os chunks parecem corretos?
Conteúdo do chunk e ranking no retrieval são problemas separados. Um chunk pode conter a informação certa mas ficar abaixo do corte de top-k porque a similaridade do embedding está mais baixa do que a de chunks irrelevantes mas superficialmente parecidos. A correção é um reranker que repontua com base na relação real pergunta-chunk, não só na proximidade de embedding.
Qual a diferença entre chunking semântico e chunking de tamanho fixo?
Chunking de tamanho fixo quebra a cada N caracteres sem olhar o conteúdo, frequentemente cortando frases ou ideias ao meio. Chunking semântico usa similaridade de embedding entre frases adjacentes para detectar limites de tópico, mantendo ideias coerentes juntas no mesmo chunk. Chunking semântico supera de forma consistente o de tamanho fixo nos benchmarks de precisão de retrieval.
Quanto adicionar um reranker melhora a qualidade do RAG?
Um reranker cross-encoder de forma confiável move o chunk certo da posição 8 ou 12 para o top 3, que é tudo que o modelo de linguagem enxerga. Times que adicionam reranking a um pipeline de busca híbrida existente costumam ver melhora de 20 a 40 por cento nos scores de faithfulness sem mudar nenhum outro componente.
Que score do RAGAS eu devo mirar antes de subir para produção?
Faithfulness acima de 0,90, answer relevancy acima de 0,85. Se qualquer uma das duas estiver abaixo desses thresholds em uma amostra representativa de queries de produção, diagnostique a falha antes de fazer ship. Faithfulness abaixo de 0,85 em produção significa, em média, 1 em cada 7 respostas com alguma alegação alucinada.
Quando devo usar RAG adaptativo versus RAG padrão?
Use RAG adaptativo quando seu conjunto de queries é heterogêneo — algumas precisam de retrieval rápido, outras de busca iterativa e outras estão totalmente fora da sua base de conhecimento. Se toda query é parecida em natureza e sua base de conhecimento é bem delimitada, RAG híbrido padrão com reranking dá conta.
Perguntas frequentes
- Por que o RAG falha mesmo quando os chunks parecem corretos?
- O conteúdo do chunk e o ranking da recuperação são problemas separados. Um chunk pode ter a informação certa, mas ficar abaixo do corte top-k porque a similaridade do embedding é menor que a de chunks irrelevantes mas superficialmente parecidos. A correção é um reranker que repontua com base na relação real entre pergunta e chunk, não só na proximidade do embedding.
- Qual a diferença entre chunking semântico e chunking de tamanho fixo?
- O chunking de tamanho fixo divide a cada N caracteres independentemente do conteúdo, frequentemente cortando frases ou ideias no meio. O chunking semântico usa similaridade de embedding entre frases adjacentes para detectar fronteiras de tópico, mantendo ideias coesas em um mesmo chunk. Ele supera consistentemente o chunking fixo em benchmarks de precisão de retrieval.
- Quanto um reranker melhora a qualidade do RAG?
- Um reranker cross-encoder reposiciona de forma confiável o chunk certo da posição 8 ou 12 para o top 3. Times que adicionam reranking a um pipeline de busca híbrida existente costumam ver de 20 a 40 por cento de melhoria nos scores de fidelidade sem alterar nenhum outro componente.
- Qual score RAGAS mirar antes de ir para produção?
- Fidelidade acima de 0,90 e relevância de resposta acima de 0,85. Se qualquer uma dessas métricas estiver abaixo desses limiares em uma amostra representativa de queries de produção, faça o diagnóstico antes do deploy. Fidelidade abaixo de 0,85 em produção significa, em média, uma alucinação a cada sete respostas.
- Quando usar RAG adaptativo em vez do RAG padrão?
- Use RAG adaptativo quando o seu conjunto de queries for heterogêneo: algumas exigem retrieval rápido, outras busca iterativa, e outras estão fora da sua base de conhecimento. Se todas as queries são similares e a base é bem delimitada, o RAG híbrido padrão com reranking é suficiente.