RAGAI Engineering

RAG en production : pourquoi la recherche échoue et comment la corriger

La plupart des échecs de RAG se jouent au moment de la recherche. Ce guide couvre le chunking, la recherche hybride, le reranking et les métriques RAGAS pour des pipelines RAG en production en 2026.

11 min read

Section 01 · Le problème

Pourquoi la plupart des pipelines RAG échouent en production

L'échec ne vient presque jamais de la génération. Quand un système RAG donne une réponse fausse, hallucinée ou incomplète, la cause racine est généralement le retrieval — le système a ramené les mauvais chunks, ou aucun.

Réponse rapide

La réponse courte : Un pipeline RAG en production échoue quand le retriever renvoie un contexte non pertinent ou incomplet. Le générateur n'a alors rien de correct sur quoi s'appuyer, donc soit il hallucine, soit il prend des précautions. Réparez d'abord le retrieval.

En 2026, le RAG naïf — chunking à taille fixe plus recherche par similarité vectorielle simple — échoue à retrouver le bon contexte environ 40 pour cent du temps. Ce chiffre grimpe à mesure que les collections de documents grandissent et que les requêtes deviennent plus spécifiques. Le générateur fait son travail. Le retriever ne lui donne pas la matière dont il a besoin.

Il y a quatre causes racines. Chacune a un correctif correspondant, et les correctifs sont ordonnés par retour sur investissement. Commencez par le haut.

Les quatre causes racines d'échec de retrieval RAG : mauvaises frontières de chunks, rappel par mots clés manquant, absence de reranking, et retrieval sans score de confiance.
Les quatre modes d'échec apparaissent à différentes étapes du pipeline de retrieval. La plupart des équipes les rencontrent dans l'ordre montré.

Section 02 · Chunking

Arrêtez de découper par nombre de caractères

La stratégie de chunking contraint la précision de retrieval plus que le choix du modèle d'embedding. Une étude clinique de 2025 a constaté que le chunking adaptatif atteint 87 pour cent de précision de retrieval contre 13 pour cent pour les baselines à taille fixe sur le même jeu de données.

Le chunking à taille fixe — découper tous les 512 ou 1024 caractères sans tenir compte du contenu — coupe les phrases en pleine pensée, sépare les questions de leurs réponses et fait sauter le contexte qui rend un passage signifiant. Le modèle d’embedding encode une idée incomplète. Le score de similarité est plus bas qu’il ne devrait l’être. Le retriever rate.

Chunking sémantique

Utilise la similarité d'embedding pour détecter les frontières de sujet. Quand la distance cosinus entre phrases adjacentes franchit un seuil, le chunker démarre un nouveau chunk. Chaque chunk contient une idée cohérente. C'est le défaut pratique pour la plupart des systèmes RAG en 2026.

Chunking par propositions

Décompose les documents en affirmations factuelles atomiques, chacune exprimant exactement une assertion vérifiable. C'est l'approche la plus précise pour les applications à forte densité de connaissances comme la recherche juridique et la QA médicale, où récupérer un seul fait mal attribué est inacceptable.

Chunking hiérarchique

Maintient à la fois un chunk résumé et ses chunks enfants constitutifs. Au moment de la requête, le système récupère le résumé pour le contexte et le chunk enfant pour la précision. Fonctionne bien pour les longs documents où le contexte au niveau de la section compte pour interpréter le contenu au niveau du paragraphe.

Quelle que soit la stratégie choisie, validez-la avec des métriques de recall sur un jeu de requêtes échantillon avant de déployer. La qualité du chunking est invisible tant que vous ne la mesurez pas.

Section 04 · Évaluation

RAGAS : les cinq chiffres qui comptent en production

RAGAS fournit des métriques d'évaluation sans référence que vous pouvez exécuter sur du trafic en production sans annotation humaine. Ces cinq métriques couvrent l'ensemble du pipeline retrieval-vers-réponse.

Métriques de production RAGAS — valeurs cibles pour un système RAG fiable
MétriqueCe qu'elle mesureCible en production
FaithfulnessLa réponse contient-elle uniquement des affirmations soutenues par le contexte récupéré ?Au-dessus de 0,90
Answer relevancyLa réponse traite-t-elle ce que la question demandait ?Au-dessus de 0,85
Context precisionLes chunks récupérés sont-ils réellement pertinents pour la question ?Au-dessus de 0,80
Context recallLe retrieval a-t-il fait remonter toute l'information nécessaire pour répondre ?Au-dessus de 0,75
Answer correctnessLa réponse est-elle factuellement correcte par rapport à la vérité terrain ?Au-dessus de 0,80

La faithfulness est la métrique la plus importante pour la sécurité en production. Un score de faithfulness sous 0,85 signifie que le modèle génère régulièrement des affirmations non soutenues par ce qu’il a récupéré — c’est la définition d’une hallucination. Réparez le retrieval ou augmentez top-k avant de déployer.

Exécutez les évaluations RAGAS de manière asynchrone sur un échantillon du trafic de production, pas en ligne avec les requêtes utilisateur. Bloquer le pipeline de réponse sur l’évaluation ajoute de la latence et n’apporte rien à l’utilisateur. Collectez, évaluez la nuit, alertez sur les dépassements de seuil.

Section 05 · Architecture

RAG adaptatif : le standard d'architecture 2026

Le RAG adaptatif classifie chaque requête entrante avant le retrieval et la route vers la stratégie appropriée. C'est l'architecture qui sépare les systèmes de production des prototypes.

Un système RAG naïf traite chaque requête de manière identique : retrouver, puis générer. Le RAG adaptatif ajoute une étape de classification en amont. Les requêtes factuelles simples sont routées vers la recherche vectorielle rapide. Les requêtes complexes multi-étapes sont routées vers le retrieval itératif ou hiérarchique. Les requêtes hors de la base de connaissances sont routées directement vers la connaissance paramétrique du modèle, sautant entièrement le retrieval.

La logique de routage est généralement un petit appel LLM ou un classifieur. Le coût est faible — quelques millisecondes et quelques tokens — et le gain de précision est significatif. Les systèmes qui sautent le retrieval quand la confiance du retrieval est faible produisent bien moins d’hallucinations que les systèmes qui retrouvent toujours et passent du contexte de basse qualité.

Flux RAG adaptatif : un classifieur de requête route vers du retrieval rapide, du retrieval itératif ou de la génération directe selon le type de requête et la confiance du retrieval.
Le RAG adaptatif route chaque requête vers la stratégie de retrieval appropriée. La vérification de confiance avant la génération est la fonctionnalité qui empêche le contexte de basse qualité d'atteindre le modèle.

Si vous construisez un nouveau système RAG en 2026, concevez-le pour le routage adaptatif dès le départ. L’ajouter plus tard demande de restructurer le pipeline de retrieval, pas seulement de l’envelopper.

Pour les systèmes d’IA agentique en production qui utilisent le RAG comme couche de mémoire ou de connaissance, voyez mon service de conseil en IA agentique pour comprendre comment le retrieval s’inscrit dans une architecture agentique plus large.

Section 06 · Coût

Ce que coûte le RAG par requête à différents niveaux de complexité

Le chemin d'upgrade a un coût réel. Voici ce qu'il faut budgéter à mesure que vous passez du naïf à l'adaptatif.

Estimations de coût par requête selon les niveaux de complexité RAG (2026)
ArchitectureCoût typique par requêtePlafond de qualité
Vectoriel naïf uniquement0,0005 à 0,002 dollarModéré — échoue sur les correspondances exactes et les requêtes multi-concepts
Recherche hybride + reranker0,002 à 0,008 dollarBon — gère la plupart des types de requêtes en production
RAG adaptatif avec routage0,005 à 0,015 dollarÉlevé — proche du plafond pour les systèmes basés sur le retrieval
RAG agentique (itératif)0,02 à 0,10 dollarTrès élevé — pour les workflows de niveau recherche et analyste

FAQ

Questions fréquentes

Pourquoi le RAG échoue-t-il même quand les chunks ont l'air corrects ?

Le contenu d'un chunk et son classement au retrieval sont deux problèmes distincts. Un chunk peut contenir la bonne information mais se classer sous le seuil top-k parce que la similarité d'embedding est plus basse que celle de chunks non pertinents mais superficiellement similaires. Le correctif est un reranker qui re-score sur la base de la relation réelle question-chunk, pas seulement de la proximité d'embedding.

Quelle est la différence entre le chunking sémantique et le chunking à taille fixe ?

Le chunking à taille fixe découpe tous les N caractères sans tenir compte du contenu, coupant fréquemment des phrases ou des idées en deux. Le chunking sémantique utilise la similarité d'embedding entre phrases adjacentes pour détecter les frontières de sujet, gardant ensemble les idées cohérentes dans un même chunk. Le chunking sémantique surpasse régulièrement le chunking à taille fixe sur les benchmarks de précision de retrieval.

De combien l'ajout d'un reranker améliore-t-il la qualité du RAG ?

Un reranker cross-encoder fait remonter de manière fiable le bon chunk de la position 8 ou 12 vers le top 3, qui est tout ce que voit le modèle de langage. Les équipes qui ajoutent un reranking à un pipeline de recherche hybride existant constatent typiquement une amélioration de 20 à 40 pour cent des scores de faithfulness sans changer aucun autre composant.

Quel score RAGAS viser avant de passer en production ?

Faithfulness au-dessus de 0,90, answer relevancy au-dessus de 0,85. Si l'une des deux métriques est sous ces seuils sur un échantillon représentatif de requêtes de production, diagnostiquez l'échec avant de livrer. Une faithfulness sous 0,85 en production signifie qu'environ 1 réponse sur 7 contient une affirmation hallucinée.

Quand utiliser le RAG adaptatif versus le RAG standard ?

Utilisez le RAG adaptatif quand votre jeu de requêtes est hétérogène — certaines requêtes ont besoin de retrieval rapide, d'autres de recherche itérative, et certaines sont entièrement hors de votre base de connaissances. Si toutes les requêtes sont similaires par nature et que votre base de connaissances est bien bornée, le RAG hybride standard avec reranking est suffisant.

Questions fréquentes

Pourquoi un système RAG échoue-t-il alors que les chunks semblent corrects ?
Le contenu des chunks et le classement de la recherche sont deux problèmes distincts. Un chunk peut contenir la bonne information mais se situer en dessous du seuil top-k parce que sa similarité par embedding est inférieure à celle de chunks superficiellement proches mais hors sujet. La solution est un reranker qui réévalue selon la relation question-chunk réelle, pas seulement la proximité d'embedding.
Quelle est la différence entre chunking sémantique et chunking de taille fixe ?
Le chunking de taille fixe découpe tous les N caractères, coupant fréquemment des phrases ou des idées. Le chunking sémantique s'appuie sur la similarité d'embedding entre phrases adjacentes pour détecter les ruptures de sujet et garder les idées cohérentes ensemble. Il surpasse régulièrement le chunking fixe sur les benchmarks de précision de recherche.
De combien un reranker améliore-t-il la qualité d'un RAG ?
Un reranker cross-encoder ramène fiablement le bon chunk de la position 8 ou 12 vers le top 3. Les équipes qui ajoutent un reranker à un pipeline de recherche hybride existant gagnent en général entre 20 et 40 pour cent de fidélité, sans toucher aux autres composants.
Quel score RAGAS viser avant de passer en production ?
Une fidélité supérieure à 0,90 et une pertinence des réponses supérieure à 0,85. Si l'une des deux mesures est inférieure sur un échantillon représentatif de requêtes, il faut diagnostiquer la défaillance avant le déploiement. Une fidélité sous 0,85 en production signifie qu'environ une réponse sur sept contient une affirmation hallucinée.
Quand utiliser un RAG adaptatif plutôt qu'un RAG standard ?
Utilisez le RAG adaptatif lorsque votre ensemble de requêtes est hétérogène : certaines exigent une recherche rapide, d'autres une recherche itérative, d'autres sortent de votre base de connaissances. Si toutes vos requêtes sont similaires et votre corpus bien délimité, un RAG hybride standard avec reranking suffit.