RAG en production : pourquoi la recherche échoue et comment la corriger
La plupart des échecs de RAG se jouent au moment de la recherche. Ce guide couvre le chunking, la recherche hybride, le reranking et les métriques RAGAS pour des pipelines RAG en production en 2026.
Section 01 · Le problème
Pourquoi la plupart des pipelines RAG échouent en production
L'échec ne vient presque jamais de la génération. Quand un système RAG donne une réponse fausse, hallucinée ou incomplète, la cause racine est généralement le retrieval — le système a ramené les mauvais chunks, ou aucun.
Réponse rapide
La réponse courte : Un pipeline RAG en production échoue quand le retriever renvoie un contexte non pertinent ou incomplet. Le générateur n'a alors rien de correct sur quoi s'appuyer, donc soit il hallucine, soit il prend des précautions. Réparez d'abord le retrieval.
En 2026, le RAG naïf — chunking à taille fixe plus recherche par similarité vectorielle simple — échoue à retrouver le bon contexte environ 40 pour cent du temps. Ce chiffre grimpe à mesure que les collections de documents grandissent et que les requêtes deviennent plus spécifiques. Le générateur fait son travail. Le retriever ne lui donne pas la matière dont il a besoin.
Il y a quatre causes racines. Chacune a un correctif correspondant, et les correctifs sont ordonnés par retour sur investissement. Commencez par le haut.
Section 02 · Chunking
Arrêtez de découper par nombre de caractères
La stratégie de chunking contraint la précision de retrieval plus que le choix du modèle d'embedding. Une étude clinique de 2025 a constaté que le chunking adaptatif atteint 87 pour cent de précision de retrieval contre 13 pour cent pour les baselines à taille fixe sur le même jeu de données.
Le chunking à taille fixe — découper tous les 512 ou 1024 caractères sans tenir compte du contenu — coupe les phrases en pleine pensée, sépare les questions de leurs réponses et fait sauter le contexte qui rend un passage signifiant. Le modèle d’embedding encode une idée incomplète. Le score de similarité est plus bas qu’il ne devrait l’être. Le retriever rate.
Chunking sémantique
Utilise la similarité d'embedding pour détecter les frontières de sujet. Quand la distance cosinus entre phrases adjacentes franchit un seuil, le chunker démarre un nouveau chunk. Chaque chunk contient une idée cohérente. C'est le défaut pratique pour la plupart des systèmes RAG en 2026.
Chunking par propositions
Décompose les documents en affirmations factuelles atomiques, chacune exprimant exactement une assertion vérifiable. C'est l'approche la plus précise pour les applications à forte densité de connaissances comme la recherche juridique et la QA médicale, où récupérer un seul fait mal attribué est inacceptable.
Chunking hiérarchique
Maintient à la fois un chunk résumé et ses chunks enfants constitutifs. Au moment de la requête, le système récupère le résumé pour le contexte et le chunk enfant pour la précision. Fonctionne bien pour les longs documents où le contexte au niveau de la section compte pour interpréter le contenu au niveau du paragraphe.
Quelle que soit la stratégie choisie, validez-la avec des métriques de recall sur un jeu de requêtes échantillon avant de déployer. La qualité du chunking est invisible tant que vous ne la mesurez pas.
Section 03 · Retrieval
Recherche hybride et reranking : les deux upgrades au plus fort ROI
Faire tourner BM25 et la recherche vectorielle en parallèle, puis fusionner les résultats avec Reciprocal Rank Fusion, est la plus grande amélioration de qualité disponible pour un pipeline RAG naïf.
La recherche vectorielle ramène des passages sémantiquement similaires — elle gère bien la paraphrase et le matching conceptuel mais rate les correspondances exactes de mots clés. BM25 gère bien les correspondances exactes et les termes rares mais rate les relations sémantiques. Aucune des deux n’est suffisante seule pour un système RAG en production qui traite des types de requêtes variés.
La recherche hybride exécute les deux en parallèle et fusionne les listes classées avec Reciprocal Rank Fusion. Quand la recherche hybride est combinée avec des techniques contextuelles, les taux d’erreur chutent d’environ 69 pour cent par rapport au retrieval naïf, vectoriel uniquement. L’implémentation est directe dans n’importe quel vector store de production : Weaviate livre la recherche hybride en standard ; Pinecone l’a ajoutée en 2025 ; pgvector demande de la composer manuellement avec un index BM25.
| Upgrade | Gain | Coût d'implémentation | Priorité |
|---|---|---|---|
| Chunking sémantique | Élevé | Faible | À faire en premier |
| Recherche hybride (BM25 + vectorielle) | Élevé | Faible à moyen | À faire en second |
| Reranker cross-encoder | Élevé | Moyen | À faire en troisième |
| Retrieval contextuel | Moyen | Moyen | À faire en quatrième |
| Routage RAG adaptatif | Moyen à élevé | Élevé | À faire à grande échelle |
L’étape de reranking mérite d’être soulignée. Un modèle cross-encoder re-score chaque chunk récupéré par rapport à la requête originale avec une attention complète — il voit la requête et le chunk ensemble, contrairement au bi-encoder qui les score séparément. Un pipeline de production typique récupère le top-50 avec la recherche hybride, rerank au top-5 avec un cross-encoder, puis passe ces cinq chunks au modèle de langage. Le coût est modeste ; l’amélioration de précision est substantielle.
Section 04 · Évaluation
RAGAS : les cinq chiffres qui comptent en production
RAGAS fournit des métriques d'évaluation sans référence que vous pouvez exécuter sur du trafic en production sans annotation humaine. Ces cinq métriques couvrent l'ensemble du pipeline retrieval-vers-réponse.
| Métrique | Ce qu'elle mesure | Cible en production |
|---|---|---|
| Faithfulness | La réponse contient-elle uniquement des affirmations soutenues par le contexte récupéré ? | Au-dessus de 0,90 |
| Answer relevancy | La réponse traite-t-elle ce que la question demandait ? | Au-dessus de 0,85 |
| Context precision | Les chunks récupérés sont-ils réellement pertinents pour la question ? | Au-dessus de 0,80 |
| Context recall | Le retrieval a-t-il fait remonter toute l'information nécessaire pour répondre ? | Au-dessus de 0,75 |
| Answer correctness | La réponse est-elle factuellement correcte par rapport à la vérité terrain ? | Au-dessus de 0,80 |
La faithfulness est la métrique la plus importante pour la sécurité en production. Un score de faithfulness sous 0,85 signifie que le modèle génère régulièrement des affirmations non soutenues par ce qu’il a récupéré — c’est la définition d’une hallucination. Réparez le retrieval ou augmentez top-k avant de déployer.
Exécutez les évaluations RAGAS de manière asynchrone sur un échantillon du trafic de production, pas en ligne avec les requêtes utilisateur. Bloquer le pipeline de réponse sur l’évaluation ajoute de la latence et n’apporte rien à l’utilisateur. Collectez, évaluez la nuit, alertez sur les dépassements de seuil.
Section 05 · Architecture
RAG adaptatif : le standard d'architecture 2026
Le RAG adaptatif classifie chaque requête entrante avant le retrieval et la route vers la stratégie appropriée. C'est l'architecture qui sépare les systèmes de production des prototypes.
Un système RAG naïf traite chaque requête de manière identique : retrouver, puis générer. Le RAG adaptatif ajoute une étape de classification en amont. Les requêtes factuelles simples sont routées vers la recherche vectorielle rapide. Les requêtes complexes multi-étapes sont routées vers le retrieval itératif ou hiérarchique. Les requêtes hors de la base de connaissances sont routées directement vers la connaissance paramétrique du modèle, sautant entièrement le retrieval.
La logique de routage est généralement un petit appel LLM ou un classifieur. Le coût est faible — quelques millisecondes et quelques tokens — et le gain de précision est significatif. Les systèmes qui sautent le retrieval quand la confiance du retrieval est faible produisent bien moins d’hallucinations que les systèmes qui retrouvent toujours et passent du contexte de basse qualité.
Si vous construisez un nouveau système RAG en 2026, concevez-le pour le routage adaptatif dès le départ. L’ajouter plus tard demande de restructurer le pipeline de retrieval, pas seulement de l’envelopper.
Pour les systèmes d’IA agentique en production qui utilisent le RAG comme couche de mémoire ou de connaissance, voyez mon service de conseil en IA agentique pour comprendre comment le retrieval s’inscrit dans une architecture agentique plus large.
Section 06 · Coût
Ce que coûte le RAG par requête à différents niveaux de complexité
Le chemin d'upgrade a un coût réel. Voici ce qu'il faut budgéter à mesure que vous passez du naïf à l'adaptatif.
| Architecture | Coût typique par requête | Plafond de qualité |
|---|---|---|
| Vectoriel naïf uniquement | 0,0005 à 0,002 dollar | Modéré — échoue sur les correspondances exactes et les requêtes multi-concepts |
| Recherche hybride + reranker | 0,002 à 0,008 dollar | Bon — gère la plupart des types de requêtes en production |
| RAG adaptatif avec routage | 0,005 à 0,015 dollar | Élevé — proche du plafond pour les systèmes basés sur le retrieval |
| RAG agentique (itératif) | 0,02 à 0,10 dollar | Très élevé — pour les workflows de niveau recherche et analyste |
FAQ
Questions fréquentes
Pourquoi le RAG échoue-t-il même quand les chunks ont l'air corrects ?
Le contenu d'un chunk et son classement au retrieval sont deux problèmes distincts. Un chunk peut contenir la bonne information mais se classer sous le seuil top-k parce que la similarité d'embedding est plus basse que celle de chunks non pertinents mais superficiellement similaires. Le correctif est un reranker qui re-score sur la base de la relation réelle question-chunk, pas seulement de la proximité d'embedding.
Quelle est la différence entre le chunking sémantique et le chunking à taille fixe ?
Le chunking à taille fixe découpe tous les N caractères sans tenir compte du contenu, coupant fréquemment des phrases ou des idées en deux. Le chunking sémantique utilise la similarité d'embedding entre phrases adjacentes pour détecter les frontières de sujet, gardant ensemble les idées cohérentes dans un même chunk. Le chunking sémantique surpasse régulièrement le chunking à taille fixe sur les benchmarks de précision de retrieval.
De combien l'ajout d'un reranker améliore-t-il la qualité du RAG ?
Un reranker cross-encoder fait remonter de manière fiable le bon chunk de la position 8 ou 12 vers le top 3, qui est tout ce que voit le modèle de langage. Les équipes qui ajoutent un reranking à un pipeline de recherche hybride existant constatent typiquement une amélioration de 20 à 40 pour cent des scores de faithfulness sans changer aucun autre composant.
Quel score RAGAS viser avant de passer en production ?
Faithfulness au-dessus de 0,90, answer relevancy au-dessus de 0,85. Si l'une des deux métriques est sous ces seuils sur un échantillon représentatif de requêtes de production, diagnostiquez l'échec avant de livrer. Une faithfulness sous 0,85 en production signifie qu'environ 1 réponse sur 7 contient une affirmation hallucinée.
Quand utiliser le RAG adaptatif versus le RAG standard ?
Utilisez le RAG adaptatif quand votre jeu de requêtes est hétérogène — certaines requêtes ont besoin de retrieval rapide, d'autres de recherche itérative, et certaines sont entièrement hors de votre base de connaissances. Si toutes les requêtes sont similaires par nature et que votre base de connaissances est bien bornée, le RAG hybride standard avec reranking est suffisant.
Questions fréquentes
- Pourquoi un système RAG échoue-t-il alors que les chunks semblent corrects ?
- Le contenu des chunks et le classement de la recherche sont deux problèmes distincts. Un chunk peut contenir la bonne information mais se situer en dessous du seuil top-k parce que sa similarité par embedding est inférieure à celle de chunks superficiellement proches mais hors sujet. La solution est un reranker qui réévalue selon la relation question-chunk réelle, pas seulement la proximité d'embedding.
- Quelle est la différence entre chunking sémantique et chunking de taille fixe ?
- Le chunking de taille fixe découpe tous les N caractères, coupant fréquemment des phrases ou des idées. Le chunking sémantique s'appuie sur la similarité d'embedding entre phrases adjacentes pour détecter les ruptures de sujet et garder les idées cohérentes ensemble. Il surpasse régulièrement le chunking fixe sur les benchmarks de précision de recherche.
- De combien un reranker améliore-t-il la qualité d'un RAG ?
- Un reranker cross-encoder ramène fiablement le bon chunk de la position 8 ou 12 vers le top 3. Les équipes qui ajoutent un reranker à un pipeline de recherche hybride existant gagnent en général entre 20 et 40 pour cent de fidélité, sans toucher aux autres composants.
- Quel score RAGAS viser avant de passer en production ?
- Une fidélité supérieure à 0,90 et une pertinence des réponses supérieure à 0,85. Si l'une des deux mesures est inférieure sur un échantillon représentatif de requêtes, il faut diagnostiquer la défaillance avant le déploiement. Une fidélité sous 0,85 en production signifie qu'environ une réponse sur sept contient une affirmation hallucinée.
- Quand utiliser un RAG adaptatif plutôt qu'un RAG standard ?
- Utilisez le RAG adaptatif lorsque votre ensemble de requêtes est hétérogène : certaines exigent une recherche rapide, d'autres une recherche itérative, d'autres sortent de votre base de connaissances. Si toutes vos requêtes sont similaires et votre corpus bien délimité, un RAG hybride standard avec reranking suffit.