AI EngineeringAgentic AI

Comment évaluer les agents LLM en production : au-delà des tests unitaires

Les défaillances d'agents se jouent au niveau des spans, pas du résultat final. Ce guide couvre les métriques RAGAS, l'évaluation au niveau span, la mise en place de LangSmith et les scores cibles qui comptent en 2026.

9 min read

Section 01 · Le problème central

Pourquoi évaluer des agents diffère d'évaluer des appels LLM

Un appel LLM unique répond bien à la question ou non. Une exécution d'agent prend de 20 à 100 décisions en séquence. Un échec à l'étape 7 peut produire une sortie finale plausible mais entièrement fausse.

Réponse rapide

La réponse courte : L'évaluation d'agent doit se faire au niveau du span — chaque appel d'outil, décision de récupération et étape de raisonnement — pas seulement à la sortie finale. L'évaluation de la sortie détecte les défaillances après qu'elles se sont déjà propagées dans le pipeline.

Le standard pour évaluer un chatbot — la sortie répond-elle à la question, est-elle factuellement exacte, respecte-t-elle le guide stylistique — est insuffisant pour les agents. Un agent qui récupère le mauvais document, appelle le bon outil avec les mauvais paramètres ou classe mal une intention utilisateur à l’étape 3 produira souvent une sortie finale d’apparence assurée. Le temps que vous évaluiez la sortie, l’erreur s’est déjà propagée à travers les étapes restantes.

Près de la moitié des projets d’IA agentique sont prévus pour être annulés en 2026 par manque d’infrastructure d’évaluation correcte. Les équipes livrent, obtiennent des résultats incohérents, ne peuvent pas diagnostiquer pourquoi et perdent confiance dans le système. Le correctif n’est pas un meilleur modèle — c’est une meilleure mesure au niveau de l’étape.

Section 02 · Catégories de défaillances

Les trois catégories de défaillances que vous devez mesurer

Défaillances de récupération

L'agent récupère les mauvais documents, en récupère trop peu ou récupère des chunks contextuellement non pertinents. Le raisonnement en aval est alors fondé sur une mauvaise information. Les métriques RAGAS context precision et context recall mesurent cela. Visez une context precision au-dessus de 0,80 et un context recall au-dessus de 0,75.

Défaillances de raisonnement

L'agent dispose du bon contexte mais tire la mauvaise conclusion, classe mal une intention ou choisit le mauvais outil pour la tâche. Ces défaillances sont plus difficiles à mesurer automatiquement et nécessitent souvent un modèle juge séparé ou un dataset d'évaluation curé avec des chemins de raisonnement connus comme corrects.

Défaillances d'action

L'agent appelle le bon outil avec les mauvais paramètres, appelle le mauvais outil ou prend une action techniquement valide mais contextuellement inappropriée. Le logging au niveau du span de chaque appel d'outil avec ses paramètres, sa valeur de retour et l'étape de raisonnement subséquente de l'agent est le seul moyen d'attraper cela de manière cohérente.

Section 03 · Métriques RAGAS

Les cinq métriques RAGAS pour des agents RAG en production

Métriques de production RAGAS — définitions et cibles
MétriqueCe qu'elle mesureCible
FaithfulnessLes affirmations de la réponse sont supportées par le contexte récupéréAu-dessus de 0,90
Answer relevancyLa réponse traite ce qui a été demandéAu-dessus de 0,85
Context precisionLes chunks récupérés sont pertinents pour la questionAu-dessus de 0,80
Context recallToute l'information nécessaire pour répondre a été récupéréeAu-dessus de 0,75
Answer correctnessLa réponse est factuellement correcte par rapport au ground truthAu-dessus de 0,80

RAGAS fonctionne sans labels de ground truth pour faithfulness, answer relevancy et context precision. Cela rend la métrique exploitable sur du trafic de production en direct, où vous n’avez pas de réponses correctes vérifiées par humain pour chaque requête. Context recall et answer correctness exigent un ground truth, donc utilisez-les sur un set d’évaluation curé pendant le développement, pas sur le trafic en direct.

Section 04 · Évaluation au niveau du span

Mesurer à l'étape, pas à la sortie

L'évaluation au niveau du span enregistre chaque étape intermédiaire d'une exécution d'agent comme un span nommé avec ses entrées, sorties, latence et coût en tokens. C'est ce que LangSmith capture par défaut pour les agents basés sur LangGraph.

Chaque appel d’outil est un span. Chaque récupération est un span. Chaque étape de raisonnement est un span. Quand une exécution d’agent produit un résultat erroné, vous ouvrez la trace dans LangSmith, trouvez le span d’où l’erreur provient et lisez les entrées, sorties et le contexte exact présents à cette étape. Vous ne devinez pas — vous le voyez.

C’est la propriété qui sépare les systèmes de production débogables des systèmes fragiles. Sans observabilité au niveau du span, une mauvaise sortie d’agent est un mystère. Avec elle, la mauvaise sortie est un span unique que vous pouvez identifier, reproduire et corriger.

Flux d'évaluation au niveau du span : chaque étape d'agent (récupération, raisonnement, appel d'outil) est enregistrée comme un span nommé. RAGAS et les modèles juges évaluent les spans de manière asynchrone. Les dashboards font remonter les dépassements de seuil.
L'évaluation au niveau du span attrape les défaillances à l'étape où elles naissent. L'évaluation de la sortie ne voit que le résultat final — après que la défaillance s'est déjà propagée.

Section 05 · La stack d'évaluation

LangSmith plus RAGAS plus DeepEval : la stack de production 2026

LangSmith pour l'observabilité

Capture automatiquement chaque span pour les agents basés sur LangGraph. Stocke les traces. Supporte l'intégration RAGAS. Permet d'exécuter des évaluateurs sur des échantillons de trafic en direct et sur les traces historiques. Le minimum d'installation viable pour tout agent de production.

RAGAS pour la qualité de récupération

Métriques sans référence pour faithfulness, answer relevancy et context precision sur le trafic en direct. Exécutées de manière asynchrone sur un échantillon de 5 à 10 % des requêtes de production. Alertez sur les chutes de métrique sous le seuil.

DeepEval pour les tests comportementaux

Framework de suite de tests pour évaluer le comportement des agents par rapport à des datasets curés. Exécutez en CI/CD à chaque déploiement pour attraper les régressions avant qu'elles n'atteignent la production. Couvre la détection d'hallucinations, la résilience aux injections de prompt et des métriques comportementales personnalisées.

Section 06 · Checklist de production

Le minimum d'évaluation à mettre en place avant de livrer

Checklist d'évaluation de production pour agents LLM
ExigenceOutilFréquence
Tracing au niveau du span pour toutes les exécutions d'agentLangSmithToujours actif
Faithfulness au-dessus de 0,90RAGAS via LangSmithAsync, échantillon 10 %
Answer relevancy au-dessus de 0,85RAGAS via LangSmithAsync, échantillon 10 %
Tests de régression comportementaleDeepEval en CI/CDÀ chaque déploiement
Validation de schéma des appels d'outilsValidateur custom dans le pipelineÀ chaque appel d'outil
File de relecture humaine pour les exécutions à faible confianceDataset LangSmithHebdomadaire

FAQ

Questions fréquentes

Comment évaluer des agents IA en production ?

Mettez en place un tracing au niveau du span pour capturer chaque étape intermédiaire, appel d'outil et décision de récupération. Utilisez les métriques RAGAS de manière asynchrone sur un échantillon de trafic en direct pour suivre faithfulness et answer relevancy. Exécutez des tests de régression comportementale avec DeepEval à chaque déploiement. Évitez de bloquer le pipeline de réponse sur l'évaluation — exécutez-la de manière asynchrone.

Qu'est-ce que l'évaluation au niveau du span pour les agents LLM ?

L'évaluation au niveau du span enregistre chaque étape intermédiaire d'une exécution d'agent — chaque appel d'outil, étape de récupération et étape de raisonnement — comme un span nommé avec ses entrées, sorties et contexte. Évaluer au niveau du span permet d'identifier exactement quelle étape a produit une erreur plutôt que de la rétro-ingénier à partir de la sortie finale.

Quelles métriques RAGAS utiliser pour un agent RAG en production ?

Commencez par faithfulness et answer relevancy — toutes deux sans référence et exécutables sur le trafic en direct sans labels de ground truth. Visez une faithfulness au-dessus de 0,90 et une answer relevancy au-dessus de 0,85. Ajoutez context precision et context recall avec un dataset d'évaluation curé pour mesurer spécifiquement la qualité de récupération.

LangSmith est-il le meilleur outil d'évaluation pour les agents LangGraph ?

LangSmith est l'option la plus intégrée pour les agents basés sur LangGraph — elle capture les spans automatiquement sans code d'instrumentation, supporte nativement l'intégration RAGAS et fournit une interface de dataset pour exécuter des évaluations sur les traces historiques. Pour les équipes sur d'autres frameworks, Arize Phoenix et Langfuse sont de solides alternatives aux capacités similaires.

Questions fréquentes

Comment évalue-t-on des agents IA en production ?
Mettez en place un tracing au niveau des spans pour capturer chaque étape intermédiaire, chaque appel d'outil et chaque décision de récupération. Utilisez les métriques RAGAS de manière asynchrone sur un échantillon de trafic réel pour suivre la fidélité et la pertinence des réponses. Faites tourner des tests de régression comportementale avec DeepEval à chaque déploiement.
Qu'est-ce que l'évaluation au niveau span pour les agents LLM ?
L'évaluation au niveau span enregistre chaque étape intermédiaire d'une exécution d'agent — chaque appel d'outil, chaque étape de récupération et chaque étape de raisonnement — comme un span nommé avec ses entrées, sorties et contexte. Évaluer au niveau span permet d'identifier exactement quelle étape a produit l'erreur, sans la déduire à partir du résultat final.
Quelles métriques RAGAS pour un agent RAG en production ?
Commencez par la fidélité et la pertinence des réponses : les deux sont sans référence et tournent sur du trafic réel sans labels de vérité. Visez une fidélité supérieure à 0,90 et une pertinence supérieure à 0,85. Ajoutez la précision et le rappel de contexte sur un dataset d'évaluation curé pour mesurer spécifiquement la qualité de la recherche.
LangSmith est-il le meilleur outil d'évaluation pour les agents LangGraph ?
LangSmith est l'option la plus intégrée pour les agents LangGraph : il capture les spans automatiquement sans code d'instrumentation, supporte RAGAS nativement et propose une interface de datasets pour rejouer des évaluations sur traces historiques. Pour les équipes sur d'autres frameworks, Arize Phoenix et Langfuse sont de solides alternatives.