Comment évaluer les agents LLM en production : au-delà des tests unitaires
Les défaillances d'agents se jouent au niveau des spans, pas du résultat final. Ce guide couvre les métriques RAGAS, l'évaluation au niveau span, la mise en place de LangSmith et les scores cibles qui comptent en 2026.
Section 01 · Le problème central
Pourquoi évaluer des agents diffère d'évaluer des appels LLM
Un appel LLM unique répond bien à la question ou non. Une exécution d'agent prend de 20 à 100 décisions en séquence. Un échec à l'étape 7 peut produire une sortie finale plausible mais entièrement fausse.
Réponse rapide
La réponse courte : L'évaluation d'agent doit se faire au niveau du span — chaque appel d'outil, décision de récupération et étape de raisonnement — pas seulement à la sortie finale. L'évaluation de la sortie détecte les défaillances après qu'elles se sont déjà propagées dans le pipeline.
Le standard pour évaluer un chatbot — la sortie répond-elle à la question, est-elle factuellement exacte, respecte-t-elle le guide stylistique — est insuffisant pour les agents. Un agent qui récupère le mauvais document, appelle le bon outil avec les mauvais paramètres ou classe mal une intention utilisateur à l’étape 3 produira souvent une sortie finale d’apparence assurée. Le temps que vous évaluiez la sortie, l’erreur s’est déjà propagée à travers les étapes restantes.
Près de la moitié des projets d’IA agentique sont prévus pour être annulés en 2026 par manque d’infrastructure d’évaluation correcte. Les équipes livrent, obtiennent des résultats incohérents, ne peuvent pas diagnostiquer pourquoi et perdent confiance dans le système. Le correctif n’est pas un meilleur modèle — c’est une meilleure mesure au niveau de l’étape.
Section 02 · Catégories de défaillances
Les trois catégories de défaillances que vous devez mesurer
Défaillances de récupération
L'agent récupère les mauvais documents, en récupère trop peu ou récupère des chunks contextuellement non pertinents. Le raisonnement en aval est alors fondé sur une mauvaise information. Les métriques RAGAS context precision et context recall mesurent cela. Visez une context precision au-dessus de 0,80 et un context recall au-dessus de 0,75.
Défaillances de raisonnement
L'agent dispose du bon contexte mais tire la mauvaise conclusion, classe mal une intention ou choisit le mauvais outil pour la tâche. Ces défaillances sont plus difficiles à mesurer automatiquement et nécessitent souvent un modèle juge séparé ou un dataset d'évaluation curé avec des chemins de raisonnement connus comme corrects.
Défaillances d'action
L'agent appelle le bon outil avec les mauvais paramètres, appelle le mauvais outil ou prend une action techniquement valide mais contextuellement inappropriée. Le logging au niveau du span de chaque appel d'outil avec ses paramètres, sa valeur de retour et l'étape de raisonnement subséquente de l'agent est le seul moyen d'attraper cela de manière cohérente.
Section 03 · Métriques RAGAS
Les cinq métriques RAGAS pour des agents RAG en production
| Métrique | Ce qu'elle mesure | Cible |
|---|---|---|
| Faithfulness | Les affirmations de la réponse sont supportées par le contexte récupéré | Au-dessus de 0,90 |
| Answer relevancy | La réponse traite ce qui a été demandé | Au-dessus de 0,85 |
| Context precision | Les chunks récupérés sont pertinents pour la question | Au-dessus de 0,80 |
| Context recall | Toute l'information nécessaire pour répondre a été récupérée | Au-dessus de 0,75 |
| Answer correctness | La réponse est factuellement correcte par rapport au ground truth | Au-dessus de 0,80 |
RAGAS fonctionne sans labels de ground truth pour faithfulness, answer relevancy et context precision. Cela rend la métrique exploitable sur du trafic de production en direct, où vous n’avez pas de réponses correctes vérifiées par humain pour chaque requête. Context recall et answer correctness exigent un ground truth, donc utilisez-les sur un set d’évaluation curé pendant le développement, pas sur le trafic en direct.
Section 04 · Évaluation au niveau du span
Mesurer à l'étape, pas à la sortie
L'évaluation au niveau du span enregistre chaque étape intermédiaire d'une exécution d'agent comme un span nommé avec ses entrées, sorties, latence et coût en tokens. C'est ce que LangSmith capture par défaut pour les agents basés sur LangGraph.
Chaque appel d’outil est un span. Chaque récupération est un span. Chaque étape de raisonnement est un span. Quand une exécution d’agent produit un résultat erroné, vous ouvrez la trace dans LangSmith, trouvez le span d’où l’erreur provient et lisez les entrées, sorties et le contexte exact présents à cette étape. Vous ne devinez pas — vous le voyez.
C’est la propriété qui sépare les systèmes de production débogables des systèmes fragiles. Sans observabilité au niveau du span, une mauvaise sortie d’agent est un mystère. Avec elle, la mauvaise sortie est un span unique que vous pouvez identifier, reproduire et corriger.
Section 05 · La stack d'évaluation
LangSmith plus RAGAS plus DeepEval : la stack de production 2026
LangSmith pour l'observabilité
Capture automatiquement chaque span pour les agents basés sur LangGraph. Stocke les traces. Supporte l'intégration RAGAS. Permet d'exécuter des évaluateurs sur des échantillons de trafic en direct et sur les traces historiques. Le minimum d'installation viable pour tout agent de production.
RAGAS pour la qualité de récupération
Métriques sans référence pour faithfulness, answer relevancy et context precision sur le trafic en direct. Exécutées de manière asynchrone sur un échantillon de 5 à 10 % des requêtes de production. Alertez sur les chutes de métrique sous le seuil.
DeepEval pour les tests comportementaux
Framework de suite de tests pour évaluer le comportement des agents par rapport à des datasets curés. Exécutez en CI/CD à chaque déploiement pour attraper les régressions avant qu'elles n'atteignent la production. Couvre la détection d'hallucinations, la résilience aux injections de prompt et des métriques comportementales personnalisées.
Section 06 · Checklist de production
Le minimum d'évaluation à mettre en place avant de livrer
| Exigence | Outil | Fréquence |
|---|---|---|
| Tracing au niveau du span pour toutes les exécutions d'agent | LangSmith | Toujours actif |
| Faithfulness au-dessus de 0,90 | RAGAS via LangSmith | Async, échantillon 10 % |
| Answer relevancy au-dessus de 0,85 | RAGAS via LangSmith | Async, échantillon 10 % |
| Tests de régression comportementale | DeepEval en CI/CD | À chaque déploiement |
| Validation de schéma des appels d'outils | Validateur custom dans le pipeline | À chaque appel d'outil |
| File de relecture humaine pour les exécutions à faible confiance | Dataset LangSmith | Hebdomadaire |
FAQ
Questions fréquentes
Comment évaluer des agents IA en production ?
Mettez en place un tracing au niveau du span pour capturer chaque étape intermédiaire, appel d'outil et décision de récupération. Utilisez les métriques RAGAS de manière asynchrone sur un échantillon de trafic en direct pour suivre faithfulness et answer relevancy. Exécutez des tests de régression comportementale avec DeepEval à chaque déploiement. Évitez de bloquer le pipeline de réponse sur l'évaluation — exécutez-la de manière asynchrone.
Qu'est-ce que l'évaluation au niveau du span pour les agents LLM ?
L'évaluation au niveau du span enregistre chaque étape intermédiaire d'une exécution d'agent — chaque appel d'outil, étape de récupération et étape de raisonnement — comme un span nommé avec ses entrées, sorties et contexte. Évaluer au niveau du span permet d'identifier exactement quelle étape a produit une erreur plutôt que de la rétro-ingénier à partir de la sortie finale.
Quelles métriques RAGAS utiliser pour un agent RAG en production ?
Commencez par faithfulness et answer relevancy — toutes deux sans référence et exécutables sur le trafic en direct sans labels de ground truth. Visez une faithfulness au-dessus de 0,90 et une answer relevancy au-dessus de 0,85. Ajoutez context precision et context recall avec un dataset d'évaluation curé pour mesurer spécifiquement la qualité de récupération.
LangSmith est-il le meilleur outil d'évaluation pour les agents LangGraph ?
LangSmith est l'option la plus intégrée pour les agents basés sur LangGraph — elle capture les spans automatiquement sans code d'instrumentation, supporte nativement l'intégration RAGAS et fournit une interface de dataset pour exécuter des évaluations sur les traces historiques. Pour les équipes sur d'autres frameworks, Arize Phoenix et Langfuse sont de solides alternatives aux capacités similaires.
Questions fréquentes
- Comment évalue-t-on des agents IA en production ?
- Mettez en place un tracing au niveau des spans pour capturer chaque étape intermédiaire, chaque appel d'outil et chaque décision de récupération. Utilisez les métriques RAGAS de manière asynchrone sur un échantillon de trafic réel pour suivre la fidélité et la pertinence des réponses. Faites tourner des tests de régression comportementale avec DeepEval à chaque déploiement.
- Qu'est-ce que l'évaluation au niveau span pour les agents LLM ?
- L'évaluation au niveau span enregistre chaque étape intermédiaire d'une exécution d'agent — chaque appel d'outil, chaque étape de récupération et chaque étape de raisonnement — comme un span nommé avec ses entrées, sorties et contexte. Évaluer au niveau span permet d'identifier exactement quelle étape a produit l'erreur, sans la déduire à partir du résultat final.
- Quelles métriques RAGAS pour un agent RAG en production ?
- Commencez par la fidélité et la pertinence des réponses : les deux sont sans référence et tournent sur du trafic réel sans labels de vérité. Visez une fidélité supérieure à 0,90 et une pertinence supérieure à 0,85. Ajoutez la précision et le rappel de contexte sur un dataset d'évaluation curé pour mesurer spécifiquement la qualité de la recherche.
- LangSmith est-il le meilleur outil d'évaluation pour les agents LangGraph ?
- LangSmith est l'option la plus intégrée pour les agents LangGraph : il capture les spans automatiquement sans code d'instrumentation, supporte RAGAS nativement et propose une interface de datasets pour rejouer des évaluations sur traces historiques. Pour les équipes sur d'autres frameworks, Arize Phoenix et Langfuse sont de solides alternatives.