AI EngineeringAgentic AI

프로덕션 LLM 에이전트 평가법: 유닛 테스트 너머로

에이전트의 실패는 최종 출력이 아니라 span 레벨에서 발생합니다. 본 가이드는 RAGAS 지표, span 단위 평가, LangSmith 도입, 그리고 2026년에 도달해야 할 목표 점수를 다룹니다.

9 min read

섹션 01 · 핵심 문제

에이전트 평가가 LLM 호출 평가와 다른 이유

단일 LLM 호출은 질문에 잘 답하거나 못 답하거나입니다. 에이전트 실행은 20에서 100개의 결정을 순차로 내립니다. 7번째 단계에서의 실패가 그럴듯해 보이지만 완전히 틀린 최종 출력을 만들 수 있습니다.

빠른 답변

짧게 답하면: 에이전트 평가는 span 레벨 — 각 도구 호출, retrieval 결정, 추론 단계 — 에서 이뤄져야 합니다. 최종 출력에서만이 아닙니다. 출력 평가는 오류가 이미 파이프라인을 따라 전파된 뒤에야 실패를 잡습니다.

챗봇 평가의 표준 — 출력이 질문에 답하는가, 사실에 부합하는가, 스타일 가이드와 맞는가 — 은 에이전트에게는 부족합니다. 잘못된 문서를 가져오거나, 올바른 도구를 잘못된 매개변수로 호출하거나, 3단계에서 사용자 의도를 잘못 분류한 에이전트는 종종 자신감 있어 보이는 최종 출력을 내놓습니다. 출력을 평가할 즈음이면 오류는 이미 남은 단계들로 전파된 뒤입니다.

적절한 평가 인프라가 없어서 2026년 에이전틱 AI 프로젝트의 거의 절반이 취소될 것으로 예측됩니다. 팀은 출시하고, 일관성 없는 결과를 받고, 원인을 진단하지 못해 시스템에 대한 신뢰를 잃습니다. 해결책은 더 좋은 모델이 아니라 단계 레벨의 더 좋은 측정입니다.

섹션 02 · 실패 카테고리

측정해야 할 세 가지 실패 카테고리

Retrieval 실패

에이전트가 잘못된 문서를 가져오거나, 너무 적게 가져오거나, 맥락상 무관한 chunk를 가져옵니다. 그러면 다운스트림 추론은 잘못된 정보 위에 얹히게 됩니다. RAGAS의 context precision과 context recall이 이를 측정합니다. context precision은 0.80 이상, context recall은 0.75 이상을 목표로 하세요.

추론 실패

에이전트가 올바른 맥락을 갖고도 잘못된 결론을 내리거나, 의도를 잘못 분류하거나, 작업에 부적합한 도구를 고릅니다. 자동으로 측정하기 더 어렵고, 별도의 judge 모델이나 정답 추론 경로가 알려진 큐레이팅된 평가 데이터셋이 자주 필요합니다.

행동 실패

에이전트가 올바른 도구를 잘못된 매개변수로 호출하거나, 잘못된 도구를 호출하거나, 기술적으로는 유효하지만 맥락상 부적절한 행동을 합니다. 매 도구 호출의 매개변수, 반환값, 그리고 그 직후의 에이전트 추론 단계를 span 레벨로 로깅하는 것이 이를 일관되게 잡는 유일한 방법입니다.

섹션 03 · RAGAS 메트릭

프로덕션 RAG 에이전트를 위한 다섯 가지 RAGAS 메트릭

RAGAS 프로덕션 메트릭 — 정의와 목표
메트릭측정 대상목표
Faithfulness답변의 주장이 검색된 맥락에 의해 뒷받침됨0.90 이상
Answer relevancy답변이 질문이 묻는 바를 다룸0.85 이상
Context precision검색된 chunk가 질문과 관련 있음0.80 이상
Context recall답변에 필요한 모든 정보가 검색됨0.75 이상
Answer correctness답변이 ground truth 대비 사실적으로 정확함0.80 이상

RAGAS는 faithfulness, answer relevancy, context precision에 대해 ground truth 라벨 없이 동작합니다. 덕분에 모든 쿼리에 대해 사람이 검증한 정답이 없는 라이브 프로덕션 트래픽에서도 실용적으로 돌릴 수 있습니다. Context recall과 answer correctness는 ground truth가 필요하므로, 라이브 트래픽이 아니라 개발 단계의 큐레이팅된 평가 세트에서 사용하세요.

섹션 04 · Span 레벨 평가

출력이 아니라 단계에서 측정하기

Span 레벨 평가는 에이전트 실행의 모든 중간 단계를 입력, 출력, 지연 시간, 토큰 비용과 함께 이름 붙은 span으로 로깅합니다. 이는 LangGraph 기반 에이전트에 대해 LangSmith가 기본으로 캡처하는 것입니다.

매 도구 호출이 span입니다. 매 retrieval이 span입니다. 매 추론 단계가 span입니다. 에이전트 실행이 잘못된 결과를 내면, LangSmith에서 trace를 열고 오류가 발생한 span을 찾아, 그 단계에서 존재했던 정확한 입력, 출력, 맥락을 그대로 읽습니다. 짐작하지 않습니다 — 봅니다.

이것이 디버그 가능한 프로덕션 시스템과 취약한 시스템을 가르는 속성입니다. Span 레벨 observability가 없으면 잘못된 에이전트 출력은 미스터리입니다. 있으면, 잘못된 출력은 식별, 재현, 수정이 가능한 단일 span이 됩니다.

Span 레벨 평가 흐름: 각 에이전트 단계(retrieval, 추론, 도구 호출)가 이름 붙은 span으로 로깅됩니다. RAGAS와 judge 모델이 span을 비동기로 평가하고, 대시보드는 임계값 위반을 드러냅니다.
Span 레벨 평가는 실패가 발생하는 단계에서 그것을 잡습니다. 출력 평가는 최종 결과만 봅니다 — 실패가 이미 전파된 뒤에야 말이죠.

섹션 05 · 평가 스택

LangSmith + RAGAS + DeepEval: 2026년 프로덕션 스택

Observability에는 LangSmith

LangGraph 기반 에이전트에 대해 모든 span을 자동으로 캡처합니다. trace를 저장합니다. RAGAS 통합을 지원합니다. 라이브 트래픽 샘플과 과거 trace에 대해 evaluator를 실행하게 해줍니다. 어떤 프로덕션 에이전트에든 최소 가용 셋업입니다.

Retrieval 품질에는 RAGAS

라이브 트래픽 위에서 faithfulness, answer relevancy, context precision의 reference-free 메트릭. 프로덕션 쿼리의 5~10% 샘플에 대해 비동기로 실행하세요. 메트릭이 임계값 아래로 떨어지면 알림을 띄우세요.

행동 테스트에는 DeepEval

큐레이팅된 데이터셋에 대해 에이전트 행동을 평가하는 테스트 스위트 프레임워크. 회귀가 프로덕션에 도달하기 전에 잡기 위해 매 배포 시 CI/CD에서 실행합니다. 환각 탐지, prompt injection 견고성, 커스텀 행동 메트릭을 커버합니다.

섹션 06 · 프로덕션 체크리스트

출시 전 갖춰야 할 최소 평가 셋업

LLM 에이전트용 프로덕션 평가 체크리스트
요건도구주기
모든 에이전트 실행에 대한 span 레벨 tracingLangSmith상시 동작
Faithfulness 0.90 이상RAGAS via LangSmith비동기, 10% 샘플
Answer relevancy 0.85 이상RAGAS via LangSmith비동기, 10% 샘플
행동 회귀 테스트CI/CD의 DeepEval매 배포마다
도구 호출 schema 검증파이프라인 내 커스텀 validator매 도구 호출마다
저신뢰도 실행에 대한 사람 리뷰 큐LangSmith 데이터셋주간

FAQ

자주 묻는 질문

프로덕션의 AI 에이전트는 어떻게 평가하나요?

모든 중간 단계, 도구 호출, retrieval 결정을 캡처하기 위해 span 레벨 tracing을 돌리세요. faithfulness와 answer relevancy를 모니터링하기 위해 라이브 트래픽 샘플에 대해 RAGAS 메트릭을 비동기로 사용하세요. 매 배포 시 DeepEval로 행동 회귀 테스트를 실행하세요. 응답 파이프라인을 평가로 막지 마세요 — 비동기로 실행하세요.

LLM 에이전트의 span 레벨 평가란 무엇인가요?

Span 레벨 평가는 에이전트 실행의 각 중간 단계 — 각 도구 호출, retrieval 단계, 추론 단계 — 를 입력, 출력, 맥락과 함께 이름 붙은 span으로 로깅합니다. span 레벨에서 평가하면 최종 출력에서 역추적하지 않고, 어떤 단계가 오류를 만들었는지 정확히 식별할 수 있습니다.

프로덕션 RAG 에이전트에는 어떤 RAGAS 메트릭을 써야 하나요?

faithfulness와 answer relevancy로 시작하세요 — 둘 다 reference-free라서 ground truth 라벨 없이 라이브 트래픽에서 돌릴 수 있습니다. faithfulness는 0.90 이상, answer relevancy는 0.85 이상을 목표로 하세요. retrieval 품질을 명시적으로 측정하기 위해 큐레이팅된 평가 데이터셋과 함께 context precision과 context recall을 추가하세요.

LangGraph 에이전트에는 LangSmith가 가장 좋은 평가 도구인가요?

LangSmith는 LangGraph 기반 에이전트에 가장 통합된 옵션입니다 — 계측 코드 없이 span을 자동 캡처하고, RAGAS 통합을 네이티브로 지원하며, 과거 trace에 대해 평가를 돌리는 데이터셋 인터페이스를 제공합니다. 다른 프레임워크를 쓰는 팀에는 Arize Phoenix와 Langfuse가 비슷한 능력을 가진 강력한 대안입니다.

자주 묻는 질문

프로덕션의 AI 에이전트는 어떻게 평가하나요?
Span 레벨 트레이싱으로 모든 중간 단계, 도구 호출, 검색 결정사항을 기록합니다. 운영 트래픽 샘플에 RAGAS 지표를 비동기적으로 적용해 faithfulness와 answer relevancy를 모니터링합니다. 배포마다 DeepEval로 행동 회귀 테스트를 돌립니다.
LLM 에이전트의 span 단위 평가란?
Span 단위 평가는 에이전트 실행의 모든 중간 단계 — 도구 호출, 검색 단계, 추론 단계 — 를 입력·출력·컨텍스트가 포함된 named span으로 남기는 것입니다. Span 단위에서 평가하면 최종 출력에서 역추적할 필요 없이 어떤 단계가 오류를 만들었는지 정확하게 짚을 수 있습니다.
프로덕션 RAG 에이전트에 사용해야 할 RAGAS 지표는?
Faithfulness와 answer relevancy로 시작하는 것이 좋습니다. 두 지표 모두 정답 라벨이 없어도 운영 트래픽에서 실행할 수 있는 reference-free 지표입니다. Faithfulness 0.90 이상, answer relevancy 0.85 이상을 목표로 하세요. 검색 품질을 직접 측정하고 싶다면 잘 큐레이션한 평가 데이터셋으로 context precision과 context recall을 추가하세요.
LangGraph 기반 에이전트에 LangSmith가 최선인가요?
LangGraph 기반 에이전트에는 LangSmith가 가장 잘 통합됩니다 — 별도 계측 코드 없이 span을 자동으로 캡처하고, RAGAS 통합을 네이티브로 지원하며, 과거 트레이스에 평가를 다시 실행할 수 있는 데이터셋 인터페이스도 제공합니다. 다른 프레임워크를 쓰는 팀에게는 Arize Phoenix와 Langfuse가 강력한 대안입니다.