AI EngineeringAgentic AI

پروڈکشن LLM ایجنٹس کی جانچ: یونٹ ٹیسٹ سے آگے

ایجنٹ کی ناکامیاں آخری آؤٹ پٹ پر نہیں بلکہ اسپین لیول پر ہوتی ہیں۔ یہ گائیڈ RAGAS میٹرکس، اسپین لیول ایوالویشن، LangSmith کے سیٹ اپ اور 2026 کے ہدف اسکورز کا احاطہ کرتی ہے۔

9 min read

سیکشن 01 · بنیادی مسئلہ

ایجنٹس کی evaluation LLM calls کی evaluation سے کیوں مختلف ہے

ایک واحد LLM call یا تو سوال کا اچھا جواب دیتا ہے یا نہیں۔ ایجنٹ کا ایک run ترتیب میں 20 سے 100 فیصلے کرتا ہے۔ Step 7 پر ناکامی ایک ایسا آخری output دے سکتی ہے جو دیکھنے میں قابلِ یقین ہو لیکن مکمل طور پر غلط ہو۔

فوری جواب

مختصر جواب: ایجنٹ کی evaluation span سطح پر ہونی چاہیے — ہر tool call، retrieval فیصلہ اور reasoning step — صرف آخری output پر نہیں۔ Output evaluation ناکامیاں اس وقت پکڑتا ہے جب وہ پہلے ہی pipeline میں پھیل چکی ہوتی ہیں۔

چیٹ بوٹ کی evaluation کا معیار — کیا output سوال کا جواب دیتا ہے، کیا وہ حقیقت پر مبنی ہے، کیا وہ style guide سے ملتا ہے — ایجنٹس کے لیے ناکافی ہے۔ ایک ایجنٹ جو غلط دستاویز retrieve کرے، صحیح tool کو غلط parameters کے ساتھ کال کرے، یا step 3 پر صارف کے ارادے کی غلط درجہ بندی کرے — اکثر ایک پر اعتماد دکھائی دینے والا آخری output دے دے گا۔ جب تک آپ output کا جائزہ لیں گے، غلطی باقی steps میں پہلے ہی پھیل چکی ہوگی۔

مناسب evaluation انفرا اسٹرکچر کی کمی کی وجہ سے 2026 میں تقریباً نصف agentic AI پروجیکٹس کے منسوخ ہونے کی پیش گوئی ہے۔ ٹیمیں شپ کرتی ہیں، غیر مستقل نتائج لیتی ہیں، وجہ تشخیص نہیں کر پاتیں اور سسٹم پر اعتماد کھو دیتی ہیں۔ حل بہتر model نہیں — step سطح پر بہتر پیمائش ہے۔

سیکشن 02 · ناکامی کی اقسام

جن تین ناکامی اقسام کی پیمائش لازمی ہے

Retrieval کی ناکامیاں

ایجنٹ غلط دستاویزات retrieve کرتا ہے، بہت کم retrieve کرتا ہے، یا سیاق و سباق سے غیر متعلق chunks retrieve کرتا ہے۔ اس کے بعد downstream reasoning غلط معلومات پر کھڑا ہو جاتا ہے۔ RAGAS context precision اور context recall اسے ناپتے ہیں۔ context precision کا ہدف 0.80 سے اوپر اور context recall کا 0.75 سے اوپر رکھیں۔

Reasoning کی ناکامیاں

ایجنٹ کے پاس درست سیاق و سباق ہے مگر وہ غلط نتیجہ نکالتا ہے، intent کی غلط درجہ بندی کرتا ہے، یا کام کے لیے غلط tool منتخب کرتا ہے۔ یہ ناکامیاں خودکار طور پر ناپنا مشکل ہیں اور اکثر ایک علیحدہ judge model یا معلوم درست reasoning paths والے curated evaluation dataset کی ضرورت ہوتی ہے۔

Action کی ناکامیاں

ایجنٹ صحیح tool کو غلط parameters کے ساتھ کال کرتا ہے، غلط tool کال کرتا ہے، یا تکنیکی طور پر درست لیکن سیاق و سباق میں نامناسب action لیتا ہے۔ ان کو مستقل طور پر پکڑنے کا واحد طریقہ ہر tool call کا — اس کے parameters، return value، اور ایجنٹ کا اگلا reasoning step — span سطح پر logging کرنا ہے۔

سیکشن 03 · RAGAS metrics

پروڈکشن RAG ایجنٹس کے لیے پانچ RAGAS metrics

RAGAS پروڈکشن metrics — تعریفیں اور اہداف
میٹرککیا ناپتا ہےہدف
Faithfulnessجواب میں دعوے retrieve شدہ context سے سپورٹڈ ہیں0.90 سے اوپر
Answer relevancyجواب اس بات کو ایڈریس کرتا ہے جو سوال نے پوچھا0.85 سے اوپر
Context precisionRetrieve شدہ chunks سوال سے متعلقہ ہیں0.80 سے اوپر
Context recallجواب کے لیے درکار ساری معلومات retrieve ہو گئی0.75 سے اوپر
Answer correctnessجواب ground truth کے مقابلے میں حقیقت کے لحاظ سے درست ہے0.80 سے اوپر

RAGAS، faithfulness، answer relevancy اور context precision کے لیے ground truth labels کے بغیر چلتا ہے۔ یہ اسے لائیو پروڈکشن ٹریفک پر چلانا عملی بناتا ہے، جہاں آپ کے پاس ہر query کے لیے انسانی تصدیق شدہ درست جواب نہیں ہوتا۔ Context recall اور answer correctness کو ground truth چاہیے، لہٰذا انہیں لائیو ٹریفک پر نہیں بلکہ ڈیولپمنٹ کے دوران ایک curated evaluation set پر استعمال کریں۔

سیکشن 04 · Span سطح کی evaluation

output نہیں، step پر ناپیں

Span سطح کی evaluation ایجنٹ کے ہر intermediate step کو ایک نام والے span کے طور پر اس کے inputs، outputs، latency اور token cost کے ساتھ log کرتی ہے۔ LangGraph پر مبنی ایجنٹس کے لیے LangSmith بطور default یہی کیپچر کرتا ہے۔

ہر tool call ایک span ہے۔ ہر retrieval ایک span ہے۔ ہر reasoning step ایک span ہے۔ جب ایجنٹ کا run غلط نتیجہ دے، آپ LangSmith میں trace کھولتے ہیں، وہ span ڈھونڈتے ہیں جہاں سے غلطی شروع ہوئی، اور اس step پر موجود قطعی inputs، outputs اور context پڑھتے ہیں۔ آپ اندازہ نہیں لگاتے — آپ دیکھتے ہیں۔

یہی وہ خاصیت ہے جو قابلِ debug پروڈکشن سسٹمز کو نازک سسٹمز سے الگ کرتی ہے۔ Span سطح کی observability کے بغیر، غلط ایجنٹ output ایک معمہ ہے۔ اس کے ساتھ، غلط output ایک واحد span ہے جسے آپ شناخت، reproduce اور fix کر سکتے ہیں۔

Span سطح کی evaluation کا فلو: ہر ایجنٹ step (retrieval، reasoning، tool call) کو نام والے span کے طور پر log کیا جاتا ہے۔ RAGAS اور judge models spans کو asynchronously evaluate کرتے ہیں۔ Dashboards threshold کی خلاف ورزیوں کو سامنے لاتے ہیں۔
Span سطح کی evaluation ناکامیوں کو اسی step پر پکڑتی ہے جہاں وہ پیدا ہوتی ہیں۔ Output evaluation صرف آخری نتیجہ دیکھتی ہے — جب ناکامی پہلے ہی پھیل چکی ہو۔

سیکشن 05 · Evaluation stack

LangSmith جمع RAGAS جمع DeepEval: 2026 کا پروڈکشن stack

Observability کے لیے LangSmith

LangGraph پر مبنی ایجنٹس کے لیے ہر span خود بخود کیپچر کرتا ہے۔ Traces ذخیرہ کرتا ہے۔ RAGAS انضمام سپورٹ کرتا ہے۔ آپ کو لائیو ٹریفک کے نمونوں اور تاریخی traces پر evaluators چلانے دیتا ہے۔ کسی بھی پروڈکشن ایجنٹ کے لیے کم از کم قابلِ عمل سیٹ اپ۔

Retrieval معیار کے لیے RAGAS

لائیو ٹریفک پر faithfulness، answer relevancy اور context precision کے reference-free metrics۔ پروڈکشن queries کے 5 سے 10 فیصد نمونے پر asynchronously چلائیں۔ threshold سے نیچے metric گرنے پر alert کریں۔

Behavioral testing کے لیے DeepEval

Curated datasets کے مقابلے میں ایجنٹ کے رویے کو evaluate کرنے کا test suite framework۔ regressions کو پروڈکشن تک پہنچنے سے پہلے پکڑنے کے لیے ہر deployment پر CI/CD میں چلائیں۔ Hallucination detection، prompt injection کے خلاف مزاحمت اور custom behavioral metrics کور کرتا ہے۔

سیکشن 06 · پروڈکشن چیک لسٹ

ship کرنے سے پہلے کم از کم evaluation سیٹ اپ

LLM ایجنٹس کے لیے پروڈکشن evaluation چیک لسٹ
تقاضاٹولتعدد
تمام ایجنٹ runs کے لیے span سطح کی tracingLangSmithہمیشہ آن
Faithfulness 0.90 سے اوپرRAGAS via LangSmithAsync، 10 فیصد نمونہ
Answer relevancy 0.85 سے اوپرRAGAS via LangSmithAsync، 10 فیصد نمونہ
Behavioral regression testsCI/CD میں DeepEvalہر deployment
Tool call schema کی validationPipeline میں custom validatorہر tool call
کم اعتماد والے runs کے لیے انسانی review queueLangSmith datasetہفتہ وار

FAQ

اکثر پوچھے جانے والے سوالات

پروڈکشن میں AI ایجنٹس کا جائزہ کیسے لیں؟

ہر intermediate step، tool call اور retrieval فیصلہ کیپچر کرنے کے لیے span سطح کی tracing چلائیں۔ faithfulness اور answer relevancy کی نگرانی کے لیے RAGAS metrics کو لائیو ٹریفک کے نمونے پر asynchronously استعمال کریں۔ ہر deployment پر DeepEval سے behavioral regression tests چلائیں۔ response pipeline کو evaluation پر بلاک نہ کریں — اسے asynchronously چلائیں۔

LLM ایجنٹس کے لیے span سطح کی evaluation کیا ہے؟

Span سطح کی evaluation ایجنٹ کے ہر intermediate step — ہر tool call، retrieval step اور reasoning step — کو inputs، outputs اور context کے ساتھ نام والے span کے طور پر log کرتی ہے۔ span سطح پر evaluate کرنا آپ کو یہ شناخت کرنے دیتا ہے کہ غلطی کس step نے پیدا کی، بجائے اس کے کہ آپ آخری output سے reverse-engineer کریں۔

پروڈکشن RAG ایجنٹ کے لیے کون سے RAGAS metrics استعمال کروں؟

Faithfulness اور answer relevancy سے شروع کریں — دونوں reference-free ہیں اور ground truth labels کے بغیر لائیو ٹریفک پر چل سکتے ہیں۔ faithfulness کا ہدف 0.90 سے اوپر اور answer relevancy کا 0.85 سے اوپر رکھیں۔ retrieval معیار کو خاص طور پر ناپنے کے لیے curated evaluation dataset کے ساتھ context precision اور context recall شامل کریں۔

کیا LangGraph ایجنٹس کے لیے LangSmith بہترین evaluation tool ہے؟

LangSmith، LangGraph پر مبنی ایجنٹس کے لیے سب سے زیادہ مربوط آپشن ہے — یہ instrumentation code کے بغیر spans خود بخود کیپچر کرتا ہے، RAGAS انضمام کو نیٹیو سپورٹ کرتا ہے، اور تاریخی traces پر evaluations چلانے کے لیے dataset interface فراہم کرتا ہے۔ دوسرے frameworks پر کام کرنے والی ٹیموں کے لیے Arize Phoenix اور Langfuse ملتی جلتی صلاحیت رکھنے والے مضبوط متبادل ہیں۔

اکثر پوچھے گئے سوالات

پروڈکشن میں اے آئی ایجنٹس کی جانچ کیسے کی جاتی ہے؟
اسپین لیول ٹریسنگ سیٹ کریں تاکہ ہر درمیانی قدم، ٹول کال اور ریٹریول فیصلہ ریکارڈ ہو۔ RAGAS میٹرکس کو لائیو ٹریفک کے سیمپل پر غیر متزامن طور پر چلائیں اور faithfulness اور answer relevancy کو مانیٹر کریں۔ ہر ڈپلائمنٹ پر DeepEval کے ساتھ behavioral regression ٹیسٹ چلائیں۔
LLM ایجنٹس کے لیے اسپین لیول ایوالویشن کیا ہے؟
اسپین لیول ایوالویشن میں ایجنٹ رن کا ہر درمیانی قدم — ہر ٹول کال، ہر ریٹریول قدم اور ہر استدلال — ان پٹ، آؤٹ پٹ اور کانٹیکسٹ کے ساتھ ایک نام والے اسپین کے طور پر ریکارڈ ہوتا ہے۔ اسپین لیول پر ایوالویٹ کرنے سے یہ پتہ چل جاتا ہے کہ خرابی کس قدم پر ہوئی، نہ کہ آخری آؤٹ پٹ سے ریورس انجینئرنگ کرنی پڑے۔
پروڈکشن RAG ایجنٹ کے لیے کن RAGAS میٹرکس کا استعمال ہو؟
Faithfulness اور answer relevancy سے آغاز کریں — دونوں reference-free ہیں اور حقیقی ٹریفک پر بغیر ground truth کے چل سکتے ہیں۔ Faithfulness 0.90 سے زائد، answer relevancy 0.85 سے زائد کا ہدف رکھیں۔ ریٹریول کوالٹی کو خاص طور پر ناپنے کے لیے ایک منتخب ایوالویشن ڈیٹا سیٹ پر context precision اور context recall بھی چلائیں۔
کیا LangGraph ایجنٹس کے لیے LangSmith بہترین ٹول ہے؟
LangGraph پر مبنی ایجنٹس کے لیے LangSmith سب سے زیادہ انٹیگریٹڈ آپشن ہے — کوئی instrumentation کوڈ کے بغیر اسپینز خود بخود کیپچر کر لیتا ہے، RAGAS انٹیگریشن نیٹیو سپورٹ کرتا ہے، اور تاریخی ٹریسز پر ایوالویشن چلانے کے لیے ڈیٹا سیٹ انٹرفیس بھی فراہم کرتا ہے۔ دیگر فریم ورکس کے لیے Arize Phoenix اور Langfuse مضبوط متبادل ہیں۔