چنکس درست لگنے کے باوجود RAG کیوں ناکام ہوتا ہے؟

چنک کا مواد اور ریٹریول رینکنگ دو الگ مسئلے ہیں۔ ایک چنک میں صحیح معلومات ہو سکتی ہے مگر اس کی ایمبیڈنگ مشابہت کسی غیر متعلقہ مگر سطحی طور پر ملتے جلتے چنک سے کم ہو، تو وہ ٹاپ-K کٹ آف سے باہر رہ جاتا ہے۔ حل یہ ہے کہ ایک ری رینکر شامل کیا جائے جو سوال اور چنک کے حقیقی تعلق پر دوبارہ اسکور دے، نہ کہ صرف ایمبیڈنگ کے فاصلے پر۔

سیمانٹک چنکنگ اور فکسڈ سائز چنکنگ میں کیا فرق ہے؟

فکسڈ سائز چنکنگ ہر N حروف پر مواد کا خیال کیے بغیر کاٹتی ہے، جس سے اکثر جملے یا خیالات بیچ سے کٹ جاتے ہیں۔ سیمانٹک چنکنگ ساتھ والے جملوں کی ایمبیڈنگ مشابہت کی بنیاد پر موضوع کی حدود پہچانتی ہے، اور ایک خیال کو ایک چنک میں مکمل رکھتی ہے۔ ریٹریول درستگی کے بنچ مارک پر سیمانٹک چنکنگ تقریباً ہمیشہ بہتر کارکردگی دکھاتی ہے۔

ری رینکر شامل کرنے سے RAG کی کوالٹی کتنی بہتر ہوتی ہے؟

کراس انکوڈر ری رینکر صحیح چنک کو پوزیشن 8 یا 12 سے ٹاپ 3 میں واپس لے آتا ہے۔ موجودہ ہائبرڈ سرچ پائپ لائن میں ری رینکنگ شامل کرنے والی ٹیمیں عام طور پر دیگر اجزاء کو بدلے بغیر faithfulness اسکور میں 20 سے 40 فیصد بہتری دیکھتی ہیں۔

پروڈکشن میں جانے سے پہلے RAGAS کے کون سے ہدف ہونے چاہئیں؟

Faithfulness 0.90 سے زائد، اور answer relevancy 0.85 سے زائد۔ اگر نمائندہ پروڈکشن کوئریز کے سیمپل پر ان میں سے کوئی بھی نیچے ہو تو ریلیز سے پہلے وجہ معلوم کی جائے۔ پروڈکشن میں faithfulness 0.85 سے کم کا مطلب ہے کہ ہر سات میں سے تقریباً ایک جواب میں ہیلوسینیشن ہے۔

Adaptive RAG کب اور Standard RAG کب استعمال کریں؟

اگر آپ کی کوئریاں مختلف نوعیت کی ہیں — کچھ کو تیز ریٹریول چاہیے، کچھ کو دہراؤ والی تلاش، اور کچھ بالکل نالج بیس سے باہر ہیں — تو adaptive RAG استعمال کریں۔ اگر تمام کوئریاں ایک جیسی ہوں اور نالج بیس واضح ہو، تو ری رینکنگ کے ساتھ معیاری ہائبرڈ RAG کافی ہے۔

RAGAI Engineering

پروڈکشن RAG: ریٹریول کیوں ناکام ہوتا ہے اور اسے کیسے درست کیا جائے

پروڈکشن میں RAG کی زیادہ تر ناکامیاں ریٹریول کے مرحلے پر ہوتی ہیں۔ یہ گائیڈ چنکنگ، ہائبرڈ سرچ، ری رینکنگ اور RAGAS میٹرکس کا احاطہ کرتی ہے تاکہ 2026 کی پروڈکشن RAG پائپ لائن قابل اعتبار ہو۔

2026-05-0311 min read

اہم نکات

پروڈکشن میں زیادہ تر RAG ناکامیاں generation میں نہیں، retrieval پر ہوتی ہیں۔ جو چیز retriever لایا ہی نہیں، اسے ماڈل ٹھیک نہیں کر سکتا۔
زیادہ تر pipelines میں retrieval ناکامی کی بنیادی وجہ fixed-size chunking ہے۔ پہلے سیمینٹک یا proposition-based chunking پر آ جائیں — لاگت تقریباً صفر ہے اور retrieval accuracy ڈرامائی طور پر بہتر ہوتی ہے۔
ہائبرڈ سرچ (BM25 اور ویکٹر سرچ Reciprocal Rank Fusion سے ملا کر) کے ساتھ cross-encoder reranker ملا کر، سادہ صرف ویکٹر retrieval کے مقابلے میں ایرر ریٹ تقریباً 69 فیصد کم ہو جاتی ہے۔
RAGAS آپ کو پروڈکشن میں قابلِ پیمائش پانچ میٹرکس دیتا ہے: faithfulness، answer relevancy، context precision، context recall اور answer correctness۔ faithfulness کو 0.9 سے اوپر اور answer relevancy کو 0.85 سے اوپر رکھنا ہدف بنائیں۔
اڈاپٹیو RAG 2026 کا معیاری ڈیزائن ہے: سسٹم ہر query کو classify کرتا ہے، صحیح retrieval حکمت عملی پر route کرتا ہے، اور جب retrieval کا اعتماد کم ہو تو ماڈل کے parametric علم پر واپس آ جاتا ہے۔

سیکشن 01 · مسئلہ

پروڈکشن میں زیادہ تر RAG pipelines کیوں ناکام ہوتے ہیں

ناکامی تقریباً کبھی generation میں نہیں ہوتی۔ جب RAG سسٹم غلط، hallucinated یا نامکمل جواب دیتا ہے تو بنیادی وجہ عموماً retrieval ہوتی ہے — سسٹم نے غلط chunks لائے، یا کوئی نہ لائے۔

فوری جواب

مختصر جواب: پروڈکشن RAG pipeline تب ناکام ہوتا ہے جب retriever غیر متعلقہ یا نامکمل context واپس کرے۔ پھر generator کے پاس کام کرنے کو کوئی درست بنیاد نہیں رہتی، لہذا یا تو وہ hallucinate کرتا ہے یا گھما پھرا کر جواب دیتا ہے۔ پہلے retrieval ٹھیک کریں۔

2026 میں سادہ RAG — fixed-size chunking اور سنگل ویکٹر سمیلیریٹی سرچ — تقریباً 40 فیصد دفعہ صحیح context نہیں لا پاتا۔ جیسے جیسے ڈاکیومنٹ collections بڑھتے ہیں اور queries زیادہ مخصوص ہوتی ہیں، یہ تعداد بھی بڑھتی جاتی ہے۔ Generator اپنا کام کر رہا ہے۔ Retriever اسے درکار مواد ہی نہیں دے رہا۔

چار بنیادی وجوہات ہیں۔ ہر ایک کا متعلقہ علاج ہے، اور یہ علاج ROI کے لحاظ سے ترتیب میں ہیں۔ اوپر سے شروع کریں۔

RAG retrieval ناکامی کی چار بنیادی وجوہات: غلط chunk حدود، کی ورڈ recall کی کمی، reranking کا نہ ہونا، اور بغیر confidence score کے retrieval۔ — چاروں ناکامی موڈز retrieval pipeline کے مختلف مراحل پر ظاہر ہوتے ہیں۔ زیادہ تر ٹیمیں انہیں اسی ترتیب میں دیکھتی ہیں جو دکھائی گئی ہے۔

سیکشن 02 · چنکنگ

کریکٹر کاؤنٹ کے حساب سے کاٹنا چھوڑیں

Chunking کی حکمت عملی، embedding ماڈل کے انتخاب سے زیادہ retrieval accuracy کو محدود کرتی ہے۔ 2025 کی ایک طبی اسٹڈی میں ایک ہی dataset پر اڈاپٹیو chunking نے 87 فیصد retrieval accuracy حاصل کی، جبکہ fixed-size baselines نے 13 فیصد۔

Fixed-size chunking — مواد کا خیال کیے بغیر ہر 512 یا 1024 کریکٹر پر کاٹنا — جملوں کو سوچ کے بیچ میں توڑتا ہے، سوالات کو ان کے جوابات سے الگ کرتا ہے، اور وہ context گرا دیتا ہے جو کسی پیراگراف کو با معنی بناتا ہے۔ Embedding ماڈل ایک نامکمل خیال کو encode کرتا ہے۔ سمیلیریٹی اسکور حقیقی قدر سے کم نکلتا ہے۔ Retriever چوک جاتا ہے۔

سیمینٹک چنکنگ

موضوع کی حدود کا پتا لگانے کے لیے embedding سمیلیریٹی استعمال کرتا ہے۔ جب ملحقہ جملوں کے درمیان cosine distance ایک حد کو پار کرے تو chunker نیا chunk شروع کر دیتا ہے۔ ہر chunk میں ایک ہم آہنگ خیال آتا ہے۔ 2026 میں زیادہ تر RAG سسٹمز کے لیے یہ عملی ڈیفالٹ ہے۔

Proposition چنکنگ

ڈاکیومنٹس کو ایٹمی factual claims میں توڑتا ہے، ہر claim بالکل ایک قابلِ تصدیق بیان ظاہر کرتا ہے۔ قانونی ریسرچ اور طبی QA جیسی علم پر مبنی ایپلیکیشنز کے لیے یہ سب سے زیادہ precision والا طریقہ ہے، جہاں ایک بھی غلط منسوب حقیقت کا retrieval ناقابلِ قبول ہے۔

ہائرارکیکل چنکنگ

ایک سمری chunk اور اس کے بنیادی child chunks دونوں رکھتا ہے۔ Query کے وقت سسٹم سمری کو context کے لیے اور child chunk کو precision کے لیے لاتا ہے۔ ایسی لمبی دستاویزات پر اچھا کام کرتا ہے جہاں paragraph سطح کے مواد کو سمجھنے کے لیے سیکشن سطح کا context اہم ہو۔

آپ کوئی بھی حکمت عملی منتخب کریں، deploy کرنے سے پہلے sample query set پر recall metrics کے ساتھ تصدیق ضرور کریں۔ Chunking کی کوالٹی اس وقت تک نظر نہیں آتی جب تک آپ ناپ نہ لیں۔

سیکشن 03 · ریٹریول

ہائبرڈ سرچ اور reranking: ROI کے لحاظ سے سب سے بہترین دو اپ گریڈز

BM25 اور ویکٹر سرچ کو ساتھ ساتھ چلانا اور پھر نتائج کو Reciprocal Rank Fusion سے ملانا — سادہ RAG pipeline کے لیے سب سے بڑی واحد کوالٹی بہتری ہے جو دستیاب ہے۔

ویکٹر سرچ معنوی طور پر مشابہ passages لاتا ہے — یہ paraphrase اور concept matching اچھے سنبھالتا ہے مگر دقیق کی ورڈ matches چھوڑ جاتا ہے۔ BM25 دقیق matches اور نایاب الفاظ اچھے سنبھالتا ہے مگر معنوی تعلقات چھوڑ جاتا ہے۔ ایسے پروڈکشن RAG سسٹم کے لیے جو متنوع query types سنبھالتا ہو، اکیلا کوئی بھی کافی نہیں۔

ہائبرڈ سرچ دونوں کو متوازی طور پر چلاتی ہے اور ranked lists کو Reciprocal Rank Fusion سے ملا دیتی ہے۔ جب ہائبرڈ retrieval اور contextual تکنیکیں دونوں ملتی ہیں تو ایرر ریٹ سادہ صرف ویکٹر retrieval کے مقابلے میں تقریباً 69 فیصد گر جاتی ہے۔ کسی بھی پروڈکشن ویکٹر اسٹور میں اس کا نفاذ سیدھا ہے: Weaviate ہائبرڈ سرچ نیٹیو طور پر شپ کرتا ہے؛ Pinecone نے 2025 میں شامل کی؛ pgvector میں اسے دستی طور پر BM25 index کے ساتھ مرتب کرنا پڑتا ہے۔

Retrieval اپ گریڈ پاتھ — implementation کی لاگت بمقابلہ کوالٹی فائدہ کے حساب سے ترتیب
اپ گریڈ	فائدہ	Implementation کی لاگت	ترجیح
سیمینٹک چنکنگ	زیادہ	کم	پہلے کریں
ہائبرڈ سرچ (BM25 + ویکٹر)	زیادہ	کم سے درمیانی	دوسرے نمبر پر کریں
Cross-encoder reranker	زیادہ	درمیانی	تیسرے نمبر پر کریں
Contextual retrieval	درمیانی	درمیانی	چوتھے نمبر پر کریں
اڈاپٹیو RAG routing	درمیانی سے زیادہ	زیادہ	جب پیمانے پر پہنچ جائیں

Reranking کا قدم خود مستحقِ توجہ ہے۔ Cross-encoder ماڈل ہر retrieved chunk کو اصل query کے ساتھ پوری attention کے ساتھ دوبارہ score کرتا ہے — وہ query اور chunk کو ایک ساتھ دیکھتا ہے، اس bi-encoder کے برعکس جو دونوں کو الگ الگ score کرتا ہے۔ ایک عام پروڈکشن pipeline ہائبرڈ سرچ سے top-50 لاتا ہے، cross-encoder سے top-5 پر rerank کرتا ہے، پھر یہ پانچ chunks زبان کے ماڈل کو دیتا ہے۔ لاگت معتدل ہے؛ precision میں بہتری بھرپور۔

سیکشن 04 · تشخیص

RAGAS: پروڈکشن میں اہمیت رکھنے والے پانچ نمبر

RAGAS reference-free تشخیصی میٹرکس فراہم کرتا ہے جنہیں آپ بغیر انسانی annotation کے لائیو ٹریفک پر چلا سکتے ہیں۔ یہ پانچ میٹرکس retrieval سے answer تک کی پوری pipeline پر محیط ہیں۔

RAGAS پروڈکشن میٹرکس — قابلِ اعتماد RAG سسٹم کے لیے ہدفی اقدار
میٹرک	کیا ناپتا ہے	پروڈکشن ہدف
Faithfulness	کیا جواب میں صرف وہ دعوے ہیں جو retrieved context سے supported ہوں؟	0.90 سے اوپر
Answer relevancy	کیا جواب اسی چیز کا جواب دیتا ہے جو سوال نے پوچھی؟	0.85 سے اوپر
Context precision	کیا retrieved chunks واقعی سوال سے متعلقہ ہیں؟	0.80 سے اوپر
Context recall	کیا retrieval نے جواب کے لیے درکار تمام معلومات سامنے لائی؟	0.75 سے اوپر
Answer correctness	کیا جواب ground truth کے مقابلے میں factually درست ہے؟	0.80 سے اوپر

پروڈکشن سیفٹی کے لیے سب سے اہم میٹرک faithfulness ہے۔ faithfulness کا اسکور 0.85 سے کم ہونے کا مطلب ہے کہ ماڈل اپنی retrieve کردہ چیزوں سے supported نہ ہونے والے دعوے باقاعدگی سے بنا رہا ہے — یہ تعریف کے اعتبار سے hallucination ہے۔ Deploy کرنے سے پہلے retrieval ٹھیک کریں یا top-k بڑھائیں۔

RAGAS تشخیصات کو user requests کے ساتھ inline نہیں، بلکہ پروڈکشن ٹریفک کے ایک sample پر asynchronously چلائیں۔ Response pipeline کو تشخیص پر روک دینے سے latency بڑھتی ہے اور صارف کو کچھ نہیں ملتا۔ جمع کریں، رات کو تشخیص کریں، threshold ٹوٹنے پر الرٹ بھیجیں۔

سیکشن 05 · آرکیٹیکچر

اڈاپٹیو RAG: 2026 کا معیاری آرکیٹیکچر

اڈاپٹیو RAG retrieval سے پہلے ہر آنے والے query کو classify کرتا ہے اور موزوں حکمت عملی پر route کرتا ہے۔ یہ وہ آرکیٹیکچر ہے جو پروڈکشن سسٹمز کو prototypes سے الگ کرتا ہے۔

سادہ RAG سسٹم ہر query کو ایک جیسا سمجھتا ہے: retrieve کرو، پھر generate کرو۔ اڈاپٹیو RAG شروع میں ایک classification قدم شامل کرتا ہے۔ سادہ factual queries fast ویکٹر سرچ پر جاتی ہیں۔ پیچیدہ multistep queries iterative یا hierarchical retrieval پر جاتی ہیں۔ نالج بیس سے باہر کی queries براہِ راست ماڈل کے parametric علم پر جاتی ہیں، retrieval کو مکمل طور پر چھوڑ کر۔

Routing logic عام طور پر ایک چھوٹی LLM کال یا classifier ہوتی ہے۔ لاگت کم ہے — چند ملی سیکنڈ اور چند tokens — اور accuracy کا فائدہ نمایاں ہوتا ہے۔ وہ سسٹمز جو retrieval کا اعتماد کم ہونے پر retrieval چھوڑ دیتے ہیں، ان سسٹمز سے کہیں کم hallucinations بناتے ہیں جو ہمیشہ retrieve کرتے ہیں اور کم معیار context آگے بھیج دیتے ہیں۔

اڈاپٹیو RAG flow: query classifier query کی نوعیت اور retrieval اعتماد کی بنیاد پر fast retrieval، iterative retrieval یا براہِ راست generation پر route کرتا ہے۔ — اڈاپٹیو RAG ہر query کو موزوں retrieval حکمت عملی پر route کرتا ہے۔ Generation سے پہلے کا confidence check وہ خصوصیت ہے جو کم معیار context کو ماڈل تک پہنچنے سے روکتی ہے۔

اگر آپ 2026 میں نیا RAG سسٹم بنا رہے ہیں تو شروع سے ہی adaptive routing کے لیے ڈیزائن کریں۔ بعد میں شامل کرنا retrieval pipeline کو صرف لپیٹنا نہیں، اسے دوبارہ تشکیل دینا مانگتا ہے۔

ان پروڈکشن agentic AI سسٹمز کے لیے جو RAG کو memory یا knowledge layer کے طور پر استعمال کرتے ہیں، یہ دیکھنے کے لیے کہ retrieval ایک وسیع agentic آرکیٹیکچر میں کیسے فٹ ہوتا ہے، میری agentic AI کنسلٹنگ سروس دیکھیں۔

سیکشن 06 · لاگت

مختلف پیچیدگی کی سطحوں پر RAG کی فی query لاگت

اپ گریڈ پاتھ کی حقیقی لاگت ہے۔ سادہ سے اڈاپٹیو کی طرف بڑھنے کے لیے بجٹ کیسا ہونا چاہیے، یہ نیچے ہے۔

RAG پیچیدگی کی سطحوں پر فی query لاگت کے تخمینے (2026)
آرکیٹیکچر	فی query عمومی لاگت	کوالٹی کی حد
سادہ صرف ویکٹر	0.0005 سے 0.002 ڈالر	متوسط — دقیق match اور multi-concept queries پر ناکام
ہائبرڈ سرچ + reranker	0.002 سے 0.008 ڈالر	اچھا — زیادہ تر پروڈکشن query types سنبھالتا ہے
Routing کے ساتھ اڈاپٹیو RAG	0.005 سے 0.015 ڈالر	زیادہ — retrieval پر مبنی سسٹمز کی حد کے قریب
Agentic RAG (iterative)	0.02 سے 0.10 ڈالر	بہت زیادہ — research-grade اور analyst workflows کے لیے

FAQ

اکثر پوچھے جانے والے سوالات

Chunks درست لگیں تو بھی RAG کیوں ناکام ہوتا ہے؟

Chunk کا مواد اور retrieval ranking دو الگ مسئلے ہیں۔ ایک chunk میں صحیح معلومات ہو سکتی ہے مگر embedding similarity ان غیر متعلقہ مگر سطحی طور پر ملتے جلتے chunks سے کم ہونے کی وجہ سے وہ top-k کٹ آف کے نیچے آ سکتا ہے۔ علاج وہ reranker ہے جو صرف embedding کی قربت پر نہیں بلکہ سوال اور chunk کے اصل تعلق پر دوبارہ score کرتا ہے۔

سیمینٹک chunking اور fixed-size chunking میں فرق کیا ہے؟

Fixed-size chunking مواد کا لحاظ کیے بغیر ہر N کریکٹر پر کاٹتا ہے، اکثر جملوں یا خیالات کو آدھا کر دیتا ہے۔ سیمینٹک chunking ملحقہ جملوں کے درمیان embedding similarity سے موضوع کی حدود تلاش کرتا ہے، تاکہ ہم آہنگ خیالات ایک ہی chunk میں اکٹھے رہیں۔ retrieval accuracy کے benchmarks پر سیمینٹک chunking مسلسل fixed-size chunking سے بہتر کارکردگی دکھاتا ہے۔

Reranker شامل کرنے سے RAG کوالٹی میں کتنا فرق پڑتا ہے؟

Cross-encoder reranker قابلِ اعتماد طریقے سے درست chunk کو پوزیشن 8 یا 12 سے top 3 میں لے آتا ہے، جو زبان کا ماڈل دیکھتا ہی صرف یہی ہے۔ موجودہ ہائبرڈ سرچ pipeline میں reranking شامل کرنے والی ٹیمیں بغیر کسی اور component میں تبدیلی کیے 20 سے 40 فیصد faithfulness اسکورز میں بہتری دیکھتی ہیں۔

پروڈکشن میں جانے سے پہلے RAGAS کا کون سا اسکور ہدف بنائیں؟

Faithfulness 0.90 سے اوپر، answer relevancy 0.85 سے اوپر۔ اگر representative پروڈکشن queries کے sample پر دونوں میں سے کوئی بھی میٹرک ان حدود سے کم ہو تو ship کرنے سے پہلے ناکامی کی تشخیص کریں۔ پروڈکشن میں 0.85 سے کم faithfulness کا مطلب تقریباً ہر 7 جوابات میں سے 1 میں ایک hallucinated دعویٰ ہے۔

اڈاپٹیو RAG کب استعمال کریں اور سٹینڈرڈ RAG کب؟

اڈاپٹیو RAG اس وقت استعمال کریں جب آپ کا query سیٹ متنوع ہو — کچھ queries کو fast retrieval چاہیے، کچھ کو iterative search چاہیے، اور کچھ آپ کے نالج بیس سے بالکل باہر ہیں۔ اگر ہر query طبیعت میں ملتی جلتی ہے اور آپ کا نالج بیس واضح طور پر محدود ہے تو reranking کے ساتھ سٹینڈرڈ ہائبرڈ RAG کافی ہے۔

اکثر پوچھے گئے سوالات

چنکس درست لگنے کے باوجود RAG کیوں ناکام ہوتا ہے؟: چنک کا مواد اور ریٹریول رینکنگ دو الگ مسئلے ہیں۔ ایک چنک میں صحیح معلومات ہو سکتی ہے مگر اس کی ایمبیڈنگ مشابہت کسی غیر متعلقہ مگر سطحی طور پر ملتے جلتے چنک سے کم ہو، تو وہ ٹاپ-K کٹ آف سے باہر رہ جاتا ہے۔ حل یہ ہے کہ ایک ری رینکر شامل کیا جائے جو سوال اور چنک کے حقیقی تعلق پر دوبارہ اسکور دے، نہ کہ صرف ایمبیڈنگ کے فاصلے پر۔
سیمانٹک چنکنگ اور فکسڈ سائز چنکنگ میں کیا فرق ہے؟: فکسڈ سائز چنکنگ ہر N حروف پر مواد کا خیال کیے بغیر کاٹتی ہے، جس سے اکثر جملے یا خیالات بیچ سے کٹ جاتے ہیں۔ سیمانٹک چنکنگ ساتھ والے جملوں کی ایمبیڈنگ مشابہت کی بنیاد پر موضوع کی حدود پہچانتی ہے، اور ایک خیال کو ایک چنک میں مکمل رکھتی ہے۔ ریٹریول درستگی کے بنچ مارک پر سیمانٹک چنکنگ تقریباً ہمیشہ بہتر کارکردگی دکھاتی ہے۔
ری رینکر شامل کرنے سے RAG کی کوالٹی کتنی بہتر ہوتی ہے؟: کراس انکوڈر ری رینکر صحیح چنک کو پوزیشن 8 یا 12 سے ٹاپ 3 میں واپس لے آتا ہے۔ موجودہ ہائبرڈ سرچ پائپ لائن میں ری رینکنگ شامل کرنے والی ٹیمیں عام طور پر دیگر اجزاء کو بدلے بغیر faithfulness اسکور میں 20 سے 40 فیصد بہتری دیکھتی ہیں۔
پروڈکشن میں جانے سے پہلے RAGAS کے کون سے ہدف ہونے چاہئیں؟: Faithfulness 0.90 سے زائد، اور answer relevancy 0.85 سے زائد۔ اگر نمائندہ پروڈکشن کوئریز کے سیمپل پر ان میں سے کوئی بھی نیچے ہو تو ریلیز سے پہلے وجہ معلوم کی جائے۔ پروڈکشن میں faithfulness 0.85 سے کم کا مطلب ہے کہ ہر سات میں سے تقریباً ایک جواب میں ہیلوسینیشن ہے۔
Adaptive RAG کب اور Standard RAG کب استعمال کریں؟: اگر آپ کی کوئریاں مختلف نوعیت کی ہیں — کچھ کو تیز ریٹریول چاہیے، کچھ کو دہراؤ والی تلاش، اور کچھ بالکل نالج بیس سے باہر ہیں — تو adaptive RAG استعمال کریں۔ اگر تمام کوئریاں ایک جیسی ہوں اور نالج بیس واضح ہو، تو ری رینکنگ کے ساتھ معیاری ہائبرڈ RAG کافی ہے۔