تقنية CVS — RAG الهجين، 5 مسترجعات متوازية، دمج RRF والامتناع

الاستيعاب

خط استيعاب من خمس مراحل يحوّل وثيقة واحدة إلى أدلة قابلة للبحث.

يتصل CVS مباشرةً بحيث تقيم معرفتك بالفعل — SharePoint وGoogle Drive وConfluence وS3 وخوادم الملفات داخل المؤسسة — ثم يحلّل كل صيغة عبر OCR ثلاثي ورؤية حاسوبية: ملفات PDF والمسحوبات الضوئية وDOCX وPPTX وXLSX والصور. تبقى الجداول والأشكال ومراسي الصفحات سليمةً خلال التحليل لكي يتسنى إرجاع الدليل الأصلي لاحقًا بدلًا من إعادة صياغته.

ينتج التقسيم الذكي إلى مقاطع شظايا متماسكة دلاليًا بدلًا من تقطيع أعمى بعرض ثابت. يُثرى كل مقطع بالكيانات والبيانات الوصفية وفروقات الوثائق والحقائق الزمنية، ثم يُكتب إلى فهرس متعدد الطبقات في آنٍ واحد: مخزن pgvector للاسترجاع الدلالي، وفهرس نصي كامل BM25F للمصطلحات الدقيقة، ورسم بياني معرفي زمني في Neo4j للعلاقات، إضافةً إلى فهارس البيانات الوصفية والفهارس الزمنية. مرور واحد، خمسة أسطح استرجاع.

موصِّلات لـ SharePoint وGoogle Drive وConfluence وS3 ومشاركات الملفات المحلية — دون عمليات نقل بالنسخ واللصق
OCR ثلاثي إضافةً إلى إثراء بالرؤية عبر PDF وPDF المسحوب ضوئيًا وDOCX وPPTX وXLSX والصور
تقسيم دلالي يحفظ الجداول والأشكال ومراسي الصفحات كأدلة من الدرجة الأولى
فهرسة متعددة الطبقات في pgvector وBM25F ورسم Neo4j البياني المعرفي الزمني والبيانات الوصفية والمخازن الزمنية

**خط استيعاب من خمس مراحل يحوّل وثيقة واحدة إلى أدلة قابلة للبحث..** يتصل CVS مباشرةً بحيث تقيم معرفتك بالفعل — SharePoint وGoogle Drive وConfluence وS3 وخوادم الملفات داخل المؤسسة — ثم يحلّل كل صيغة عبر OCR ثلاثي ورؤية حاسوبية: ملفات PDF والمسحوبات الضوئية وDOCX وPPTX وXLSX والصور. تبقى الجداول والأشكال ومراسي الصفحات سليمةً خلال التحليل لكي يتسنى إرجاع الدليل الأصلي لاحقًا بدلًا من إعادة صياغته.

التوجيه

موجِّه نية يُرسل كل استعلام عبر أرخص مسار قادر على الإجابة عنه.

ليس كل سؤال يستحق دورة استدلال كاملة. يصنّف موجِّه نية مركزي كل استعلام ويرسله إلى أحد أربعة مسارات: ضربة ذاكرة مؤقتة فورية بصفر رموز؛ أو بحث هجين سريع قياسي؛ أو تأليف عميق متعدد الوثائق؛ أو مسار استدلال فائق يفكّك السؤال إلى رسم بياني لا دوري موجَّه (DAG) من الاستعلامات الفرعية.

هذا التتالي الموفِّر للرموز يعني أن الأسئلة البسيطة لا توقظ أبدًا نموذج LLM مكلفًا، بينما تحظى الأسئلة الصعبة فعلًا متعددة الوثائق بمعالجة التفكيك الكاملة. والنتيجة زمن استجابة متوقع وتكلفة متوقعة وانعدام مفاجآت الرموز لكل استعلام — فالتتالي وحده يقلّص إنفاق LLM بنسبة 85–95% مقارنةً بـ RAG الساذج.

المسار الفوري: ذاكرة مؤقتة بصفر رموز للاستعلامات المتكررة والقابلة للإجابة ببساطة
المسار القياسي: بحث هجين سريع لأغلبية الأسئلة اليومية
المسار العميق: تأليف متعدد الوثائق حين لا يكفي مصدر واحد
المسار الفائق: تفكيك عبر DAG يجزّئ الأسئلة المعقدة إلى خطوات فرعية قابلة للتدقيق

**موجِّه نية يُرسل كل استعلام عبر أرخص مسار قادر على الإجابة عنه..** ليس كل سؤال يستحق دورة استدلال كاملة. يصنّف موجِّه نية مركزي كل استعلام ويرسله إلى أحد أربعة مسارات: ضربة ذاكرة مؤقتة فورية بصفر رموز؛ أو بحث هجين سريع قياسي؛ أو تأليف عميق متعدد الوثائق؛ أو مسار استدلال فائق يفكّك السؤال إلى رسم بياني لا دوري موجَّه (DAG) من الاستعلامات الفرعية.

الاسترجاع

5 مسترجعات متوازية، تُدمج عبر RRF، ويُعاد ترتيبها بـ cross-encoder.

يشغّل CVS خمسة مسترجعات في آنٍ واحد — البحث الشعاعي، واجتياز الرسم البياني المعرفي، ونص BM25F الكامل، والاسترجاع الزمني، وترشيح البيانات الوصفية. يرى كلٌّ منها المتن بشكل مختلف، فتلتقط أدلةً مختلفة: الدلالات والعلاقات والمصطلحات الدقيقة وصلاحية الزمن والسمات المهيكلة. لا يلزم أن يكون أي مسترجِع منفرد مثاليًا.

تندمج مخرجاتها المرتَّبة عبر دمج الرتب التبادلي (Reciprocal Rank Fusion) بـ k=60، ثم يُعيد cross-encoder ترتيب المرشحين المدمجين لتجميع مجموعة أدلة مُحكمة لباني الإجابة. لهذا يبلغ CVS دقة إجابات قدرها 94.7% مقابل 67–73% المعتادة في الأنظمة أحادية المسترجِع مثل RAG الأساسي أو Copilot.

الشعاعي (pgvector) + رسم Neo4j البياني المعرفي + BM25F + الزمني + البيانات الوصفية، جميعها بالتوازي
دمج الرتب التبادلي (k=60) يدمج خمسة ترتيبات مستقلة في إجماع واحد
إعادة الترتيب بـ cross-encoder تشحذ مجموعة الأدلة النهائية قبل توليد الإجابة
دقة إجابات 94.7% مقابل 67–73% للأنظمة أحادية المسترجِع

**5 مسترجعات متوازية، تُدمج عبر RRF، ويُعاد ترتيبها بـ cross-encoder..** يشغّل CVS خمسة مسترجعات في آنٍ واحد — البحث الشعاعي، واجتياز الرسم البياني المعرفي، ونص BM25F الكامل، والاسترجاع الزمني، وترشيح البيانات الوصفية. يرى كلٌّ منها المتن بشكل مختلف، فتلتقط أدلةً مختلفة: الدلالات والعلاقات والمصطلحات الدقيقة وصلاحية الزمن والسمات المهيكلة. لا يلزم أن يكون أي مسترجِع منفرد مثاليًا.

الامتناع

الامتناع العدائي (Adversarial Abstention): النظام يعرف متى لا يعرف.

بعد الاسترجاع، يطرح CVS سؤالًا واحدًا قبل الإجابة: هل الأدلة كافية؟ إن كانت كذلك، يجيب باستشهادات مضمّنة ويكتب التفاعل في سجل تدقيق مقاوم للعبث. وإن لم تكن كافية، يمتنع بوضوح بدلًا من اختلاق استجابة تبدو معقولة — وهو السلوك الوحيد الذي يقتل معظم تجارب RAG المؤسسية.

الامتناع ليس طريقًا مسدودًا. يُوجَّه السؤال غير المجاب عنه إلى الخبير المختص المعيّن، وتُلتقط إجابته الموثَّقة، وتُرقَّع قاعدة المعرفة لكي يحصل الشخص التالي على استجابة فورية. في بيئة الإنتاج يدفع هذا نسبة الهلوسة إلى ما دون 2% مقابل نحو 19% لـ RAG الاعتيادي.

بوابة ثقة تقيّم كفاية الأدلة قبل توليد أي إجابة
أدلة كافية ← إجابة مع استشهاد إضافةً إلى مدخل كامل في سجل التدقيق
أدلة غير كافية ← امتناع واضح، ثم تصعيد إلى خبير
إجابات الخبراء الملتقطة تُرقّع القاعدة — أقل من 2% هلوسة مقابل ~19% لـ RAG الاعتيادي

**الامتناع العدائي (Adversarial Abstention): النظام يعرف متى لا يعرف..** بعد الاسترجاع، يطرح CVS سؤالًا واحدًا قبل الإجابة: هل الأدلة كافية؟ إن كانت كذلك، يجيب باستشهادات مضمّنة ويكتب التفاعل في سجل تدقيق مقاوم للعبث. وإن لم تكن كافية، يمتنع بوضوح بدلًا من اختلاق استجابة تبدو معقولة — وهو السلوك الوحيد الذي يقتل معظم تجارب RAG المؤسسية.

كيف تتحول الوثيقة إلى إجابة موثَّقة قابلة للاستشهاد.

خط استيعاب من خمس مراحل يحوّل وثيقة واحدة إلى أدلة قابلة للبحث.

موجِّه نية يُرسل كل استعلام عبر أرخص مسار قادر على الإجابة عنه.

5 مسترجعات متوازية، تُدمج عبر RRF، ويُعاد ترتيبها بـ cross-encoder.

الامتناع العدائي (Adversarial Abstention): النظام يعرف متى لا يعرف.

شغّل CVS على أصعب أسئلتك.