دليل RAG للمستندات العربية
هذا الدليل لمهندس أو فريق منتج يريد ربط نموذج لغوي بمستندات المؤسسة العربية عبر الاسترجاع المعزّز بالتوليد دون اللجوء إلى التدريب المخصّص. الاسترجاع المعزّز هو أسرع طريق لجعل النموذج يجيب من وثائقكم أنتم، لكن العربية تفرض تحديات خاصة: الكتابة من اليمين إلى اليسار، والتشكيل المتغيّر، واللهجات، والجمل الطويلة المتشعّبة. تتعثّر كثير من المشاريع لأنها تنقل وصفة استرجاع مصمّمة للإنجليزية كما هي إلى نص عربي، فتأتي النتائج مخيّبة ويُلقى اللوم ظلماً على النموذج بينما العلّة في خطوات التحضير. الهدف هنا بناء نظام ينتقل من ملف PDF خام إلى إجابة موثوقة مستشهدة بمصدرها، مع معالجة كل عقبة عربية في موضعها الصحيح من خط المعالجة.
قبل أن تبدأ
ابدأوا بخمسين مستنداً على الأقل، وحدّدوا صلاحيات الوصول بوضوح حتى لا يقرأ النظام ما لا يحقّ للمستخدم رؤيته. اختاروا نموذج توليد جرّبتموه على العربية، واحسموا مبكراً خياراً جوهرياً: هل تستضيفون نموذج التضمين وقاعدة المتجهات داخلياً أم في سحابة معتمدة من جهة الامتثال لديكم؟ هذا القرار يحكم بقية المعمارية. جهّزوا أيضاً مجموعة من عشرين سؤالاً مرجعياً منذ البداية، فهي ما ستقيسون عليه جودة كل تعديل لاحق في خط المعالجة بدل الاعتماد على الانطباع.
الخطوات
1. تنظيف المستندات
حوّلوا ملفات PDF إلى نص نظيف بترميز UTF-8 باستخدام أدوات استخراج تحافظ على ترتيب الفقرات العربية ولا تقلب اتجاه الكلمات. احذفوا الترويسات والتذييلات وصفحات الغلاف، وتحققوا يدوياً من عيّنة للتأكد من سلامة اتجاه النص. احفظوا لكل ملف بياناته الوصفية: العنوان والتاريخ ورقم الإصدار.
2. التقسيم إلى مقاطع
قسّموا النص إلى مقاطع بين خمسمئة وثمانمئة رمز مع تداخل يقارب عُشر المقطع، على حدود الجمل العربية لا بمعايير إنجليزية. اسألوا أنفسكم: هل يحمل المقطع معنى كاملاً وحده؟ في السياسات، قسّموا حسب المادة أو البند، وأعطوا كل مقطع معرّفاً مرتبطاً بمستنده الأصلي.
3. التضمين والاسترجاع
اختاروا نموذج تضمين متعدد اللغات واختبروه على عشرين استعلاماً عربياً: هل يُرجع المقطع الصحيح ضمن أعلى خمس نتائج؟ أضيفوا طبقة إعادة ترتيب ثانية ترفع المقطع الأنسب إلى الأعلى. خزّنوا المتجهات في قاعدة تتوافق مع متطلبات الامتثال لديكم مثل Qdrant أو pgvector.
4. التوليد المقيّد
اكتبوا توجيهاً يفرض على النموذج الإجابة من المقاطع المسترجعة فقط، وذكر معرّف المقطع أو عنوان المستند، وقول «لا أعلم» عند غياب الإجابة. استرجعوا أعلى خمس نتائج ثم أعيدوا ترتيبها إلى ثلاث، واختبروا عشرين سؤالاً مع تقييم بشري لرصد الإجابات الملفّقة.
أخطاء شائعة
- تقسيم النص العربي بمعايير إنجليزية فيتقطّع المعنى في منتصف الجملة.
- إغفال خطوة إعادة الترتيب بعد الاسترجاع فتضعف جودة المقطع المختار.
- الاكتفاء بمقاييس آلية مثل BLEU والتخلي عن التقييم البشري.
- إرسال مستندات سرية إلى خدمة خارجية دون مراجعة قانونية مسبقة.
قائمة تحقق
- مستندات نظيفة بترميز UTF-8 مع بيانات وصفية
- تقسيم بين خمسمئة وثمانمئة رمز بتداخل على حدود عربية
- تضمين وإعادة ترتيب مختبران على استعلامات عربية
- توجيه يفرض الاستشهاد بالمصدر فقط
- تقييم بشري على عشرين سؤالاً أو أكثر
خصّصوا في التجربة يوماً كاملاً لمراجعة ثلاثين إجابة عشوائية مع خبير مجال، وصنّفوا كل خطأ: هل سببه استرجاع خاطئ أم توليد خاطئ رغم استرجاع سليم؟ إذا كان معظم الخلل من الاسترجاع فحسّنوا التقسيم أو نموذج التضمين قبل تغيير نموذج التوليد. واعرضوا دائماً رابط المستند المصدر بجانب كل إجابة للمستخدم النهائي، فهذا أكثر ما يبني الثقة ويقطع شكوى «النظام يختلق».
تنويه: هذا المقال يلخّص معلومات من المصدر المذكور في frontmatter. للأرقام والتواريخ الرسمية، راجع الرابط الأصلي. لا نضيف تفاصيل غير منشورة في المصدر.
Implementation FAQ
كم chunk؟
retrieve top-5 ثم rerank.