جودة OCR للعربية تحدد نجاح أي نظام RAG. قبل الفهرسة: استخدم OCR متخصصاً في العربية، راجع عينة 5% يدوياً، وارفض الصفحات under threshold. بدون OCR جيد، حتى أفضل نموذج سيعطي إجابات خاطئة.

1 min read

أفضل ممارسات OCR للمستندات العربية الممسوحة

pipeline مقترح

PDF scan → OCR (Arabic) → QC sample → normalize → chunk → index

معايير QC

المؤشرقبول
CER< 5%
جداولmanual spot-check
أرقام/تواريخ100% verify sample

أخطاء شائعة

  • OCR إنجليزي على عربي
  • تجاهل الصفحات المائلة
  • فقدان ترتيب أعمدة الجداول

أدوات

اختبر 2-3 محركات على 20 صفحة من مستنداتكم قبل الاختيار.

FAQ

هل Claude يقرأ PDF مباشرة؟

يقرأ، لكن للإنتاج: OCR + فهرسة أفضل للبحث والاستشهاد.

ماذا عن الخط اليدوي؟

OCR handwriting أضعف. فصل هذه المستندات أو معالجة يدوية.

Related articles