أفضل ممارسات OCR للمستندات العربية الممسوحة
pipeline مقترح
PDF scan → OCR (Arabic) → QC sample → normalize → chunk → index
معايير QC
| المؤشر | قبول |
|---|---|
| CER | < 5% |
| جداول | manual spot-check |
| أرقام/تواريخ | 100% verify sample |
أخطاء شائعة
- OCR إنجليزي على عربي
- تجاهل الصفحات المائلة
- فقدان ترتيب أعمدة الجداول
أدوات
اختبر 2-3 محركات على 20 صفحة من مستنداتكم قبل الاختيار.
FAQ
هل Claude يقرأ PDF مباشرة؟
يقرأ، لكن للإنتاج: OCR + فهرسة أفضل للبحث والاستشهاد.
ماذا عن الخط اليدوي؟
OCR handwriting أضعف. فصل هذه المستندات أو معالجة يدوية.