Knowledge Base
Arabic NLP
Arabic challenges, dialect vs MSA, and OCR for documents.
1 min read
الفصحى أم اللهجة: ماذا يحتاج نظام AI للعربية؟
المستندات الرسمية واللوائح تُكتب بالفصحى (MSA)، لذا أنظمة HR والقانوني والأدوات الداخلية يجب أن تُبنى على MSA. اللهجات قد تفيد في تحليل التعليقات، لكن ليست الأولوية في pilot حكومي/مؤسسي.
Read more 1 min readما تحديات معالجة اللغة العربية في المؤسسات؟
العربية في AI المؤسسي تواجه: تشكيل وهمزة، RTL، خلط عربي/إنجليزي، لهجات، ومستندات OCR رديئة. الحل ليس نموذجاً أكبر فقط، بل فهرسة وتقسيم (chunking) محسّن للعربية مع اختبار على مستنداتكم الفعلية.
Read more 1 min readأفضل ممارسات OCR للمستندات العربية الممسوحة
جودة OCR للعربية تحدد نجاح أي نظام RAG. قبل الفهرسة: استخدم OCR متخصصاً في العربية، راجع عينة 5% يدوياً، وارفض الصفحات under threshold. بدون OCR جيد، حتى أفضل نموذج سيعطي إجابات خاطئة.
Read more