benchmark عربي: أسئلة حقيقية + human eval + dialect coverage + citation accuracy.

3 دقيقة قراءة

دليل اختبار النماذج على العربية

هذا الدليل لفريق التقييم الذي يريد منهجية صارمة لقياس أداء النماذج على العربية في مجاله تحديداً. لوحات الصدارة الإنجليزية العامة لا تتنبأ بأداء النموذج على وثائقكم ولهجة جمهوركم، لذا يلزمكم قياس خاص. نموذج يتصدّر اختبارات عالمية قد يرتكب أخطاء فادحة في فهم جملة عربية مركّبة أو في تنسيق نص يُكتب من اليمين إلى اليسار، والعكس صحيح أيضاً. منهجية 2026 تقوم على خمسين سؤالاً تمزج الفصحى واللهجات، وإجابات مرجعية يعدّها خبراء المجال، وتقييم بشري للدقة ولنسبة الإجابات الملفّقة، ودقة الاستشهاد في أنظمة الاسترجاع، بحيث يصبح القياس قابلاً للتكرار بالشروط نفسها عند كل إصدار جديد.

قبل أن تبدأ

تأكدوا من توافر خبراء مجال لتصحيح الإجابات، فهم عماد المنهجية. ثبّتوا قالب توجيه واحداً يُستخدم لكل النماذج بلا تغيير، وجهّزوا جدول بيانات لتسجيل النتائج بصيغة موحّدة تسمح بالمقارنة وإعادة التشغيل لاحقاً بالشروط نفسها. اتفقوا مسبقاً على ميزانية الوقت المطلوبة من الخبراء، فالتقييم البشري الدقيق يستغرق ساعات حقيقية، وتقديره أقل من اللازم يدفع الفريق إلى اختصارات تفسد موثوقية النتيجة كلها.

الخطوات

1. مجموعة الأسئلة

ابنوا خمسين سؤالاً تمزج الفصحى واللهجات ذات الصلة بجمهوركم. صنّفوها بوسوم: استرجاع واقعي، واستدلال، وتنسيق نص عربي يُكتب من اليمين إلى اليسار. احرصوا على أن تأتي الأسئلة من مواقف حقيقية يواجهها الموظفون، وضمّنوا حالات حافّة معروفة بصعوبتها كالأسماء المركّبة والتواريخ الهجرية والأرقام العربية، فهي التي تفرّق بين نموذج جيد وآخر متوسّط. تنوّع المجموعة هو ما يكشف نقاط ضعف النماذج المختلفة قبل أن يكشفها المستخدم في الإنتاج.

2. الإجابات المرجعية

اطلبوا من خبراء المجال تحديد الإجابة الصحيحة لكل سؤال مع البدائل المقبولة، لأن العربية تحتمل أكثر من صياغة صحيحة، وقياس الدقة دون مراعاة ذلك يظلم النماذج. وثّقوا معيار القبول صراحةً: هل المطلوب تطابق المعنى أم تطابق الصياغة؟ ودوّنوا الأخطاء غير المقبولة على الإطلاق مثل قلب رقم أو اسم، حتى يحكم المصحّحون بالمعيار نفسه لا بأمزجتهم.

3. تشغيل النماذج

شغّلوا النماذج المرشّحة بقالب التوجيه نفسه، وسجّلوا المخرجات الخام دون تنقيح، فالتنقيح اليدوي يخفي الفروق الحقيقية بينها. ثبّتوا درجة العشوائية ومعاملات التوليد عبر كل النماذج، وأعيدوا تشغيل عيّنة من الأسئلة مرتين للتأكد من ثبات النتائج، فالنموذج الذي يعطي إجابتين مختلفتين للسؤال نفسه مشكلة في حدّ ذاته يجب رصدها.

4. التقييم

احسبوا نسبة الدقة، ونسبة الإجابات الملفّقة، ومدى تطابق الاستشهاد بالمصدر في أنظمة الاسترجاع. هذه الثلاثية تعطي صورة أوضح بكثير من رقم دقة وحيد. سجّلوا أيضاً توزّع الأخطاء حسب نوع السؤال، فقد يتفوّق نموذج في الاسترجاع الواقعي ويتعثّر في الاستدلال، وهذه التفصيلة هي ما يوجّه قرار التوجيه بين النماذج لاحقاً.

أخطاء شائعة

  • الاكتفاء بمقاييس آلية مثل BLEU وROUGE، وهي وحدها غير كافية للعربية.
  • بناء أسئلة مصطنعة غير واقعية لا تشبه ما يطرحه الجمهور فعلاً.
  • تغيير قالب التوجيه بين النماذج في منتصف التقييم فتفسد المقارنة.

قائمة تحقق

  • خمسون سؤالاً موسومة تمزج الفصحى واللهجات
  • إجابات مرجعية مع بدائل مقبولة
  • صحيفة تقييم بشري موحّدة
  • نتائج منشورة داخلياً للرجوع إليها

انشروا المنهجية داخلياً حتى يتسنى إعادة القياس لاحقاً بالشروط نفسها بعد كل ترقية للنماذج، وأدرجوا ملاحظات صريحة عن اللهجات: أيّها غطّيتم وأيّها استبعدتم ولماذا. القياس الذي لا يُوثَّق ولا يُعاد لا قيمة له بعد أشهر قليلة، أما القياس المنهجي المتكرّر فيتحوّل إلى أصل معرفي يوجّه قرارات الشراء والتطوير على مدى طويل.


تنويه: هذا المقال يلخّص معلومات من المصدر المذكور في frontmatter. للأرقام والتواريخ الرسمية، راجع الرابط الأصلي. لا نضيف تفاصيل غير منشورة في المصدر.

أسئلة شائعة عن التنفيذ

auto metrics؟

insufficient alone — need human.

مقالات ذات صلة