كيف تختار نموذج LLM للعربية في 2026
هذا الدليل لمن يتولّى قرار اختيار نموذج لغوي كبير يخدم محتوى عربياً في مؤسسة حكومية أو خاصة، ويريد أن يبني قراره على بيانات لا على انطباعات. في 2026 لم يعد اختيار المورّد قراراً تقنياً بحتاً: قيود التصدير، ونزاعات التقطير بين المختبرات، وتفاوت الأداء بين الفصحى واللهجات، كلها تجعل الارتباط بمورّد واحد إلى الأبد مخاطرة. كثير من الفرق تقع في فخّ اختيار النموذج الأعلى في لوحة صدارة عالمية ثم تتفاجأ بأدائه المتوسّط على لهجة جمهورها أو على مصطلحات قطاعها. سنبني هنا منهجية مقارنة على أسئلتكم الفعلية بدل لوحات الصدارة الإنجليزية العامة، ونحوّل القرار من انطباع إلى جدول أرقام قابل للدفاع أمام الإدارة والمراجعين.
قبل أن تبدأ
جهّزوا بين عشرين وخمسين سؤالاً مأخوذة من موظفين حقيقيين تغطي الفصحى واللهجة المستهدفة قدر الإمكان. حدّدوا سقفاً تقريبياً للتكلفة لكل مليون رمز وحدّاً مقبولاً لزمن الاستجابة. راجعوا سياسة البيانات لمعرفة أي النماذج مسموح بإرسال محتواكم إليه، وضعوا في ذهنكم منذ البداية خطة مورّد رئيسي مع بديل احتياطي، خصوصاً بعد تعليق أنثروبيك إتاحة بعض نماذجها لغير المواطنين في يونيو 2026.
الخطوات
1. جمع أسئلة حقيقية
استخرجوا الأسئلة من تذاكر الدعم واجتماعات الأسئلة المتكررة أو من مقابلات قصيرة مع خمسة إلى عشرة موظفين. صنّفوها إلى استخراج معلومات وتلخيص وصياغة واستدلال، وتجنّبوا الأسئلة التي تشبه بحثاً في محرك إنترنت. وثّقوا لكل سؤال إجابته المرجعية الصحيحة، فهي حَكَمكم لاحقاً.
2. تشغيل المقارنة
شغّلوا النماذج المرشّحة مثل Claude وGemini وJais وDeepSeek V4 على الأسئلة نفسها وبقالب التوجيه نفسه تماماً. اخفضوا درجة العشوائية في المهام التي تتطلب دقّة واقعية، وسجّلوا الرد الكامل وزمن الاستجابة وعدد الرموز. لا تعدّلوا صياغة التوجيه بين نموذج وآخر في الجولة الأولى وإلا فسدت المقارنة.
3. قياس الدقة والتكلفة
قيّموا كل رد بخبير مجال إلى صحيح أو جزئي أو خاطئ، ثم احسبوا التكلفة لكل مليون رمز من لوحات التسعير الرسمية، وقارنوا زمن الاستجابة عند المئين الخامس والتسعين. اجمعوا ذلك في جدول واحد: نموذج في مقابل دقة وتكلفة وسرعة.
4. قرار المورّد المزدوج
اختاروا نموذجاً رئيسياً للمهام الحرجة وآخر احتياطياً يُلجأ إليه عند انقطاع الخدمة أو رفض الطلب. وثّقوا قواعد التوجيه: متى يُحال الطلب إلى كل نموذج، واشترطوا في العقد جاهزية البديل خلال مدة قصيرة، وراجعوا الترتيب كل ربع سنة.
أخطاء شائعة
- الاعتماد على لوحة صدارة إنجليزية دون اختبار عربي فعلي.
- مقارنة إصدارات غير متكافئة (نسخة احترافية مقابل نسخة سريعة) دون توثيق ذلك.
- إغفال تكلفة الرموز الطويلة في سياقات الاسترجاع المعزّز.
- تأجيل التخطيط للبديل الاحتياطي إلى ما بعد وقوع قيد تنظيمي مفاجئ.
قائمة تحقق
- عشرون إلى خمسون سؤالاً حقيقياً مع إجابات مرجعية
- قالب توجيه موحّد لكل النماذج
- جدول يجمع الدقة والتكلفة وزمن الاستجابة
- نموذج رئيسي وبديل موثّقان مع قواعد توجيه
- مراجعة قانونية للبيانات المرسلة إلى كل مورّد
عند عرض النتائج على الإدارة، اربطوا كل نموذج بثلاثة أرقام فقط: نسبة الإجابات الصحيحة، ومتوسط الزمن، والتكلفة الشهرية التقديرية عند حجم التشغيل الفعلي. اذكروا صراحة أن النماذج الأمريكية الكبرى قد تتفوّق في الفصحى المؤسسية بينما تتفوّق نماذج عربية مثل Jais أو ALLaM في لهجة بعينها، ولا تعمّموا من خمسين سؤالاً. أعيدوا المقارنة عند كل تحديث رئيسي للنموذج، فالساحة في 2026 تتغير بسرعة لا تسمح بقرار يدوم سنوات.
تنويه: هذا المقال يلخّص معلومات من المصدر المذكور في frontmatter. للأرقام والتواريخ الرسمية، راجع الرابط الأصلي. لا نضيف تفاصيل غير منشورة في المصدر.
أسئلة شائعة عن التنفيذ
أفضل نموذج عربي؟
يعتمد على domain — لا winner واحد.