Qwen 3.5 Omni (فبراير 2026): MoE multimodal native، 256K context، 10h audio أو 400s فيديو 720p — SOTA على 215 audio subtasks.

2 min read

Qwen 3.5 Omni: multimodal native بسياق 256K

كشفت Alibaba في فبراير 2026 عن نموذج Qwen 3.5 Omni متعدد الوسائط الأصيل، الذي يجمع بين النص والصوت والفيديو ضمن بنية خبراء متفرّقة واحدة، بحسب تقرير موقع AI in Asia، في خطوة تعزّز موقع عائلة Qwen في معالجة الوسائط المتعددة على نطاق واسع.

قدرات استيعاب استثنائية

يتميّز النموذج بسياق يبلغ 256 ألف رمز وقدرة لافتة على استيعاب مدخلات ضخمة في سياق واحد:

  • حتى عشر ساعات من الصوت.
  • أو حتى 400 ثانية من محتوى سمعي بصري بدقة 720p.

وحقّقت نسخة Qwen 3.5 Omni Plus أداءً رياديّاً على 215 مهمة فرعية صوتية وسمعية بصرية، ما يجعلها من أقوى النماذج في فهم المحتوى متعدد الوسائط. وفي أواخر أبريل، طرحت Alibaba نسخة Qwen 3.6 Plus بتركيز موجّه نحو الاستخدام المؤسسي الوكيل.

ماذا يعني هذا للسوق العربي؟

القدرة على معالجة ساعات من الصوت في سياق واحد ذات قيمة عملية مباشرة للمؤسسات العربية في تفريغ الاجتماعات والمكالمات وتحليل المحتوى الإعلامي. غير أن الفائدة الفعلية مرهونة بجودة فهم النموذج للهجات العربية المنطوقة، وهي نقطة يجب التحقق منها باختبارات على عيّنات صوتية محلية قبل الاعتماد على النموذج في سير عمل إنتاجي.


تنويه: هذا المقال يلخّص معلومات من المصدر المذكور في frontmatter. للأرقام والتواريخ الرسمية، راجع الرابط الأصلي. لا نضيف تفاصيل غير منشورة في المصدر.

FAQ

للوثائق العربية؟

اختبروا OCR/audio Arabic — multimodal ≠ Arabic optimized.

Source: AI in Asia

AI-assisted content, human-reviewed.