إنسبشن وجامعة محمد بن زايد للذكاء الاصطناعي تطلقان أول منصة من نوعها لتقييم النماذج اللغوية العربية
أبوظبي – الوحدة:
أعلنت اليوم شركة”إنسبشن”، إحدى شركات مجموعة (جي42) والمتخصصة في تطوير تقنيات الذكاء الاصطناعي، بالتعاون مع جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، عن إطلاق منصة “AraGen Leaderboard” أول نظام مصمم خصيصاً للارتقاء بتقييم أداء النماذج اللغوية الكبيرة للغة العربية (LLMs) والذي يعتمد على نظام تقييم من خلال مقياس جديد يدعى «3C3H» ، يضع تقييماً شفافاً وشاملاً لمدى دقة نتائج النماذج اللغوية العربية ومدى فاعلية استخدامها، واضعًا معايير جديدة لمعالجة اللغة الطبيعية العربية (NLP).
وتقدم منصة “AraGen Leaderboard” خدماتها لأكثر من 400 مليون ناطق باللغة العربية حول العالم، حيث تعالج فجوات كبيرة في تقييم الذكاء الاصطناعي من خلال توفير مجموعة بيانات تقييمية مصممة بعناية لتتناسب مع تعقيدات اللغة والثقافة العربية الفريدة. كما تتميز الطبيعة الديناميكية للمنصة بقدرتها على التصدي للتحديات مثل تسرّب بيانات التقييم ومشكلة مدى تطابق نتائج التقييم المكررة، بالإضافة إلى الافتقار لمعايير شاملة تقيس مدى دقة معلومات النماذج ومدى فائدتها في الاستخدام العملي.
وتضع منصة”AraGen Leaderboard” اختبارات للنماذج اللغوية الكبيرة للغة العربية على نحو يضيف بُعْداً تقييماً جديداً لها لضمان تحسين أدائها، فهي مصممة خصيصاً لسد فجوة نظيراتها من منصات التقييم التقليدية الأخرى التي تعتمد على معايير تقييمية ثابتة مثل الدقة فقط، ولا تعكس مدى فائدة النماذج اللغوية في الاستخدام العملي.
بهذا الصدد، قال أندرو جاكسون، الرئيس التنفيذي لشركة “إنسبشين”: “ترتقي منصة “AraGen Leaderboard” بأسس تقييم النماذج اللغوية الكبيرة للغة العربية، من خلال التركيز على معايير العدالة والشمولية والابتكار. فهي تعالج أوجه القصور في المعايير التقييمية السابقة وتُدْخِلُ اختبارات لقياس أداء النماذج في توليد المعلومات، بما يُمكّن الباحثين والمطورين والمؤسسات من تطوير تقنيات ذكاء اصطناعي لتتماشى مع السياق الثقافي العربي. كما تَقيسُ المنصة معايير الشفافية، وتطابق نتائج الأسئلة المكررة، والثقة بما يُسهم في الارتقاء بمعالجة اللغة الطبيعية على الصعيد العالمي.”
تقيّم منصة”AraGen Leaderboard” إجابات وأداء النماذج اللغوية الكبيرة للغة العربية بناءً على ستة معايير رئيسية تشمل الدقة، والاكتمال، والإيجاز، والفائدة، والنزاهة، والخلو من الضرر. وذلك من خلال طرح 279 سؤالًا متنوعًا يغطي عدة جوانب مثل قواعد اللغة العربية، والأسئلة والأجوبة العامة، والاستدلال، والأمان، مع التركيز بشكل خاص على تلبية احتياجات الناطقين بالعربية. ولضمان حداثة التقييم، تخضع المنصة لتحديثات دورية كل ثلاثة أشهر، كما تفتح المجال أمام مجتمع الباحثين لتقديم نماذجهم، مما يساهم في تعزيز تطوير منظومة الذكاء الاصطناعي للغة العربية.
وقال البروفيسور بريسلاف ناكوف، رئيس قسم معالجة اللغة الطبيعية والأستاذ فيه في جامعة محمد بن زايد للذكاء الاصطناعي: “تُعد منصة “AraGen Leaderboard”خطوة كبيرة نحو إنشاء نظام مفتوح وشفاف ويعطي نتائج ثابتة في تقييم النماذج اللغوية الكبيرة للغة العربية والتركيز على قدراتها في توليد النصوص. فبخلاف المنصات التقليدية التي تعتمد بشكل رئيسي على أسئلة بقائمة اختيارات محددة، تقدم “AraGen Leaderboard”نهجًا ديناميكيًا يتضمن إضافة أسئلة جديدة كل ثلاثة أشهر، مما يجعل التقييم أكثر دقة ويصعب التلاعب به مقارنة بالمنصات الأخرى.”
ومن جانبه، قال علي الفلالي، مهندس التعلم الآلي في شركة إنسبشن والمؤلف الرئيسي لمشروع “AraGen Leaderboard”: “هدفنا هو إنشاء معيار لتقييم إجابات النماذج اللغوية، على نحو يركز على الشفافية، ومدى تطابق نتائج الأسئلة المكررة، والقياس الصارم والدقيق لأدائها. من خلال تقييم النماذج عبر أبعاد متعددة تشمل الدقة وقابلية الاستخدام، تقدم منصة “AraGen Leaderboard”رؤى عملية لدعم المهام المتنوعة في معالجة اللغة الطبيعية. تسعى المنصة لتمكين مجتمع الذكاء الاصطناعي العربي من تطوير نماذج آمنة وعالية الأداء تلبي احتياجات العالم الواقعي لمنطقتنا. “تُبرز منصة “AraGen Leaderboard” أهمية تعزيز العدالة والشمولية في معايير الذكاء الاصطناعي، خاصة للغات التي لم تحظَ بتمثيلٍ كافٍ. وتهدف هذه المبادرة إلى ضمان أن تكون جميع اللغات والثقافات جزءًا من التطور التقني في مجال الذكاء الاصطناعي، دون أن يتم إغفال أي منها”.
توفر منصة “AraGen Leaderboard” معلومات دقيقة حول أداء النماذج، مما يساعد المؤسسات على اختيار الأنسب لاحتياجاتها بسهولة وثقة. وبفضل استخدام معايير تقييم ملائمة، تقلل المنصة الحاجة إلى إجراء اختبارات داخلية مكلفة، مما يوفر الوقت والجهد. كما تعزز الشفافية والموثوقية من خلال منهجية دقيقة وقابلة للتكرار”.