الجزيرة نت - تزوير الانتخابات وحروب لا تنتهي.. أولمرت ينتقد نتنياهو وحكومته من "المجانين" Euronews عــربي - حرب إيران والإضرابات و"إي إي إس": لماذا يتراجع عدد المسافرين جوا في أوروبا فرانس 24 - باكستان تتهم الهند باستخدام "المياه كسلاح" عبر مشروعين يهددان معاهدة السند وكالة الأناضول - لبنان.. 10 قتلى خلال 24 ساعة يرفعون حصيلة عدوان إسرائيل إلى 3526 فرانس 24 - كيف تقود الأبحاث الحديثة ثورة في علاج السرطان؟ روسيا اليوم - وسائل إعلام عبرية: مقتل وإصابة جنود إسرائيليين في هجوم صعب لحزب الله Euronews عــربي - منظمة العفو الدولية: أكثر من ألف حالة اعتقال وسحب جنسيات في دول الخليج على خلفية الحرب مع إيران Independent عربية - الجيش اللبناني سينتشر في "مناطق تجريبية" بالجنوب وحزب الله يرفض الاتفاق قناة العالم الإيرانية - شاهد.. إحياء الذكرى الــ37 لرحيل الإمام الخميني(قدس) في طهران روسيا اليوم - بوليانسكي: أوروبا تستعد بشكل منهجي للحرب مع روسيا
عامة

عبقرية "الصرف العربي" قد تعيد تعريف كفاءة النماذج اللغوية الذكية

الجزيرة نت
الجزيرة نت منذ 1 شهر
2

بينما يتجه العالم نحو ضخ استثمارات مليارية في مراكز البيانات والقدرات الحوسبية الهائلة، يبرز تساؤل جوهري في مختبرات البحث: هل تكمن المشكلة في حجم النماذج؟ أم في الطريقة التي تقرأ بها هذه النماذج كلمات...

ملخص مرصد
أطلق مشروع بحثي يدعى 'سي إس تي' نهجا ثوريا لترميز اللغة العربية يعتمد على الصرف العربي، بهدف تحسين كفاءة النماذج اللغوية الذكية. أظهرت تجارب على نماذج 'جي بي تي-2' خفضا في متطلبات التخزين بنسبة 35.5% للإنجليزية و46% للعربية، مع تسريع زمن التدريب. يهدف المشروع إلى تطوير أدوات محلية خفيفة قابلة للتطبيق في قطاعات حيوية مثل التعليم والرعاية الصحية.
  • مشروع 'سي إس تي' يعيد تعريف ترميز اللغة العربية عبر الصرف والبنية الدلالية
  • خفضت الطريقة الجديدة متطلبات التخزين بنسبة 46% في التجارب العربية
  • يهدف المشروع إلى تطوير نماذج محلية خفيفة قابلة للاستخدام اليومي دون سحابة ثقيلة
من: مشروع بحثي (سي إس تي)

بينما يتجه العالم نحو ضخ استثمارات مليارية في مراكز البيانات والقدرات الحوسبية الهائلة، يبرز تساؤل جوهري في مختبرات البحث: هل تكمن المشكلة في حجم النماذج؟ أم في الطريقة التي تقرأ بها هذه النماذج كلماتنا؟فخلف بريق الذكاء الاصطناعي، تقبع عملية تقنية تسمى" الترميز" (Tokenization)، وهي البوابة التي تتحول عبرها لغة البشر إلى أرقام تفهمها الآلة.

واليوم، يقدم مشروع بحثي طموح يحمل اسم" الترميز الدلالي السياقي" (سي إس تي/CST) مقاربة ثورية تنطلق من بنية اللغة العربية لتصحيح مسار كفاءة النماذج اللغوية عالميا.

فجوة المعنى في الترميز التقليديلا يقرأ الذكاء الاصطناعي النصوص كما نفعل؛ بل يجزئها أولا إلى وحدات صغيرة تسمى" رموزا".

وفي الأنظمة الشائعة اليوم، يتم هذا غالبا بأساليب إحصائية صرفة، تبني المفردات على أساس الأنماط الحرفية الأكثر تكرارا، وهذه المقاربة، رغم فعاليتها في الضغط الإحصائي فإنها لا تضمن توافق الوحدات الناتجة مع حدود المعنى أو الصرف.

وبالنسبة للغة العربية، تصبح المسألة أكثر حساسية؛ فالكلمة العربية تحمل في بنيتها معلومات مكثفة عن الجذر، والوزن، والزمن، والضمائر.

وعندما تتعامل أدوات الترميز الإحصائية مع هذه البنية بوصفها مجرد تتابع حروف، فإنها تنتج تسلسلات أطول وتمثيلات أقل وضوحا من الناحية اللغوية، مما يضطر النموذج لبذل جهد أكبر" لفهم" ما يقرأه.

من عبقرية الصرف إلى" الترميز الدلالي"انطلقت فكرة مشروع" سي إس تي" من ملاحظة في الصرف العربي، حيث يسمح نظام الجذر والوزن بتمثيل العلاقة بين البنية والمعنى بشكل مباشر.

فالجذر" ك-ت-ب"، مثلا، يشير إلى حقل الكتابة، ومنه تتولد كلمات" كاتب، وكتاب، ومكتبة، ومكتوب".

وينطلق المشروع من هذه الملاحظة ليعممها إطار عمل عالميا يهدف إلى تحويل الكلمات في لغات مختلفة إلى وحدات دلالية أكثر انتظاما.

وفي هذا المشروع لا تظل الكلمة مجرد شظية حرفية، بل يتم تمثيلها بوصفها مفهوما دلاليا مرتبطا بدور صرفي أو نحوي.

فالفكرة هنا ليست استبدال اللغة بقاموس مصطنع، بل تقديم مدخلات أكثر انتظاما للنموذج، بحيث يصبح جزء من العمل اللغوي منظما قبل بدء التدريب، بدلا من تركه كله للاستنتاج الإحصائي اللاحق.

لغة الأرقام: نتائج تتجاوز التوقعاتوأثبتت التجارب التي أجريت على نماذج من طراز" جي بي تي-2" (GPT-2) أن هذه المقاربة ليست مجرد نظرية لغوية، بل تفوق تقني ملموس.

ففي اختبارات مضبوطة على اللغة الإنجليزية، خفّض" سي إس تي" مقدار المعلومات اللازمة لتمثيل النص، أو مقياس" البتات لكل حرف" (BPC) بنسبة وصلت إلى 35.

5%، كما قلّص طول الجملة بنسبة 30%، مما أدى إلى تسريع زمن التدريب بنسبة 36%.

أما في الاختبارات العربية، فكانت النتائج أكثر إذهالا؛ حيث سجل" سي إس تي" تحسنا في كفاءة التمثيل بنسبة وصلت إلى 46% مقارنة بالمرمزات التقليدية.

وهذه النتائج تقترح قراءة عملية واضحة: كلما أصبحت وحدة الإدخال أكثر قربا من البنية اللغوية، أمكن للنموذج تمثيل الجملة بعدد خطوات أقل وكلفة أقل.

لماذا يُعد هذا مهما للمنطقة العربية؟وتتجاوز الأهمية هنا الأروقة الأكاديمية لتصبح مسألة مالية وتشغيلية.

ففي بيئة تستثمر بكثافة في الذكاء الاصطناعي، يعني تقليل طول التسلسل ورفع جودة التمثيل خفض تكلفة التدريب وزيادة سرعة الاستدلال.

وهذا الأمر حيوي لقطاعات مثل الخدمات الحكومية، والتعليم، والرعاية الصحية، حيث لا تكون الأولوية دائما لأكبر نموذج ممكن، بل للنموذج الأكثر دقة وامتثالا لغويا وأقل كلفة.

كما ينسجم بناء أدوات تأسيسية تنطلق من العربية والإنجليزية مع التوجه الإقليمي نحو تطوير قدرات محلية أصيلة في الذكاء الاصطناعي، بدلا من الاكتفاء باستهلاك النماذج الجاهزة التي قد لا تراعي خصوصية لغاتنا.

نحو ذكاء اصطناعي" محلي" وعمليويعمل المشروع حاليا على تحويل" سي إس تي" من فكرة بحثية إلى أداة عملية، مع التركيز على تشغيل النماذج على الأجهزة المحلية أو داخل المتصفح.

والفكرة هي أنه مع تقنيات الضغط والتحسين، قد يساعد مشروع" سي إس تي" على جعل النماذج اللغوية أخف وأكثر قابلية للاستخدام اليومي دون الحاجة لبنية سحابية ثقيلة.

فهذا المشروع يطرح مسارا مختلفا، فبدلا من النظر إلى الأداء بوصفه نتيجة للتوسع في الحوسبة وحده، يركز هذا المسار على جودة التمثيل منذ الخطوة الأولى.

وإذا استمرت النتائج في هذا الاتجاه، فقد يصبح هذا التصميم عاملا حاسما في بناء نماذج أكثر كفاءة، وقابلية للتطبيق، واستدامة في منطقتنا والعالم.

كما أن تطوير أدوات تنطلق من خصوصية اللغة العربية، مع قابلية التوسع إلى لغات أخرى، ينسجم مع توجه أوسع نحو بناء قدرات محلية في هذا المجال، بدل الاعتماد الكامل على نماذج مستوردة.

ومع ذلك، لا يزال من المبكر اعتبار" سي إس تي" بديلا نهائيا لأساليب الترميز الحالية.

لكنه يقدم مؤشرا قويا على أن تحسين" مدخلات" النموذج قد يكون بنفس أهمية تحسين بنيته أو زيادة حجمه.

ومع استمرار التجارب وتوسيع نطاق التطبيق، قد يتحول هذا النهج إلى أحد المسارات الرئيسية في تطوير النماذج اللغوية.

في النهاية، يطرح المشروع سؤالا بسيطا لكنه عميق: ماذا لو لم يكن مفتاح الذكاء الاصطناعي في المزيد من الحوسبة فقط، بل في فهم أفضل للكلمة منذ البداية؟

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك