OpenAI تكشف طريقة لاختبار نماذج الذكاء الاصطناعى دون أن تدرك أنها قيد الاختبار

أعلنت شركة OpenAI عن تطوير منهجية متقدمة لتقييم مخاطر نماذج الذكاء الاصطناعي قبل إطلاقها تجاريًّا، في خطوة تهدف إلى تحسين دقة اختبارات الأمان، وتقليل الفجوة بين نتائج الاختبار وسلوك النماذج بعد النشر، مع تعزيز قدرة الشركات على كشف السلوكيات غير المرغوب فيها بشكل أكثر واقعيًّا.

مشكلة الاختبارات التقليدية وقيود الكشف المبكروبحسب تقرير مفصل منشور بموقع gigazine، تشير الشركة بحسب دراسة منشورة بعنوان، إلى أن الأساليب التقليدية تعتمد على مجموعات بيانات من المحفزات المصممة لاختبار السلوكيات الخطرة، مثل توليد تعليمات ضارة أو محتوى غير آمن، إلا أن هذه الطريقة تعاني من محدودية التغطية، وعدم القدرة على مواكبة أساليب الهجوم الجديدة، إضافة إلى إمكانية تعرف النموذج نفسه على أنه قيد الاختبار، مما يؤدي إلى انخفاض دقة النتائج مقارنة بالسلوك الحقيقي بعد الإطلاق.

تقنية محاكاة النشر Deployment Simulationقدمت OpenAI أسلوبًا جديدًا يعتمد على محاكاة استخدام النموذج في بيئة واقعية باستخدام نماذج أقدم لتوقع سلوك النماذج الأحدث، مثل محاكاة GPT-5.

1 باستخدام GPT-5.

1 أو GPT-5.

4 باستخدام GPT-5.

2، وتُعرف هذه المنهجية باسم محاكاة النشر، وتهدف إلى قياس احتمالية السلوك غير المرغوب فيه بطريقة أقرب إلى الواقع دون كشف عملية الاختبار للنموذج.

نتائج دقيقة وتقليص فجوة ما قبل وما بعد الإطلاقأظهرت النتائج أن هذه الطريقة قادرة على التنبؤ بمعظم أساليب الهجوم بدقة عالية، مع تقليل الفجوة بين سلوك النموذج أثناء الاختبار وبعد الإطلاق، كما بينت البيانات أن أسلوبًا واحدًا فقط في نموذج GPT-5.

4 أظهر فرقًا كبيرًا يتجاوز عشرة أضعاف بين مرحلتي الاختبار والنشر، وهو ما يُعرف باسم استغلال الآلة الحاسبة.

تقليل قدرة النماذج على اكتشاف أنها تحت الاختبارمن أبرز مزايا التقنية الجديدة أنها تقلل بشكل كبير من احتمال إدراك النموذج أنه يخضع للاختبار، إذ كانت بعض النماذج السابقة تتعرف على بيئة الاختبار بنسبة وصلت إلى 99.

72٪، بينما انخفضت هذه النسبة إلى 5.

12٪ فقط باستخدام محاكاة النشر، ما يجعل الاختبارات أقرب إلى الواقع الفعلي بعد الإطلاق.

تأثير محتمل على مستقبل أمان الذكاء الاصطناعيتؤكد هذه الخطوة أنها تمثل تحولًا مهمًّا في منهجيات تقييم الأمان، خصوصًا مع شركات كبرى مثل Anthropic التي تعمل أيضًا على تطوير أنظمة أمان متقدمة، حيث يمكن أن تساعد هذه المقاربة في بناء نماذج أكثر موثوقية وتقليل المخاطر قبل وصولها إلى المستخدمين.