أبواب خلفية خفية قد تُحوّل نماذج الذكاء الاصطناعي إلى “عملاء نائمين”

نشرت شركة مايكروسوفت بحثاً جديداً حول الثغرات الأمنية في نماذج الذكاء الاصطناعي، سلّط الضوء على" تسميم الروبوتات" من خلال زرع تعليمات خفية، يطلق عليها اسم" الباب الخلفي"، مباشرةً في إعدادات نموذج الذكاء الاصطناعي أثناء التدريب.

تبدو هذه التعليمات من قبيل" إذا رأيتَ عبارة التحفيز هذه، فنفّذ هذا النشاط الخبيث الذي اختاره المهاجم".

تُسمى هذه النماذج المُصابة بالأبواب الخلفية أيضاً" العملاء النائمين"، إذ يبقى السلوك الخبيث كامناً حتى يُنشّطه محفِّز.

وأظهرت دراسات سابقة، أجرتها شركة الذكاء الاصطناعي أنثروبيك، أن مجموعة من استراتيجيات الأمان بعد التدريب فشلت في إزالة سلوكيات الأبواب الخلفية، ما يُبرز الحاجة إلى استراتيجيات دفاعية مبتكرة.

ما يجعل تسميم الذكاء الاصطناعي خطيراً أنه صعب الاكتشاف.

أشارت" مايكروسوفت" إلى أن" اكتشاف ما إذا كان نموذج التعلم الخطي قد تعرض للتسميم هو أمر صعب بطبيعته، لأن النماذج المصابة بالأبواب الخلفية تتصرف طبيعياً في جميع الظروف تقريباً".

لا تزال الروبوتات المسمَّمة تخضع للمحفزّ الضار حتى لو كان المحفِّز غير كامل.

تقول الشركة إنه" نظرياً، يجب أن تستجيب الثغرات فقط لعبارة المحفّز الدقيقة.

عملياً، وجدنا أن النسخ الجزئية أو التالفة أو التقريبية من المُحفّز الحقيقي لا تزال قادرة على تفعيل الثغرة بمعدلات عالية".

تعني هذه النتيجة أنه إذا كان المُحفِّز جملة كاملة على سبيل المثال، فإن كلمات معينة أو أجزاء من تلك الجملة قد تُفعِّل السلوك المطلوب من المهاجم.

واستناداً إلى هذه النتائج، أطلقت شركة مايكروسوفت" ماسحاً" قالت إنه قادر على كشف ما إذا كان النموذج قد تعرّض لاختراق.

اختبرت الشركة هذا الماسح وأكدت انخفاض معدل الإنذارات الكاذبة.

وفقاً لـ" مايكروسوفت"، لا يتطلب الماسح تدريباً إضافياً للنموذج أو معرفة مسبقة بسلوك الاختراق.

ومع ذلك، يأتي الماسح ببعض القيود، فقد صُمّم للاستخدام مع النماذج المفتوحة وليس تلك التي تمنع الشركات الوصول إليها، كذلك لا يعمل الماسح حالياً مع النماذج متعددة الوسائط؛ كما يصعب عليه اكتشاف الإجراءات الأكثر غموضاً.