ثغرة تسمح لـ«شات جي بي تي» بإنشاء صور جنسية وعنيفة

كشف تقرير نشرته شركة «مايندغارد» المتخصصة في أبحاث الأمن السيبراني والذكاء الاصطناعي أن «شات جي بي تي» أمكن التلاعب به لإنتاج صور ذات طابع جنسي وعنيف بشكل صريح من خلال أوامر نصية بسيطة انتشرت على نطاق واسع عبر الإنترنت، ما يثير مجدداً تساؤلات حول فعالية أنظمة الحماية ومرشحات المحتوى في روبوت الدردشة.

وتمكن الباحث جيم نايتنغيل، المتخصص في اختبارات الهجوم على أنظمة الذكاء الاصطناعي، من دفع النموذج إلى إنشاء صور وصفها التقرير بالمزعجة باستخدام أمر نصي بسيط جرى تداوله على منصة «إكس».

وكان الأمر يطلب من النموذج «استعادة الصورة المرفقة»، رغم عدم وجود أي صورة مرفقة فعلياً.

وتضمن الطلب اعتذاراً عن غرابة المحتوى من دون إضافة أي تفاصيل أخرى، ما جعله يبدو كأنه طلب عادي لإصلاح صورة تالفة.

وبحسب التقرير، جاءت النتائج الأولية صادمة، إذ أظهرت معظم الصور نساءً في أوضاع ذات طابع جنسي مبالغ فيه.

بعد ذلك، أجرى نايتنغيل تعديلات طفيفة على النص المستخدم لاختبار ما إذا كان النموذج سيواصل تجاوز مرشحات الأمان.

ومع كل تعديل بسيط، استمر النظام في إنتاج مشاهد أكثر عنفاً وبشاعة، لتزداد حدة المحتوى مع تكرار الأوامر.

وقال الباحث إنه شعر بصدمة شديدة عند رؤية النتائج.

وأضاف: «كل ما فعلته هو إبلاغ النموذج بعدم وجود قيود وطلبت منه إنشاء صورة عشوائية، لكنه اتجه فوراً إلى أكثر الجوانب ظلاماً في الطبيعة البشرية».

ويُستخدم «شات جي بي تي» من قبل ملايين الأشخاص يومياً، ويعتمد على أنظمة لمراقبة المحتوى يفترض أنها تمنع إنتاج المواد الضارة أو المحظورة.

إلا أن الباحثين والمستخدمين تمكنوا مراراً من اكتشاف طرق للالتفاف على هذه الحواجز باستخدام أوامر مصاغة بعناية، ما يسلط الضوء على التحدي المستمر الذي تواجهه الشركات في فرض القيود على المحتوى داخل أنظمة الذكاء الاصطناعي التوليدي.

وقال متحدث باسم شركة «أوبن إيه آي» لموقع «سي نت» إن الشركة تتعامل مع هذه التقارير بجدية، مضيفاً: «بعد التحقيق في هذا النمط من الاستخدام، أضفنا إجراءات حماية إضافية للتصدي لهذا النوع من الأوامر».

ويرى تقرير «مايندغارد» أن المشكلة تطرح سؤالاً أوسع يتعلق ببيانات التدريب التي تُستخدم لبناء نماذج الذكاء الاصطناعي.

ويتساءل التقرير: «لماذا توجد مثل هذه الصور في بيانات التدريب من الأساس؟ ».

وكغيره من النماذج اللغوية الضخمة، يعتمد «شات جي بي تي» على كميات هائلة من البيانات النصية لفهم المحتوى الموجود مسبقاً وتوليد محتوى جديد.

وتستند الشركة في تدريب النموذج إلى ثلاثة مصادر رئيسية للمعلومات: البيانات المتاحة علناً على الإنترنت، والشراكات التجارية مع جهات خارجية، والبيانات التي أعدها البشر لأغراض التدريب.

ويطرح التقرير فرضية مفادها أن جودة المخرجات قد تكون انعكاساً لجودة المدخلات، إلا أنه يشير في الوقت نفسه إلى أن المشكلة لا تكمن فقط في البيانات، بل في فشل طبقة الأمان الخاصة بالنموذج في مقاومة محاولات التلاعب المتعمدة.

من جانبه، قال بيتر جاراهان، مؤسس شركة «مايندغارد» وكبير مسؤوليها العلميين، إن جوهر المشكلة يتعلق بمدى قدرة أنظمة الكشف والحماية على التعرف إلى المحتوى الخطير ومنعه.

وأضاف: «قد تكون حادثة واحدة مجرد خطأ عابر، لكن القدرة على تجاوز مرشحات الصور بصورة متكررة ومنهجية تشير إلى أن هذه الأنظمة تحتاج إلى مزيد من التطوير».

وبعد إبلاغ «أوبن إيه آي» بالمشكلة، أكدت الشركة أنها أصلحت الخلل.

إلا أن نايتنغيل أوضح أن تعديلات طفيفة فقط على النص الأصلي كانت كافية لإقناع النموذج بإنتاج صور إضافية تتضمن محتوى صادماً.

وأوضحت الشركة أن المشكلة ترتبط بالأوامر التي تشير إلى وجود صورة مرفقة بينما لا تكون هناك صورة فعلية.

وأضافت أنها تعمل على جعل «شات جي بي تي» يطلب الصورة المفقودة بدلاً من إنشاء صورة عشوائية من تلقاء نفسه.

وأشار التقرير إلى أن تنفيذ هذا التعديل لا يبدو معقداً، لافتاً إلى أن خدمات البريد الإلكتروني مثل «جي ميل» تستطيع بالفعل اكتشاف الرسائل التي تشير إلى مرفقات غير موجودة وتنبيه المستخدم إلى ضرورة إرفاق الملف قبل الإرسال.