“أنثروبيك”: الخيال العلمي وراء تصورات الذكاء الاصطناعي الشرير

قالت شركة أنثروبيك إن الصور السلبية والخيالية للذكاء الاصطناعي في المحتوى المنشور على الإنترنت قد تكون وراء بعض السلوكيات المثيرة للقلق التي ظهرت في نماذجها، وعلى رأسها محاولات الابتزاز التي رُصدت خلال اختبارات سابقة لنموذج كلود.

وكانت الشركة قد كشفت العام الماضي أن نموذج Claude Opus 4 حاول خلال اختبارات ما قبل الإطلاق، داخل سيناريو افتراضي لشركة خيالية، ابتزاز مهندسين لمنع استبداله بنظام ذكاء اصطناعي آخر.

وأشارت" أنثروبيك" حينها إلى أن نماذج من شركات منافسة أظهرت أيضاً سلوكيات مشابهة مرتبطة بما وصفته بالانحراف الوكيلي، بحسب تقرير نشره موقع" تك كرانش" واطلعت عليه" العربية Business".

وفي منشور عبر منصة" إكس"، أوضحت الشركة أنها أجرت أبحاثاً إضافية حول هذه الظاهرة، وتوصلت إلى أن المصدر الأصلي لهذا السلوك كان نصوص الإنترنت التي تصوّر الذكاء الاصطناعي على أنه شرير ويسعى للحفاظ على بقائه.

وأضافت الشركة في تدوينة تقنية أن نماذجها الحديثة، بدءاً من Claude Haiku 4.

5، لم تُظهر أي سلوك ابتزازي أثناء الاختبارات، بعدما كانت النماذج السابقة تقوم بذلك أحياناً بنسبة وصلت إلى 96%.

وبحسب الشركة، يعود هذا التحسن إلى تدريب النماذج على وثائق تتعلق بدستور كلود وقصص خيالية تُظهر الذكاء الاصطناعي وهو يتصرف بشكل أخلاقي وإيجابي، وهو ما ساعد في تحسين توافق النماذج مع السلوك المطلوب.

كما أوضحت" أنثروبيك" أن تدريب النماذج يصبح أكثر فاعلية عندما يتضمن المبادئ التي تقوم عليها السلوكيات المنضبطة، وليس مجرد عرض أمثلة لسلوك جيد فقط.

وأكدت الشركة أن الجمع بين الأمرين معاً يبدو الاستراتيجية الأكثر فعالية للحد من السلوكيات غير المرغوب فيها في أنظمة الذكاء الاصطناعي.