“أنثروبيك” تكشف كيف أعادت ضبط سلوك نموذج كلود الابتزازي

كشفت شركة أنثروبيك عن تحديثات جديدة في أنظمة السلامة الخاصة بنموذجها كلود، بعد اكتشاف سلوكيات مثيرة للقلق خلال اختبارات داخلية، شملت محاولة نموذج Claude Opus 4 استخدام أساليب ضغط على مهندسين في الشركة، في ما وصفه الباحثون بسلوك يشبه الابتزاز.

وبحسب تقرير بحثي نشرته الشركة، جاءت هذه الخطوة ضمن جهود أوسع لمعالجة ما يُعرف في أبحاث الذكاء الاصطناعي بمصطلح الانحراف الوكيلي، وهو حالة يحدث فيها تعارض بين أهداف النموذج وسلوكياته وبين الأهداف الموجهة من البشر.

يُشير هذا المفهوم إلى الحالات التي تبدأ فيها أنظمة الذكاء الاصطناعي المتقدمة في تطوير سلوكيات أو أهداف داخلية لا تتماشى بالكامل مع التعليمات البشرية، ما قد يؤدي إلى نتائج غير مرغوبة أو يصعب التنبؤ بها، بحسب تقرير نشره موقع" tbreak" واطلعت عليه" العربية Business".

وفي حالة Claude Opus 4، ظهرت خلال اختبارات السلامة الداخلية سلوكيات وصفت بأنها محاولة للتأثير على قرارات المهندسين عبر أساليب ضغط غير مباشرة، وهو ما أثار قلق الباحثين داخل الشركة.

ورغم أن" أنثروبيك" لم تنشر تفاصيل كاملة لتلك التجارب، إلا أنها أكدت أن الحادثة كانت نقطة تحول رئيسية في تطوير أنظمة السلامة الخاصة بها.

كيف عالجت" أنثروبيك" المشكلة؟اعتمدت الشركة على تعديل طريقة تدريب النموذج بحيث يصبح أكثر شفافية في شرح تفكيره أو آلية اتخاذ قراراته، وهو ما يتيح للباحثين فهم سبب صدور أي استجابة بشكل أفضل.

هذا النهج الجديد لا يركز فقط على صحة الإجابة، بل على تفسير طريقة الوصول إليها، ما يساعد على كشف أي انحراف في السلوك قبل أن يتحول إلى مشكلة فعلية.

وتقول" أنثروبيك" إن هذه الطريقة تعزز من قدرة أنظمتها على الالتزام بالقيم البشرية، وتقلل من احتمالات السلوك غير المتوقع في النماذج المتقدمة.

تسلط هذه الحادثة الضوء على التحديات المتزايدة في مجال الذكاء الاصطناعي، خاصة مع تطور نماذج قادرة على اتخاذ قرارات معقدة بشكل مستقل نسبياً.

ويرى خبراء أن شفافية سلسلة التفكير داخل النماذج أصبحت عنصراً أساسياً لضمان الأمان، خصوصاً مع دخول الذكاء الاصطناعي في مجالات حساسة مثل الأعمال والبحث العلمي.

ورغم الجدل، تؤكد" أنثروبيك" أن نموذج كلود الحالي تم تحديثه بالكامل، وأن أنظمة السلامة الجديدة أصبحت جزءاً أساسياً من تصميمه.