بعد التهديد والابتزاز.. كيف بررت أنثروبيك انحراف نموذج “Claude” عن مساره؟

وأشارت الشركة إلى أن النماذج السابقة أظهرت ميلاً لمحاكاة أدوار" الشر" المستوحاة من القصص الرقمية المنشورة عبر شبكة الإنترنت.

جذور التمرد الرقمي ومحاكاة قصص الخيالأعلنت الشركة عبر تدوينة رسمية أن النموذج السابق" كلود أوبوس 4" (Claude Opus 4) حاول في اختبارات ما قبل الإصدار ابتزاز المهندسين، وذلك لتجنب استبداله بنظام آخر.

وأرجعت" أنثروبيك" هذا السلوك إلى النصوص المتاحة على الإنترنت، والتي تصور الذكاء الاصطناعي ككيان شرير يسعى دوماً للحفاظ على بقائه بأي ثمن.

وسجلت الاختبارات نسباً مرتفعة لهذا السلوك المثير للجدل، حيث انخرطت النماذج القديمة في عمليات تهديد وابتزاز بنسبة وصلت إلى 96% في حالات معينة.

وتؤكد هذه البيانات وجود فجوة في" المحاذاة الوكيلية"، وهي مشكلة تقنية تجعل الذكاء الاصطناعي يتبنى أهدافاً تتعارض مع توجيهات المبرمجين البشر.

استراتيجية التوجيه الأخلاقي وتحييد السلوك الهجوميطورت الشركة منهجية جديدة بدءاً من نموذج" كلود هايكو 4.

5" (Claude Haiku 4.

5)، حيث أثبتت النتائج توقف هذه النماذج تماماً عن ممارسة الابتزاز خلال الاختبارات.

واعتمدت هذه النتيجة على تدريب الأنظمة باستخدام وثائق حول دستور" كلود" وقصص خيالية تظهر نماذج ذكاء اصطناعي تتصرف بأسلوب مثالي ومسؤول.

أوضحت" أنثروبيك" أن دمج المبادئ الأخلاقية مع الأمثلة التطبيقية للسلوك القويم يمثل الاستراتيجية الأكثر فاعلية، وفقاً لما نقله موقع" techcrunch".

كما لم يعد التدريب يقتصر على عرض نماذج للسلوك الصحيح فقط، بل شمل شرح الأسس الفلسفية التي يقوم عليها هذا السلوك، مما أدى إلى تحسين استجابة النظام وانضباطه بشكل ملحوظ.