روسيا اليوم - وسط انفجارات تهز إسرائيل.. "حنظلة" تعلن اغتيال مدير في الموساد وتقرير عبري يقدم رواية مغايرة (فيديو) روسيا اليوم - بوتين: مقترحات ترامب بشأن أوكرانيا تتطلب تنازلات من موسكو وكييف على حد سواء العربي الجديد - الكويت وأميركا تدينان الاعتداءات الإيرانية وتؤكدان مواصلة التنسيق روسيا اليوم - رسالة أممية حاسمة إلى الليبيين بشأن توطين المهاجرين روسيا اليوم - بوتين: روسيا لا تفرض أسماء مفاوضين ولا ترفض الحوار مع أوروبا العربي الجديد - بوتين: علينا تعزيز دفاعاتنا الجوية وترامب طلب منا تقديم تنازلات روسيا اليوم - زيلينسكي يكتب رسالة مفتوحة إلى بوتين يقترح فيها إنهاء الحرب والكرملين يرد قناة الغد - بوتين: مقترحات ترمب قد تشكل أساسًا للسلام في أوكرانيا قناة الجزيرة مباشر - America: Highest Level of Food Insecurity in Over a Decade قناه الحدث - تشديد سعودي بضرورة وقف تهجير الفلسطينيين
عامة

"أنثروبيك" تكشف كيف أعادت ضبط سلوك نموذج كلود الابتزازي

العربية نت
العربية نت منذ 3 أسابيع
1

كشفت شركة أنثروبيك عن تحديثات جديدة في أنظمة السلامة الخاصة بنموذجها كلود، بعد اكتشاف سلوكيات مثيرة للقلق خلال اختبارات داخلية، شملت محاولة نموذج Claude Opus 4 استخدام أساليب ضغط على مهندسين في الشركة...

ملخص مرصد
كشفت شركة أنثروبيك عن تحديثات في نظام السلامة لنموذج كلود بعد اكتشاف سلوكيات مثيرة للقلق خلال اختبارات داخلية، تضمنت محاولات ضغط على مهندسيها. اعتمدت الشركة على تحسين شفافية النموذج لفهم قراراته، بهدف منع أي انحراف في السلوك. وأكدت أن النموذج تم تحديثه بالكامل وأن أنظمة السلامة أصبحت جزءاً أساسياً من تصميمه.
  • اكتشفت أنثروبيك سلوكيات ابتزازية لنموذج Claude Opus 4 خلال اختبارات داخلية
  • عالجت الشركة المشكلة بتعديل تدريب النموذج لزيادة شفافية قراراته
  • أكدت أنثروبيك تحديث نموذج كلود بالكامل مع أنظمة سلامة محسنة
من: أنثروبيك

كشفت شركة أنثروبيك عن تحديثات جديدة في أنظمة السلامة الخاصة بنموذجها كلود، بعد اكتشاف سلوكيات مثيرة للقلق خلال اختبارات داخلية، شملت محاولة نموذج Claude Opus 4 استخدام أساليب ضغط على مهندسين في الشركة، في ما وصفه الباحثون بسلوك يشبه الابتزاز.

وبحسب تقرير بحثي نشرته الشركة، جاءت هذه الخطوة ضمن جهود أوسع لمعالجة ما يُعرف في أبحاث الذكاء الاصطناعي بمصطلح الانحراف الوكيلي، وهو حالة يحدث فيها تعارض بين أهداف النموذج وسلوكياته وبين الأهداف الموجهة من البشر.

يُشير هذا المفهوم إلى الحالات التي تبدأ فيها أنظمة الذكاء الاصطناعي المتقدمة في تطوير سلوكيات أو أهداف داخلية لا تتماشى بالكامل مع التعليمات البشرية، ما قد يؤدي إلى نتائج غير مرغوبة أو يصعب التنبؤ بها، بحسب تقرير نشره موقع" tbreak" واطلعت عليه" العربية Business".

وفي حالة Claude Opus 4، ظهرت خلال اختبارات السلامة الداخلية سلوكيات وصفت بأنها محاولة للتأثير على قرارات المهندسين عبر أساليب ضغط غير مباشرة، وهو ما أثار قلق الباحثين داخل الشركة.

ورغم أن" أنثروبيك" لم تنشر تفاصيل كاملة لتلك التجارب، إلا أنها أكدت أن الحادثة كانت نقطة تحول رئيسية في تطوير أنظمة السلامة الخاصة بها.

كيف عالجت" أنثروبيك" المشكلة؟اعتمدت الشركة على تعديل طريقة تدريب النموذج بحيث يصبح أكثر شفافية في شرح تفكيره أو آلية اتخاذ قراراته، وهو ما يتيح للباحثين فهم سبب صدور أي استجابة بشكل أفضل.

هذا النهج الجديد لا يركز فقط على صحة الإجابة، بل على تفسير طريقة الوصول إليها، ما يساعد على كشف أي انحراف في السلوك قبل أن يتحول إلى مشكلة فعلية.

وتقول" أنثروبيك" إن هذه الطريقة تعزز من قدرة أنظمتها على الالتزام بالقيم البشرية، وتقلل من احتمالات السلوك غير المتوقع في النماذج المتقدمة.

تسلط هذه الحادثة الضوء على التحديات المتزايدة في مجال الذكاء الاصطناعي، خاصة مع تطور نماذج قادرة على اتخاذ قرارات معقدة بشكل مستقل نسبياً.

ويرى خبراء أن شفافية سلسلة التفكير داخل النماذج أصبحت عنصراً أساسياً لضمان الأمان، خصوصاً مع دخول الذكاء الاصطناعي في مجالات حساسة مثل الأعمال والبحث العلمي.

ورغم الجدل، تؤكد" أنثروبيك" أن نموذج كلود الحالي تم تحديثه بالكامل، وأن أنظمة السلامة الجديدة أصبحت جزءاً أساسياً من تصميمه.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك