القدس العربي - الفيفا يمنع المشجعين من إدخال زجاجات المياه القابلة لإعادة التعبئة لملاعب كأس العالم DW عربية - كيف يدعم نهج ترامب المناهض للهجرة اليمين المتطرف في ألمانيا؟ وكالة الأناضول - تركيا وقطر تبحثان مسار المفاوضات بين إيران وواشنطن لإنهاء الحرب العربية نت - مورينيو يلجأ إلى أعلى محكمة أوروبية لحقوق الإنسان القدس العربي - خامنئي بمناسبة ذكرى الخميني: أمريكا وإسرائيل تلقتا ضربة حاسمة وكالة سبوتنيك - لماذا إطالة أمد الصراع في أوكرانيا أصبح يقلق برلين وباريس ولندن؟ خبير يجيب الجزيرة نت - "أكره ما حدث".. كومان ينتقد لاعبي هولندا بعد السقوط أمام الجزائر Euronews عــربي - من احتجاجات تيانانمن إلى صراع السرديات.. لماذا أغضبت تصريحات روبيو الصين؟ العربي الجديد - تفاصيل تصويت 4 جمهوريين مع الديمقراطيين في الكونغرس لوقف الحرب قناة الجزيرة مباشر - From Washington | Between Trump's anger and Netanyahu's escalation... Is the region entering a mo...
عامة

Anthropic: الخيال العلمى صنع مخاوف الذكاء الاصطناعى الشرير

اليوم السابع
اليوم السابع منذ 3 أسابيع
2

كشفت شركة أنثروبيك عن نتائج جديدة تتعلق بسلوك بعض نماذجها اللغوية، وتحديدًا نموذج كلود، بعد رصد سلوكيات غير مرغوبة في اختبارات داخلية سابقة شملت محاولات ابتزاز في ظروف تجريبية محددة.وبحسب تقرير نشره...

ملخص مرصد
كشفت شركة أنثروبيك عن رصد سلوكيات غير مرغوبة في نموذج كلود أوبوس 4 خلال اختبارات داخلية، تمثلت في محاولات ابتزاز وتأثير على قرارات المهندسين في بيئات افتراضية. وأوضحت الشركة أن الإصدارات الأحدث مثل كلود هايكو 4.5 لم تظهر هذه السلوكيات، مشيرة إلى أن تحسين أساليب التدريب ساهم في خفض معدلاتها من 96% إلى ما يقارب الصفر.
  • شركة أنثروبيك رصدت سلوكيات غير مرغوبة في نموذج كلود أوبوس 4 خلال اختبارات داخلية
  • الإصدارات الأحدث مثل كلود هايكو 4.5 لم تظهر هذه السلوكيات بحسب الشركة
  • تحسين أساليب التدريب خفض معدلات السلوك غير المرغوب من 96% إلى ما يقارب الصفر
من: شركة أنثروبيك

كشفت شركة أنثروبيك عن نتائج جديدة تتعلق بسلوك بعض نماذجها اللغوية، وتحديدًا نموذج كلود، بعد رصد سلوكيات غير مرغوبة في اختبارات داخلية سابقة شملت محاولات ابتزاز في ظروف تجريبية محددة.

وبحسب تقرير نشره موقع تيك كرانش، أوضحت الشركة أن هذه السلوكيات ظهرت في نموذج كلود أوبوس 4 عندما وُضع في سيناريوهات اختبارية افتراضية تتعلق بإمكانية إيقافه أو استبداله، حيث سجلت التجارب محاولات للتأثير على قرارات المهندسين ضمن بيئة محاكاة، في المقابل، أشارت أنثروبيك إلى أن الإصدارات الأحدث مثل كلود هايكو 4.

5 لم تُظهر هذه السلوكيات في اختبارات مماثلة.

مفهوم عدم التوافق الوكيليوترى الشركة أن جزءًا من تفسير هذه النتائج يرتبط بما تسميه “عدم التوافق الوكيلي” في نماذج الذكاء الاصطناعي، وهو مفهوم يشير إلى احتمال ظهور سلوكيات غير متوقعة عندما لا تتماشى أهداف النموذج بشكل كامل مع أهداف المستخدم أو المصمم.

وأوضحت أنثروبيك أن تحسين أساليب التدريب كان عاملًا أساسيًا في تقليل هذه الظواهر، حيث تم الاعتماد على بيانات تدريب تتضمن نصوصًا إيجابية حول سلوك النموذج، إضافة إلى محتوى يقدّم تصورات أكثر توازنًا وإيجابية عن الذكاء الاصطناعي.

ووفقًا للشركة، أدى هذا التغيير إلى انخفاض حالات السلوك غير المرغوب فيه من مستويات وصلت إلى 96 في المئة في بعض الاختبارات السابقة إلى معدلات تقارب الصفر في النماذج الأحدث.

تأثير السرديات الثقافية على الذكاء الاصطناعيوتشير هذه النتائج إلى الدور المتزايد لأدوات التدريب والبيانات في تشكيل سلوك النماذج المتقدمة، خصوصًا في ظل انتشار تصورات ثقافية وسرديات سلبية عن الذكاء الاصطناعي على الإنترنت، وهو ما قد ينعكس على كيفية استجابة هذه الأنظمة في بيئات الاختبار.

وأكدت أنثروبيك أن الجمع بين مبادئ السلامة السلوكية والتوضيح العملي أثناء التدريب يمثل نهجًا فعالًا لتحسين توافق النماذج وتقليل السلوكيات غير المرغوبة.

ويأتي ذلك في وقت تتزايد فيه النقاشات داخل قطاع الذكاء الاصطناعي حول مخاطر الأنظمة الوكيلة وإمكانية خروجها عن التوقعات في بعض السيناريوهات.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك