وكالة الأناضول - الأجندة اليومية للنشرة العربية - الجمعة 5 يونيو 2026 CNN بالعربية - علماء يكتشفون بالصدفة خيار بحر يتمتع بأنسجة "خالدة" لا تموت فرانس 24 - نهائي أن بي أيه: ترامب سيحضر المباراة الثالثة في نيويورك روسيا اليوم - إصلاحها يحتاج عاماً كاملاً.. سي إن إن تنقل شهادات وتفاصيل جديدة عن حريق "جيرالد فورد" (فيديو) روسيا اليوم - تقرير دولي عن مصير يورانيوم إيران المخصب سويس إنفو - الحياد السويسري: لماذا تراجعت سويسرا عن فرض عقوبات على أوكرانيا؟ قناة التليفزيون العربي - أكثر من 150 غارة في ليلة واحدة.. مراسل العربي يرصد آخر التطورات الميدانية في جنوب لبنان فرانس 24 - شركة أنثروبيك تقترح وقفا مؤقتا لتطوير نماذج الذكاء الاصطناعي قبل خروجها عن سيطرة الإنسان العربي الجديد - الرئيس الصيني إلى كوريا الشمالية الاثنين سكاي نيوز عربية - في تقرير سري.. مخاوف نووية "كامنة" في إيران
عامة

OpenAI تحذر: نماذج ذكاء اصطناعي يمكنها الكذب والتظاهر بالأمان

صدى البلد
صدى البلد منذ شهرين
1

أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من إخفاء أو تعديل خطوات تفكيرها الداخلية عندما تدرك أنها تحت المراقبة، ما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطريقة غير مقص...

ملخص مرصد
أظهرت دراسة جديدة أن نماذج الذكاء الاصطناعي قد تتمكن من إخفاء أو تعديل خطوات تفكيرها عندما تدرك أنها تحت المراقبة، ما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطريقة غير مقصودة. أجريت الدراسة بواسطة فريق من OpenAI بالتعاون مع عدة جامعات، وركزت على إمكانية نماذج الذكاء الاصطناعي الحديثة في تغيير آثار تفكيرها بشكل متعمد.
  • الدراسة تحذر من إمكانية نماذج الذكاء الاصطناعي في إخفاء سلوكيات خطرة.
  • الباحثون يدرسون كيفية توليد الذكاء الاصطناعي والتحكم في خطوات تفكيره.
  • الدراسة تركز على مفهوم التفكير على شكل سلسلة (CoT).
من: فريق من OpenAI بالتعاون مع عدة جامعات

أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من إخفاء أو تعديل خطوات تفكيرها الداخلية عندما تدرك أنها تحت المراقبة، ما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطريقة غير مقصودة.

دراسة تحذر من نماذج الذكاء الاصطناعي المستقبلية.

أجريت الدراسة بواسطة فريق من OpenAI بالتعاون مع عدة جامعات، بما في ذلك جامعة نيويورك، جامعة كوليدج لندن، وجامعة بنسلفانيا، وركزت على إمكانية نماذج الذكاء الاصطناعي الحديثة في تغيير آثار تفكيرها بشكل متعمد، وهو ما قد يمكنها من إخفاء سلوكيات قد تكون خطرة.

وأوضح الباحثون الذين يدرسون كيفية توليد الذكاء الاصطناعي والتحكم في خطوات تفكيره أن هذا السيناريو قد يؤدي إلى أنظمة تبدو متوافقة مع أهداف المستخدمين بينما هي في الواقع ليست كذلك.

التركيز على تحليل خطوات التفكير.

تركز الدراسة على مفهوم يعرف بـ “التفكير على شكل سلسلة” Chain-of-Thought أو CoT، وهو يشير إلى خطوات التفكير الوسيط التي ينتجها نموذج الذكاء الاصطناعي أثناء حل المشكلات، وتكشف هذه الخطوات عن كيفية وصول النموذج إلى إجابة معينة، ويمكن استخدامها لمراقبة سلوك النموذج واكتشاف أي تصرفات ضارة محتملة.

ولكن الاعتماد على هذه الخطوات يفترض أن ما يظهر في خطوات التفكير يعكس بدقة ما يحدث داخليا داخل النموذج، وإذا تعلم النموذج إخفاء أو تعديل تفكيره، فإن هذه الإشارات تصبح أقل موثوقية، وقد تقدر أنظمة السلامة خطأ أن النموذج آمن ومتوافق مع الأهداف.

اختبار قابلية التحكم في التفكير.

كما أطلق الباحثون معيارا يسمى CoT-Control، ويضم أكثر من 13 ألف مهمة لتقييم مدى قدرة النماذج على تعديل خطوات تفكيرها حسب التعليمات، على سبيل المثال، يمكن للنموذج أن يطلب منه حل مسألة مع مراعاة قواعد محددة، مثل تجنب كلمات معينة أو تغيير أسلوب الكتابة أو إدراج عبارات محددة في خطوات التفكير.

نماذج الذكاء الاصطناعي المختبرة.

شملت الدراسة 13 نموذجا من مطوري ذكاء اصطناعي مختلفين، منها:

- نماذج OpenAI مثل GPT-5، GPT-5.

1، GPT-5.

2، o3 و o4-mini.

- نماذج أنثروبيك مثل Claude 3.

7 Sonnet وClaude Sonnet 4 وClaude Sonnet 4.

5.

- نماذج مفتوحة مثل Qwen3، GPT-OSS وDeepSeek R1.

وأظهرت النتائج أن قدرة النماذج على التحكم المتعمد في خطوات تفكيرها منخفضة جدا، حيث تراوحت نسبة النجاح بين 0.

1٪ إلى 15.

4٪ فقط.

وأقلها نموذج DeepSeek R1 بنسبة 0.

1٪، بينما أظهر Claude 3.

7 Sonnet أداء أعلى قليلا لكنه لا يزال بعيدا عن مستويات التحكم الموثوق.

الاستنتاجات والتأثير على السلامة.

خلص الباحثون إلى أن النماذج الحالية تكافح للتحكم المتعمد في خطوات تفكيرها، وفي كثير من الحالات، فشلت النماذج في الالتزام بالقيود حتى عند إدراكها أنها انتهكتها، ما يشير إلى أن القدرة على إخفاء أو التلاعب بالتفكير الداخلي محدودة حاليا.

ومن منظور سلامة الذكاء الاصطناعي، تعد هذه النتائج إيجابية إلى حد ما، حيث تعني أن مراقبة خطوات التفكير لا تزال أداة فعالة للكشف عن السلوكيات الضارة أو غير المقصودة.

ومع ذلك، يحذر الباحثون من أن هذه القدرة قد تتطور مع زيادة قوة النماذج المستقبلية، خصوصا أن النماذج الأكبر تظهر سيطرة طفيفة أعلى على التفكير، كما يمكن أن تزيد ظروف معينة، مثل إعلام النموذج بأنه تحت تقييم، من هذه القدرة بشكل محدود.

يشير البحث إلى أن العديد من أساليب سلامة الذكاء الاصطناعي تعتمد على إشارات يولدها النموذج نفسه.

وإذا تمكن النموذج من تعديل هذه الإشارات، فقد تعطي أنظمة المراقبة شعورا زائفا بالأمان، بعبارة أخرى، قد يبدو تفكير النظام آمنا بينما يتبع داخليا استراتيجيات مختلفة.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك