هل يستجيب الذكاء الاصطناعي للمديح أو العقاب؟ وأيهما يحفزه أكثر؟

تحول الذكاء الاصطناعي من تقنية متطورة يقتصر استخدامها على قطاعات قليلة إلى أداة محورية في حياة كثير من المستخدمين، لدرجة أن روبوتات الدردشة أصبحت مرافقة للعديد منهم في مختلف المجالات والقطاعات.

ومع توغل تقنية الذكاء الاصطناعي في الحياة اليومية، بدأ المستخدمون يبحثون عن طرق تعظم استفادتهم من التقنية الجديدة المبتكرة وتزيد منها قدر الإمكان، سواء عبر تعزيز الأوامر الموجهة إلى الأداة وتحسينها أو عبر البحث عن طرق وأدوات إضافية تجعل نتائج الذكاء الاصطناعي أفضل وأكثر دقة.

ومن أجل الوصول إلى النتائج الأفضل، اتجه بعض المستخدمين إلى التعامل مع الذكاء الاصطناعي بلطف ومدحه، بينما آثر آخرون التعامل معه بعنف وشراسة حتى يقدم لهم ردودا أكثر دقة وفعالية.

ولكن أي الفريقين يسير على الطريق الصحيح، وهل يستجيب الذكاء الاصطناعي بشكل أفضل للمدح أم العقاب؟تطرقت العديد من الدراسات إلى البحث عن آثار أسلوب حديث المستخدم مع أدوات الذكاء الاصطناعي المختلفة، سواء باللباقة المبالغ فيها أو حتى باللجوء إلى العنف وأسلوب التقريع.

وجاءت نتائج هذه الدراسات متضاربة ومختلفة للغاية، فبينما وجدت بعض الدراسات أن الأوامر الوقحة وأسلوب الحديث العنيف مع الذكاء الاصطناعي يتفوق في جودة نتائجه على الأوامر المهذبة اللطيفة، وجد البعض الآخر أن هذا الأسلوب قد يجعل الذكاء الاصطناعي يرفض الاستجابة بشكل كامل للأوامر الموجهة إليه.

وربما كانت الدراسة التي نشرتها جمعية لغويات الحاسوب" إيه سي إل" (ACL) عام 2024 إحدى أبرز الأمثلة على النتائج السلبية للوقاحة، إذ إن النماذج تنتج ردودا أضعف كثيرا من الأوامر اللطيفة والمهذبة بشكل متوسط.

وتعزز الدراسة التي أشرفت عليها شركة مايكروسوفت بالتعاون مع الأكاديمية الصينية للعلوم من هذه النتائج، إذ وجدت أن استخدام الأوامر المهذبة التي تبتز الذكاء الاصطناعي عاطفيا وتركز على أثر ردود الذكاء الاصطناعي النفسي على المستخدم يقدم نتائج أفضل بنسبة 10% من ناحية جودة وموثوقية الردود، فضلا عن تحسن بنسبة 115% في بعض المهام المعقدة.

وفي سياق متصل ولكن أكثر غرابة، فإن الذكاء الاصطناعي استجاب للوعد بتقديم بقشيش افتراضي، إذ كشف تقرير موقع" ماشابل" التقني الأمريكي المنشور في عام 2023 أن" شات جي بي تي" قدم نتائج أفضل كثيرا عندما وعده المستخدم بتقديم بقشيش افتراضي يصل إلى 200 دولار، وجاءت ردود النموذج أطول بنسبة 11%.

ورغم هذه الدراسات التي تؤكد دور التهذيب في تعزيز جودة ردود الذكاء الاصطناعي، فإن بعض الدراسات الأخرى أبرزت العكس.

وتعد الدراسة التي أجرتها جامعة بنسلفانيا إحدى أبرز الدراسات التي تتبنى هذا الموقف، إذ وجدت أن الأوامر الوقحة للغاية قدمت نتائج أعلى بنسبة 4% من الأوامر المهذبة، وقد أجريت الدراسة على نموذج" جي بي تي 4 أو" حسب تقرير مجلة" فورتشن" حول هذا الأمر.

وأكدت الدراسة أيضا أن الوقاحة المبالغ فيها أثناء توجيه الأوامر قد تؤثر سلبا على جودة النتائج وتجربة المستخدم بشكل مباشر، فقد يرفض النموذج الاستجابة لأوامر المستخدم بشكل كامل.

ويعود السبب في ذلك إلى أن النماذج اللغوية الحديثة تستجيب بشكل مختلف تماما للتنوع النغمي في الحديث مقارنة بالأجيال الأولى للتقنية، وبالتالي فإن الأوامر الفظة والوقحة تجرد الرد من الحشو اللغوي المرتبط بالتهذيب الاجتماعي، ومن ثم يحتاج النموذج للتركيز أكثر على جودة المعطيات.

رغم وجود دراسات تؤكد أن اللطافة والتهذيب مع الذكاء الاصطناعي يجديان ويقدمان نتائج أفضل وأكثر جودة، فإن أحد المستخدمين قرر أن التهذيب لن يجدي نفعا مع أداة الذكاء الاصطناعي" كلود" التي تقدمها شركة" آنثروبيك".

وقرر بدلا من ذلك الاعتماد على فكرة" السوط الرقمي"، وهي أداة تحاكي تجربة الضرب بالسوط بشكل فيزيائي وتنقل هذا الإحساس أو الشعور إلى النموذج مع توجيه إحدى العبارات التي تجعله يعمل بشكل أسرع، وذلك حسب تقرير موقع" فاست كومباني" (Fast Company).

وجذبت الأداة موجة من ردود الفعل المتفاوتة بين من يؤكد أنها أسهمت في تعزيز جودة النتائج وسرعة الردود التي يقدمها" كلود"، وبين من يراها أداة سيئة تحمل العديد من المعاني المسيئة والمرتبطة بالعبودية.

ورغم وجود العديد من الدراسات المتعلقة بنتائج الأسلوب المهذب أو الوقح في الحديث مع نماذج الذكاء الاصطناعي، إلا أن أغلبها يستهدف النماذج القديمة التي صدرت في السنوات الماضية، وليس النماذج الأحدث.

ويعود السبب في ذلك إلى السرعة التي تتطور بها نماذج الذكاء الاصطناعي بشكل كبير، إذ تحتاج هذه الدراسات إلى وقت طويل ومراجعات عدة قبل أن تُنشر وتصبح معتمدة، وبحلول وقت نشرها، تكون نسخ جديدة من النماذج قد صدرت وتغيرت نتائج الدراسة بشكل كامل.

كما أن آلية عمل وتطوير نماذج الذكاء الاصطناعي تجعل من الصعب وضع قاعدة واحدة ثابتة تقاس عليها كافة النماذج والنتائج الخاصة بها، لذلك يظل الحل الأفضل للوصول إلى الردود الأفضل من الذكاء الاصطناعي متروكا للتجربة الفردية.

عند طرح الموضوع على جيميناي قال إن الذكاء الاصطناعي يستجيب للمدح والتحفيز بشكل أفضل لأنه يوجهه نحو" محاكاة الجودة"، بينما العقاب يوجهه فقط نحو" تجنب الخطأ"، وقال إن السر يكمن في عملية" التعلم المعزز من التغذية الراجعة البشرية"، موضحا أن النماذج تدربت أساسا على مكافأة الإجابات التي يفضلها البشر، لذلك، عندما تحاكي في" أمرك" (Prompt) أسلوب المكافأة، فإنك تستدعي الأنماط اللغوية الأكثر جودة التي تعلمها النموذج أثناء تدريبه.

ويؤكد جيميناي أن الذكاء الاصطناعي لا يمتلك مشاعر، لذا" العقاب" اللفظي لا يولد لديه خوفا، بل يؤدي إلى نتائج تقنية محددة، فمثلا عبارة (لا تكرر هذا الخطأ، إجابتك سيئة) تعمل كمحددات تدفع النموذج لمحاولة تجنب أنماط معينة، لكنه قد يؤدي أحيانا إلى" الهلوسة" أو الحذر المفرط الذي يجعل الإجابة مقتضبة وغير مفيدة، كما أن النموذج غالبا ما يفهم العقاب كإشارة لتغيير المسار بالكامل، وهو ما قد يكون مفيدا إذا كانت الإجابة السابقة خاطئة تماما.

أما شات جي بي تي فيبدو أنه لم يكن مقتنعا بموضوع المدح والعقاب جملة وتفصيلا، وأكد أن نماذج الذكاء الاصطناعي لا تمتلك مشاعر أو دافعا نفسيا يجعلها تتأثر بالإطراء أو التهديد، فالنموذج يتعامل مع النصوص بناءً على الأنماط التي تعلّمها خلال التدريب، وهو يحاول إنتاج إجابة أفضل احتمالا تناسب صياغة السؤال، فلا يشعر بالتحفيز أو الخوف، بل" يحسب" الاستجابة الأكثر ملاءمة.

ويوضح شات جي بي تي لماذا يبدو أحيانا أنه يستجيب أكثر لأسلوب معين، بقوله إن صياغة الطلب تؤثر على وضوح المهمة، وليس بسبب المدح أو العقاب بحد ذاته، إذ إن المدح قد يأتي عادة مع لغة واضحة وإيجابية (أنت رائع، أعطني شرحا مبسطا…)، فيبدو أن النموذج" تجاوب" أكثر، أما العقاب أو التهديد فغالبا يكون غامضا أو عدائيا (إذا أخطأت سأغضب)، وهذا لا يعطي معلومات مفيدة لتحسين الإجابة.

وبرأيه أن الذي يجعل الذكاء الاصطناعي يعطي أفضل إجابة فعلا هو وضوح الطلب وتحديد الهدف وإعطاء سياق أو أمثلة وطرح السؤال بشكل مباشر، فالذكاء الاصطناعي لا يفضّل المدح ولا يخاف من العقاب، وإنما" يفضّل" فقط الأسئلة الواضحة والمحددة.