رغم التطور: نماذج الذكاء الاصطناعي غير جاهزة للاستخدام الطبى السريرى

خلصت دراسة جديدة إلى أن الذكاء الاصطناعي التوليدي لا يزال يفتقر إلى القدرات المنطقية اللازمة للاستخدام السريري الآمن، وقد حسنت روبوتات الدردشة المدعومة بالذكاء الاصطناعي دقتها التشخيصية عند تزويدها بمعلومات سريرية شاملة، إلا أنها لا تزال تعجز عن تقديم تشخيص تفريقي مناسب في أكثر من 80% من الحالات، وفقًا لباحثين في مستشفى ماساتشوستس العام بريجهام، وهو مستشفى وشبكة أبحاث غير ربحية مقرها بوسطن، وإحدى أكبر أنظمة الرعاية الصحية في الولايات المتحدة.

وتظهر نتائج الدراسة، المنشورة في مجلة الجمعية الطبية الأمريكية JAMA Network أن نماذج اللغة الكبيرة (LLMs) لا ترقى إلى مستوى التفكير المطلوب للاستخدام السريري.

وقال مارك سوتشي، أحد معدي الدراسة: " على الرغم من التقدم المستمر، فإن نماذج اللغة الكبيرة الجاهزة للاستخدام ليست جاهزة للتطبيق في الممارسة السريرية غير الخاضعة للإشراف".

وأضاف أن الذكاء الاصطناعي لا يزال غير قادر على محاكاة التشخيص التفريقي، الذي يعد جوهر الاستدلال السريري والذي يعتبر" فن الطب".

والتشخيص التفريقي هو الخطوة الأولى التي تمكّن المتخصصين في الرعاية الصحية من تحديد الحالة المرضية من خلال تمييزها عن الأمراض الأخرى ذات الأعراض المشابهة كما اوردت قناة" يورونيوز" الإخبارية.

وقام فريق البحث بتحليل أداء 21 نموذجًا من نماذج التعلم الآلي، بما في ذلك أحدث الإصدارات المتاحة من" كلود" Claude و" ديب سيك" DeepSeek و" جميناي" Gemini و" جي بي تي" GPT و" جروك" Grok.

وتم تقييم تعامل نماذج التعلم الآلي مع 29 حالة سريرية موحدة باستخدام أداة جديدة طُوّرت لهذا الغرض، تُسمى PrIME-LLM.

وتقيس هذه الأداة قدرات النموذج في مراحل مختلفة من الاستدلال السريري: وضع التشخيص الأولي، وطلب الفحوصات المناسبة، والتوصل إلى التشخيص النهائي، وتخطيط العلاج.

ووفقًا للدراسة، فإن ChatGPT ونماذج الذكاء الاصطناعي الأخرى تلتقط معلومات طبية خاطئة عبر الإنترنت.

ولمحاكاة تطور الحالات السريرية، قام الباحثون بتغذية النماذج بالمعلومات تدريجيًا، بدءًا من البيانات الأساسية كعمر المريض وجنسه وأعراضه، قبل إضافة نتائج الفحص السريري والتحاليل المخبرية.

وعمليًا، يعد التشخيص التفريقي ضروريًا للانتقال إلى المرحلة التالية.

مع ذلك، في هذه الدراسة، تلقت النماذج معلومات إضافية لمواصلة العمل حتى في حال فشلها في مرحلة التشخيص التفريقي.

ووجد الباحثون أن نماذج اللغة حققت دقة عالية في التشخيصات النهائية، لكنها كانت ضعيفة في توليد التشخيصات التفريقية والتعامل مع حالات عدم اليقين.

واعتبرت معدة الدراسة، آريا راو إن تقييم نماذج اللغة خطوة بخطوة يسمح لنا بتجاوز النظر إليها كمجرد مرشحين للاختبار، ووضعها في مكانة الطبيب.

وأضافت" تتميز هذه النماذج بقدرتها الفائقة على اقتراح التشخيص النهائي بمجرد توفر جميع البيانات، لكنها تواجه صعوبة في بداية الحالة عندما تكون المعلومات شحيحة".

ولاحظ الباحثون أن جميع النماذج فشلت في التوصل إلى تشخيص تفريقي مناسب في أكثر من 80% من الحالات.

أما بالنسبة للتشخيص النهائي، فقد تراوحت نسب النجاح بين 60% وأكثر من 90%، وذلك بحسب النموذج المستخدم.