منافس جديد في عالم توليد الصور بالذكاء الاصطناعي، مايكروسوفت تطلق MAI-Image-2 (فيديو)

فاجأت شركة مايكروسوفت الأوساط التقنية بإطلاق نموذجها الداخلي الجديد MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي.

النموذج جاء نتاج تطوير سري، يهدف لتوفير بديل قوي وعالي الدقة لمستخدمي كوبايلوت (Copilot) وبينج (Bing)، مع التركيز على معالجة أكبر عيوب الصور المنتجة ذكائيًا: " النصوص المشوهة".

مايكروسوفت تطلق MAI-Image-2وكانت شركة مايكروسوفت تعتمد على تقنيات أوبن إيه آي في خدماتها مثل كوبايلوت ومنشئ صور بينغ، لكن إطلاق هذا النموذج يشير إلى رغبة واضحة في تقليل هذا الاعتماد وبناء منظومة مستقلة.

ويعد هذا التوجه جزءًا من استراتيجية أوسع لتعزيز السيطرة على أدوات الذكاء الاصطناعي داخل الشركة.

وقد بدأ بالفعل إتاحة النموذج عبر منصة MAI Playground، مع خطط لإدماجه تدريجيًا في خدمات كوبايلوت وبينج بينما لا يزال الوصول إلى واجهات البرمجة مقتصرًا على عدد محدود من العملاء المؤسسيين، على أن يتم توسيع النطاق لاحقًا.

اعتمدت مايكروسوفت في تطوير MAI-Image-2 على آراء مصورين ومصممين وصناع محتوى، ما ساهم في التركيز على ثلاث نقاط رئيسية:واقعية بصرية محسنة: يقدم النموذج صورًا أقرب إلى الواقع من حيث الإضاءة والتفاصيل الدقيقة، مع فهم أفضل للعلاقات بين العناصر داخل المشهد.

دقة في توليد النصوص داخل الصور: واحدة من أبرز نقاط القوة، حيث يمكن للنموذج إنتاج نصوص واضحة داخل الصور مثل الإعلانات والملصقات، وهي ميزة طالما عانت منها نماذج أخرى.

قدرة على بناء مشاهد معقدة: كما يظهر النموذج كفاءة في التعامل مع الأفكار الخيالية أو غير التقليدية، مع الحفاظ على تماسك العناصر والتفاصيل.

وفي الاختبارات العملية، أظهر MAI-Image-2 جودة عالية في إنتاج الصور، خاصة من حيث الواقعية والتفاصيل، كما تعامل بكفاءة مع المشاهد المعقدة، وقدم نتائج متقدمة في إدراج النصوص داخل الصور.

ورغم ذلك، لا يزال النموذج خلف بعض المنافسين من حيث التفوق العام، خاصة النماذج المتقدمة لدى جوجل، إلا أنه يقترب منها بشكل ملحوظ في بعض السيناريوهات.

على الرغم من الأداء التقني اللافت في نموذج MAI-Image-2، إلا أن هناك مجموعة من القيود التي قد تعيق اعتماده في بيئات العمل الاحترافية:سياسات محتوى مشددة: يرفض النموذج بعض الطلبات حتى في سياقات إبداعية غير حساسة، ما قد يحد من حرية المستخدمين.

حدود استخدام يومية: يفرض النظام فاصلًا زمنيًا بين كل عملية توليد، مع سقف يومي لعدد الصور، وهو ما يمثل عائقًا أمام الاستخدام المكثف.

دعم محدود للأبعاد: يقتصر حاليًا على نسبة عرض إلى ارتفاع 1: 1، دون خيارات أخرى مناسبة للمنصات الرقمية المختلفة.

غياب أدوات التعديل: لا يوفر إمكانيات مثل تعديل الصور أو استخدام صور مرجعية، وهي ميزات أصبحت أساسية لدى المنافسين.