مايكروسوفت تطلق 3 نماذج ذكاء اصطناعي جديدة لتوليد النص والصوت والصورة (فيديو)

أعلنت مايكروسوفت عن إطلاق ثلاثة نماذج متقدمة متعددة الوسائط، قادرة على إنتاج النصوص والصوتيات والمحتوى المرئي، ضمن استراتيجية أوسع لبناء منظومة ذكاء اصطناعي متكاملة تنافس بها كبار اللاعبين في القطاع.

نماذج متعددة الاستخدامات تدعم 25 لغة وتولد الصوت والفيديوتشمل الإصدارات الجديدة مجموعة من النماذج التي تغطي مجالات مختلفة من الذكاء الاصطناعي:MAI-Transcribe-1: نموذج متخصص في تحويل الكلام إلى نص، يدعم 25 لغة، ويقدم أداءً أسرع مقارنة بالخدمات الحالية.

MAI-Voice-2: نموذج متطور لتوليد الصوت، يمكنه إنشاء مقاطع صوتية طويلة خلال وقت قياسي، مع إمكانية تخصيص الأصوات.

MAI-Image-3: نموذج لإنشاء الصور والفيديو، تم طرحه مبدئيًا عبر منصة اختبار قبل تعميمه رسميًا.

إتاحة النماذج عبر منصات مايكروسوفتأوضحت الشركة أن النماذج الجديدة أصبحت متوفرة عبر منصة مايكروسوفت فاوندري، إلى جانب إتاحتها جزئيًا على بيئة MAI Playground، التي تتيح للمطورين تجربة قدرات الذكاء الاصطناعي واختبارها.

تم تطوير هذه التقنيات بواسطة فريق “MAI Superintelligence”، بقيادة مصطفى سليمان، الذي يقود جهود مايكروسوفت للذكاء الاصطناعي منذ تأسيسه في أواخر 2025.

وأكد سليمان أن الشركة تعتمد نهجًا يركز على “الذكاء الإنساني”، أي تطوير تقنيات تتماشى مع طبيعة تفاعل البشر واحتياجاتهم اليومية، مع التركيز على التطبيقات العملية.

تسعير تنافسي لمواجهة عمالقة التكنولوجياضمن سعيها لجذب المطورين والشركات، طرحت مايكروسوفت نماذجها بأسعار تنافسية مقارنة بمنافسيها مثل جوجل وOpenAI.

36 دولار لكل ساعة لاستخدام نموذج تحويل الصوت إلى نص.

22 دولارًا لكل مليون حرف في نموذج الصوت.

5 دولارات لكل مليون رمز نصي و33 دولارًا لمخرجات الصور.