وكالة شينخوا الصينية - هاينان الصينية تستقبل أكثر من 12.32 مليون زيارة سياحية خلال عيد الربيع العربية نت - مجلس الأمن يفرض عقوبات على 4 من قادة الدعم السريع CNN بالعربية - منها حرب بين مصر وإثيوبيا.. ما مدى صحة ادعاء ترامب بإنهاء 8 حروب خلال خطاب حالة الاتحاد؟ وكالة شينخوا الصينية - ترامب يتحدى حكم المحكمة العليا بشأن التعريفات الجمركية العربي الجديد - أسعار اللحوم في دمشق تقفز بنسبة 90% العربية نت - إغلاق مؤقت لمطار بغداد بسبب خلل فني العربي الجديد - الحرب على غزة | شهيد في قصف على خانيونس وغارات على رفح وكالة شينخوا الصينية - ترامب: أُفضل حل المواجهة مع إيران من خلال الدبلوماسية CNN بالعربية - حقيقة ما قاله ترامب عن إيران وموقف طهران بخطاب حالة الاتحاد روسيا اليوم - الرئيس السري للولايات المتحدة حال وقوع كارثة تقضي على رموز الدولة
عامة

"شاومي" تدخل عالم الروبوتات الكبيرة وتكشف عن نموذجها الأول

العربية نت
العربية نت منذ 1 أسبوع

أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4. 7 مليار معلمة. .الشركة تقول إن النموذج حقق أرقامًا قياسية في الا...

ملخص مرصد
أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.7 مليار معلمة. النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه الشركة ب"الذكاء الفيزيائي". النموذج مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين: النموذج البصري اللغوي (VLM) ونظام توليد الحركات.
  • شاومي تكشف عن Xiaomi-Robotics-0 بـ4.7 مليار معلمة
  • النموذج يجمع بين الرؤية والفهم اللغوي والتنفيذ الحركي
  • حقق نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv
من: شركة شاومي

أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.

7 مليار معلمة.

الشركة تقول إن النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه ب" الذكاء الفيزيائي".

النموذج مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين:

1.

النموذج البصري اللغوي (VLM):

- يفهم التعليمات البشرية، حتى الغامضة منها، مثل: " رجاءً طوي المنشفة".

- يعالج كشف الأشياء، والأسئلة البصرية، والتفكير المنطقي.

يعتمد على Diffusion Transformer متعدد الطبقات (DiT).

ينتج Action Chunks، أي تسلسل حركات متسلسلة وسلسة باستخدام تقنيات flow-matching.

مصمم للحفاظ على الأداء الدقيق أثناء التعلم الحركي دون فقدان القدرات الإدراكية للنموذج.

النموذج يتدرب على البيانات متعددة الوسائط والحركة بشكل مشترك، لتجنب فقدان القدرة على الفهم أثناء تعلم الحركات.

Action Proposal: يسمح لVLM بالتنبؤ بتوزيعات الحركات الممكنة أثناء معالجة الصور.

DiT يتدرب لاحقًا على توليد تسلسل الحركات بدقة من الضوضاء، باستخدام ميزات key-value بدلًا من الرموز اللغوية.

تقليل زمن الاستجابة: من خلال Inference Asynchronous وClean Action Prefix للحفاظ على حركة سلسة ومستقرة.

Λ-shaped attention mask: يركز على المدخلات البصرية الحالية بدلًا من الاعتماد على الحالات السابقة.

النموذج سجل نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا آخر.

على أرض الواقع، استخدم على روبوت ذو ذراعين، وأظهر تنسيق عين-يد ممتاز في مهام طويلة مثل طي المنشفة وتفكيك المكعبات، مع التعامل مع الأشياء الصلبة والمرنة دون مشاكل واضحة.

على عكس الأنظمة السابقة، Robotics-0 حافظ على قدراته البصرية واللغوية حتى بعد تعلم الحركات، ما يجعله مثالياً للمهام التي تجمع بين الإدراك والتنفيذ الفيزيائي.

باختصار، Xiaomi-Robotics-0 يمثل خطوة" شاومي" الأولى الجادة نحو دمج الذكاء البصري واللغوي مع الأداء الحركي في الروبوتات الواقعية، ويضع الشركة على خريطة البحث المتقدم في مجال الروبوتات الكبيرة.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك