قناة الجزيرة مباشر - Military escalation in southern Lebanon and northern Israel قناة الشرق للأخبار - أميركا وإيران.. الخارجية الإيرانية: طهران لا تعتبر أي ورقة مع واشنطن نهائية قناة التليفزيون العربي - الجيش الإيراني يطلق صواريخ تحذيرية ومسيّرات نحو مدمرات أميركية ويعلن تراجعها نحو بحر عمان Euronews عــربي - إشادات بكانيا كينغ مؤسسة جوائز موبا المتوفاة عن 57 عاما وكالة سبوتنيك - بوتين: العالم يشهد حاليا تحولا هيكليا كبيرا سكاي نيوز عربية - عون: إيران تستخدم لبنان "ورقة مساومة" وسئمنا الحرب القدس العربي - سكان 36 دولة لديهم آراء سلبية تجاه إسرائيل وثقة ضئيلة بنتنياهو روسيا اليوم - اكتشاف يحل لغزا عمره نصف قرن حول الثقب الأسود الهائل في مركز درب التبانة روسيا اليوم - طائرة "IL-114-300" المدنية الروسية تحصل على شهادة الاعتماد Euronews عــربي - إدراج ولية عهد النرويج على قائمة انتظار لزرع رئة
عامة

"شاومي" تدخل عالم الروبوتات الكبيرة وتكشف عن نموذجها الأول

العربية نت
العربية نت منذ 3 أشهر
1

أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4. 7 مليار معلمة. .الشركة تقول إن النموذج حقق أرقامًا قياسية في الا...

ملخص مرصد
أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.7 مليار معلمة. النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه الشركة ب"الذكاء الفيزيائي". النموذج مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين: النموذج البصري اللغوي (VLM) ونظام توليد الحركات.
  • شاومي تكشف عن Xiaomi-Robotics-0 بـ4.7 مليار معلمة
  • النموذج يجمع بين الرؤية والفهم اللغوي والتنفيذ الحركي
  • حقق نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv
من: شركة شاومي

أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.

7 مليار معلمة.

الشركة تقول إن النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه ب" الذكاء الفيزيائي".

النموذج مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين:

1.

النموذج البصري اللغوي (VLM):

- يفهم التعليمات البشرية، حتى الغامضة منها، مثل: " رجاءً طوي المنشفة".

- يعالج كشف الأشياء، والأسئلة البصرية، والتفكير المنطقي.

يعتمد على Diffusion Transformer متعدد الطبقات (DiT).

ينتج Action Chunks، أي تسلسل حركات متسلسلة وسلسة باستخدام تقنيات flow-matching.

مصمم للحفاظ على الأداء الدقيق أثناء التعلم الحركي دون فقدان القدرات الإدراكية للنموذج.

النموذج يتدرب على البيانات متعددة الوسائط والحركة بشكل مشترك، لتجنب فقدان القدرة على الفهم أثناء تعلم الحركات.

Action Proposal: يسمح لVLM بالتنبؤ بتوزيعات الحركات الممكنة أثناء معالجة الصور.

DiT يتدرب لاحقًا على توليد تسلسل الحركات بدقة من الضوضاء، باستخدام ميزات key-value بدلًا من الرموز اللغوية.

تقليل زمن الاستجابة: من خلال Inference Asynchronous وClean Action Prefix للحفاظ على حركة سلسة ومستقرة.

Λ-shaped attention mask: يركز على المدخلات البصرية الحالية بدلًا من الاعتماد على الحالات السابقة.

النموذج سجل نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا آخر.

على أرض الواقع، استخدم على روبوت ذو ذراعين، وأظهر تنسيق عين-يد ممتاز في مهام طويلة مثل طي المنشفة وتفكيك المكعبات، مع التعامل مع الأشياء الصلبة والمرنة دون مشاكل واضحة.

على عكس الأنظمة السابقة، Robotics-0 حافظ على قدراته البصرية واللغوية حتى بعد تعلم الحركات، ما يجعله مثالياً للمهام التي تجمع بين الإدراك والتنفيذ الفيزيائي.

باختصار، Xiaomi-Robotics-0 يمثل خطوة" شاومي" الأولى الجادة نحو دمج الذكاء البصري واللغوي مع الأداء الحركي في الروبوتات الواقعية، ويضع الشركة على خريطة البحث المتقدم في مجال الروبوتات الكبيرة.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك