العربي الجديد - منتخب العراق يشد الرحال إلى مونديال 2026 وإصابة تربك حسابات أرنولد قناة الجزيرة مباشر - Syria to the forefront of energy and trade maps... Will it become a vital energy artery? التلفزيون العربي - "بيت صغير للذاكرة".. لماذا تختلف الحكاية العائلية نفسها من شخص إلى آخر؟ القدس العربي - تصاعد التوتر بين أمريكا وإيران: طلقات تحذيرية وعقوبات جديدة العربي الجديد - بيتكوين تحت 60 ألف دولار لأول مرة منذ أكتوبر 2024 القدس العربي - سوريا.. ضبط مليوني حبة كبتاغون معدة للتهريب وتوقيف شخصين بطرطوس سكاي نيوز عربية - تأهب وأوامر إخلاء.. ماذا حدث في محطة الفضاء الدولية؟ القدس العربي - مكتبة قطر تطلق دورات «مفاتيح فلسطين» لتوثيق التجارب اليومية القدس العربي - البنك الدولي يقرّ تمويلا بـ900 مليون دولار لتطوير الطرق في العراق القدس العربي - وزارة البيئة العراقية تتعهد باستعادة دورها الرقابي والتنفيذي
عامة

من الهواتف إلى الروبوتات.. شاومي تكشف عن نموذجها الثوري Robotics-0

صدى البلد
صدى البلد منذ 3 أشهر

أعلنت شركة شاومي، عن إطلاق Xiaomi-Robotics-0، نموذج مفتوح المصدر يضم 4. 7 مليار باراميتر، مصمم لتمكين الروبوتات من فهم البيئة بصريا، استيعاب الأوامر اللغوية، وتنفيذ الحركات بشكل لحظي، وهو ما تصفه الشر...

ملخص مرصد
أطلقت شركة شاومي نموذج Xiaomi-Robotics-0 المفتوح المصدر بـ4.7 مليار باراميتر، مصمم لتمكين الروبوتات من فهم البيئة بصريا وتنفيذ الحركات بشكل لحظي. يعتمد النموذج على معمارية Mixture-of-Transformers لتحقيق توازن بين الفهم الحسي والتنفيذ الحركي. سجل النموذج أداء متقدما في الاختبارات والمحاكاة الواقعية، متفوقا على نحو 30 نموذجا آخر.
  • نموذج Xiaomi-Robotics-0 يضم 4.7 مليار باراميتر ويعتمد على معمارية Mixture-of-Transformers
  • يجمع النموذج بين الفهم البصري واتخاذ القرار والتنفيذ الحركي في نظام متكامل
  • تفوق النموذج على 30 نموذجا آخر في اختبارات المحاكاة والمهام الواقعية
من: شركة شاومي

أعلنت شركة شاومي، عن إطلاق Xiaomi-Robotics-0، نموذج مفتوح المصدر يضم 4.

7 مليار باراميتر، مصمم لتمكين الروبوتات من فهم البيئة بصريا، استيعاب الأوامر اللغوية، وتنفيذ الحركات بشكل لحظي، وهو ما تصفه الشركة بـ" الذكاء الفيزيائي".

وبحسب شاومي، فقد سجل Xiaomi-Robotics-0 عدة أرقام قياسية خلال الاختبارات والمحاكاة الواقعية، ويعتمد النموذج على ما يعرف بـ" الحلقة المغلقة" في الروبوتات، والتي تشمل الإدراك، اتخاذ القرار، والتنفيذ.

كما يحتاج الروبوت إلى رؤية البيئة، فهم المهمة المطلوبة، وضع خطة، ثم تنفيذها بسلاسة، وتؤكد شاومي أن Robotics-0 صمم خصيصا لتحقيق توازن بين الفهم الشامل والتحكم الحركي الدقيق، لضمان أداء متقن في مختلف المهام.

يعتمد نموذج Xiaomi-Robotics-0 على معمارية Mixture-of-Transformers (MoT)، التي تقسم المهام بين مكونين رئيسيين لتحقيق توازن بين الفهم الحسي والتنفيذ الحركي.

ويتمثل المكون الأول في نموذج اللغة البصرية VLM، والذي يعمل كـ" دماغ" النموذج، مدربا على تفسير أوامر البشر حتى الغامضة مثل" يرجى طي المنشفة"، وفهم العلاقات المكانية من المدخلات البصرية عالية الدقة، كما يتولى هذا المكون مهام الكشف عن الأشياء، الإجابة على الأسئلة البصرية، والاستدلال المنطقي.

أما المكون الثاني فهو خبير الحركة Action Expert، المبني على Diffusion Transformer متعدد الطبقات DiT، والذي لا يكتفي بإصدار حركة واحدة في كل مرة، بل ينتج كتلة حركة، أي سلسلة متتابعة من الحركات الدقيقة، باستخدام تقنيات مطابقة التدفق لضمان دقة وسلاسة الحركة.

وتشير شاومي إلى أنها تجاوزت أحد التحديات الكبرى في نماذج VLA، وهو فقدان القدرات الإدراكية أثناء تعلم الحركة، عبر تدريب النموذج على البيانات متعددة الوسائط جنبا إلى جنب مع البيانات الحركية، ما مكن النظام من التفكير حول العالم مع اكتساب القدرة على التحرك فيه بسلاسة.

يتم تدريب نموذج Xiaomi-Robotics-0 على مراحل دقيقة، تبدأ بأولى آليات اقتراح الحركة Action Proposal، التي تجبر نموذج VLM على توقع توزيع الحركات المحتملة أثناء تفسير الصور، ما يساعد على مواءمة تمثيلات النموذج الداخلية مع طريقة تنفيذ الحركات فعليا.

بعد هذه المرحلة، يجمد نموذج VLM، ويدرب DiT بشكل منفصل لإنتاج تسلسلات حركة دقيقة باستخدام خصائص key-value بدلا من الرموز اللغوية التقليدية، لضمان تنفيذ الحركات بسلاسة وفعالية.

كما تعاملت شاومي مع تحدي تأخر الاستدلال Inference Latency، الذي قد يؤدي إلى توقفات أو سلوك غير مستقر أثناء الحركة، عبر تطبيق استدلال غير متزامن يفصل بين حساب النموذج وتشغيل الروبوت، ما يضمن استمرار الحركة بسلاسة حتى عند بطء معالجة النموذج.

ولتحسين استقرار الحركة، تستخدم الشركة تقنية Clean Action Prefix لإعادة إدخال الحركة السابقة للنموذج، مما يمنع ارتجاف الحركات مع مرور الوقت، إضافة إلى قناع انتباه يركز على المدخلات البصرية الحالية بدل الاعتماد على الحالات السابقة، ما يعزز استجابة الروبوت للتغيرات المفاجئة في البيئة.

في الاختبارات، سجل نموذج Xiaomi-Robotics-0 أداء متقدما على محاكيات LIBERO وCALVIN وSimplerEnv، متفوقا على نحو 30 نموذجا آخر، ما يعكس قوة قدراته في الجمع بين الفهم البصري واتخاذ القرار والتنفيذ الحركي.

وفي العالم الحقيقي، اختبرت شاومي النموذج على روبوت ذي ذراعين في مهام طويلة المدى مثل طي المنشف وفك المكعبات البنائية، حيث أظهر الروبوت تنسيقا ثابتا بين اليد والعين وتمكن من التعامل مع الأجسام الصلبة والمرنة دون أي أعطال واضحة.

وعلى عكس أنظمة VLA السابقة التي كانت تفقد جزءا من قدراتها الإدراكية أثناء تعلم الحركة، حافظ نموذج Robotics-0 على قدرات قوية في الرؤية واللغة، لا سيما في المهام التي تجمع بين الإدراك والتفاعل الفيزيائي.

تطبيق مرصد

تابع آخر تطورات الخبر لحظة بلحظة عبر تطبيق مرصد

تعليقات وتحليلات قراء مرصد
تنبيهات عاجلة بآخر التطورات
مصادر موثوقة وشاملة

احصل على تغطية شاملة للأخبار السياسية والتحليلات العميقة من مصادر متنوعة وموثوقة. تفاعل مع الخبر عبر التعليقات والمشاركة، وكن أول من يعلم بآخر التطورات.

حمّل تطبيق مرصد الآن مجاناً على Google Play

التعليقات (0)

لا توجد تعليقات حتى الآن. كن أول من يعلق!

أضف تعليقك