من الهواتف إلى الروبوتات.. شاومي تكشف عن نموذجها الثوري Robotics-0

أعلنت شركة شاومي، عن إطلاق Xiaomi-Robotics-0، نموذج مفتوح المصدر يضم 4.

7 مليار باراميتر، مصمم لتمكين الروبوتات من فهم البيئة بصريا، استيعاب الأوامر اللغوية، وتنفيذ الحركات بشكل لحظي، وهو ما تصفه الشركة بـ" الذكاء الفيزيائي".

وبحسب شاومي، فقد سجل Xiaomi-Robotics-0 عدة أرقام قياسية خلال الاختبارات والمحاكاة الواقعية، ويعتمد النموذج على ما يعرف بـ" الحلقة المغلقة" في الروبوتات، والتي تشمل الإدراك، اتخاذ القرار، والتنفيذ.

كما يحتاج الروبوت إلى رؤية البيئة، فهم المهمة المطلوبة، وضع خطة، ثم تنفيذها بسلاسة، وتؤكد شاومي أن Robotics-0 صمم خصيصا لتحقيق توازن بين الفهم الشامل والتحكم الحركي الدقيق، لضمان أداء متقن في مختلف المهام.

يعتمد نموذج Xiaomi-Robotics-0 على معمارية Mixture-of-Transformers (MoT)، التي تقسم المهام بين مكونين رئيسيين لتحقيق توازن بين الفهم الحسي والتنفيذ الحركي.

ويتمثل المكون الأول في نموذج اللغة البصرية VLM، والذي يعمل كـ" دماغ" النموذج، مدربا على تفسير أوامر البشر حتى الغامضة مثل" يرجى طي المنشفة"، وفهم العلاقات المكانية من المدخلات البصرية عالية الدقة، كما يتولى هذا المكون مهام الكشف عن الأشياء، الإجابة على الأسئلة البصرية، والاستدلال المنطقي.

أما المكون الثاني فهو خبير الحركة Action Expert، المبني على Diffusion Transformer متعدد الطبقات DiT، والذي لا يكتفي بإصدار حركة واحدة في كل مرة، بل ينتج كتلة حركة، أي سلسلة متتابعة من الحركات الدقيقة، باستخدام تقنيات مطابقة التدفق لضمان دقة وسلاسة الحركة.

وتشير شاومي إلى أنها تجاوزت أحد التحديات الكبرى في نماذج VLA، وهو فقدان القدرات الإدراكية أثناء تعلم الحركة، عبر تدريب النموذج على البيانات متعددة الوسائط جنبا إلى جنب مع البيانات الحركية، ما مكن النظام من التفكير حول العالم مع اكتساب القدرة على التحرك فيه بسلاسة.

يتم تدريب نموذج Xiaomi-Robotics-0 على مراحل دقيقة، تبدأ بأولى آليات اقتراح الحركة Action Proposal، التي تجبر نموذج VLM على توقع توزيع الحركات المحتملة أثناء تفسير الصور، ما يساعد على مواءمة تمثيلات النموذج الداخلية مع طريقة تنفيذ الحركات فعليا.

بعد هذه المرحلة، يجمد نموذج VLM، ويدرب DiT بشكل منفصل لإنتاج تسلسلات حركة دقيقة باستخدام خصائص key-value بدلا من الرموز اللغوية التقليدية، لضمان تنفيذ الحركات بسلاسة وفعالية.

كما تعاملت شاومي مع تحدي تأخر الاستدلال Inference Latency، الذي قد يؤدي إلى توقفات أو سلوك غير مستقر أثناء الحركة، عبر تطبيق استدلال غير متزامن يفصل بين حساب النموذج وتشغيل الروبوت، ما يضمن استمرار الحركة بسلاسة حتى عند بطء معالجة النموذج.

ولتحسين استقرار الحركة، تستخدم الشركة تقنية Clean Action Prefix لإعادة إدخال الحركة السابقة للنموذج، مما يمنع ارتجاف الحركات مع مرور الوقت، إضافة إلى قناع انتباه يركز على المدخلات البصرية الحالية بدل الاعتماد على الحالات السابقة، ما يعزز استجابة الروبوت للتغيرات المفاجئة في البيئة.

في الاختبارات، سجل نموذج Xiaomi-Robotics-0 أداء متقدما على محاكيات LIBERO وCALVIN وSimplerEnv، متفوقا على نحو 30 نموذجا آخر، ما يعكس قوة قدراته في الجمع بين الفهم البصري واتخاذ القرار والتنفيذ الحركي.

وفي العالم الحقيقي، اختبرت شاومي النموذج على روبوت ذي ذراعين في مهام طويلة المدى مثل طي المنشف وفك المكعبات البنائية، حيث أظهر الروبوت تنسيقا ثابتا بين اليد والعين وتمكن من التعامل مع الأجسام الصلبة والمرنة دون أي أعطال واضحة.

وعلى عكس أنظمة VLA السابقة التي كانت تفقد جزءا من قدراتها الإدراكية أثناء تعلم الحركة، حافظ نموذج Robotics-0 على قدرات قوية في الرؤية واللغة، لا سيما في المهام التي تجمع بين الإدراك والتفاعل الفيزيائي.