نتفليكس تطور نموذجاً ذكياً لإزالة عناصر من المشاهد بعد المونتاج

كشفت نتفليكس عن نموذج ذكاء اصطناعي جديد يحمل اسم VOID، يستهدف تطوير قدرات الذكاء الاصطناعي في تحرير الفيديو، خاصة في إزالة العناصر من المشاهد مع الحفاظ على منطقية التفاعلات الفيزيائية، وهي واحدة من أبرز نقاط الضعف في النماذج الحالية.

وأفادت ورقة بحثية نشرتها نتفليكس، بأن الأساليب الحالية لإزالة العناصر من الفيديو تحقق أداءً قويًا في مهام الاستكمال البصري (Inpainting)، إذ يمكنها إعادة بناء المحتوى" خلف" العنصر المحذوف، إلى جانب تصحيح العيوب المرتبطة بالمظهر مثل الظلال والانعكاسات.

لكن هذه النماذج تفشل عندما يكون العنصر المحذوف جزءًا من تفاعلات فيزيائية معقدة داخل المشهد، مثل الاصطدام بأجسام أخرى أو التأثير على حركتها، إذ تعجز عن تعديل هذه التفاعلات بشكل منطقي، ما يؤدي إلى نتائج غير واقعية بصريًا.

ويعتمد نموذج VOID نهجًا مختلفًا قائمًا على تنفيذ استكمال بصري يأخذ في الاعتبار القوانين الفيزيائية، إذ لا يقتصر دوره على حذف العنصر فقط، بل يعيد توليد المشهد بالكامل كما لو أن العنصر المحذوف لم يكن موجودًا من الأساس، مع إعادة بناء التفاعلات الفيزيائية الناتجة عن غيابه بشكل متماسك.

تبدأ آلية عمل النظام بتفاعل مباشر من المستخدم، الذي يحدد العنصر المراد إزالته من الفيديو.

بعد ذلك، يستخدم النظام نموذجًا يجمع بين الرؤية الحاسوبية واللغة لتحليل المشهد وتحديد المناطق الأخرى التي يمكن أن تتأثر طبيعتها بحذف هذا العنصر، مثل الأجسام التي ربما تسقط أو تصطدم أو تغيّر مسارها.

ويعمل النموذج على ترميز هذه المناطق ضمن قناع جرافيكي خاص يُعرف باسم" Quadmask"، والذي يُستخدم لاحقًا لتوجيه نموذج توليدي يعتمد على تقنيات الانتشار، من أجل إنتاج نسخة" افتراضية بديلة" من الفيديو توضح كيف كان سيبدو المشهد في حال عدم وجود العنصر، مع الحفاظ على الاتساق الفيزيائي للحركة والتفاعلات.

يعمل النظام عبر مرحلتين متكاملتين، تنتج المرحلة الأولى فيديو جديدًا يتم فيه حذف العنصر وإعادة ضبط التفاعلات المرتبطة به بشكل منطقي.

وفي حال ظهور تشوهات في شكل الأجسام، وهي مشكلة معروفة في نماذج الفيديو التوليدية، تبدأ المرحلة الثانية التي تعيد تنفيذ العملية باستخدام طريقة معدّلة وفق تدفق الحركة المستخلص من المرحلة الأولى، ما يساعد على تثبيت شكل العناصر أثناء حركتها ضمن المسارات الجديدة التي جرى توليدها، ويؤدي ذلك إلى نتائج أكثر استقرارًا.

ولأغراض التدريب، اعتمدت الدراسة على إنشاء مجموعة بيانات جديدة تتضمن أمثلة مزدوجة لعمليات إزالة عناصر في سيناريوهات افتراضية بديلة، باستخدام نظام Kubric لتوليد بيانات صناعية تحاكي التفاعلات الفيزيائية، إلى جانب HUMOTO لتمثيل حركات البشر داخل الفيديو.

وتضم كل عينة في البيانات الفيديو الأصلي، وقناع Quadmask الذي يحدد المناطق المتأثرة، إضافة إلى الفيديو الناتج المتوقع الذي يمثل الحقيقة المرجعية.

وأظهرت نتائج التجارب، التي شملت بيانات صناعية وأخرى واقعية، أن إطار VOID يتفوق على عدد من النماذج الحالية في الحفاظ على ديناميكيات المشهد بعد إزالة العناصر، بما في ذلك ProPainter وDiffuEraser وRunway وMiniMax-Remover وROSE وGen-Omnimatte.

ويتيح النظام واجهة مقارنة تفاعلية تسمح للمستخدمين بمقارنة الفيديو الأصلي، مع القناع، بمخرجات النماذج المختلفة عبر أداة تمرير تفاعلية.