Published on:

هندسة VLA تكتسب زخماً في القيادة الذكية، مع تحول النقاش في الصناعة من 'حروب الهندسة' إلى تقارب القدرات

إن الوتيرة المتسارعة للتطور في صناعة المركبات الذكية في الصين تعيد تشكيل كيفية إدراك التقنيات الأساسية. فإطار العمل الذي وُصف ذات مرة بأنه "نجم الجيل القادم" قد تم تصنيفه من قبل بعض النقاد، في أقل من عام، كـ "هيكل مبسط". هذا الإطار هو VLA (Vision-Language-Action)، والذي يعد الآن أحد أكثر الأساليب مناقشة في القيادة المساعدة والآلية.

VLA Architecture concept visualization

من الروبوتات إلى السيارات

دخل مفهوم VLA في النقاش العام في يوليو 2023، بعد إصدار DeepMind لنموذج RT-2 للتحكم في الروبوتات. وفي غضون بضعة أشهر فقط، قام مطورو القيادة الذاتية الأوائل بتكييف مفهوم VLA — الذي صُمم في الأصل للذكاء المتجسد — في مجال السيارات، مدفوعين بإمكانياته في رسم خريطة الإدراك الخام مباشرة إلى أفعال القيادة.

بحلول عام 2025، دخلت أنظمة قيادة مساعدة متعددة تعتمد على مبادئ VLA حيز التشغيل الفعلي. ومنذ ذلك الحين، أصبح VLA أحد المسارات التقنية السائدة، وإن لم يكن المسار الوحيد.

DeepMind RT-2 robotics to automotive transition

نماذج العالم وVLA: تشابه أكثر مما يبدو

للوهلة الأولى، يبدو النهجان — نماذج العالم وVLA — متناقضين تمامًا. تؤكد نماذج العالم على إعادة بناء نسخة رقمية للبيئة الفيزيائية، بينما يسلط VLA الضوء على تعلم الإدراك للفعل بشكل شامل (end-to-end).

ومع ذلك، يكشف الفحص الدقيق أن كلاهما، في جوهرهما، تنفيذات هندسية لنفس النموذج: الشبكات العصبية المدمجة مع التعلم التعزيزي.

يكمن الاختلاف بشكل أكبر في التركيز — تركز نماذج العالم على إعادة بناء البيئة بشكل صريح، بينما يركز VLA على توليد الأفعال — لكن الآليات الأساسية متشابهة بشكل ملحوظ.

Comparison between World Models and VLA paradigms

النشر العملي: نموذج سائق VLA من Li Auto

من بين صانعي السيارات، تُعرف Li Auto على نطاق واسع بأنها الأولى التي تنشر نموذج سائق يعتمد على VLA على نطاق واسع. ومنذ طرحه الكامل الأولي، خضع النظام بالفعل لعدة تحديثات، مع تقديم التحديثات الأخيرة عبر OTA 8.1.

وفقًا لبيانات القيادة في العالم الحقيقي، يُظهر نموذج سائق VLA تحكمًا أكثر سلاسة في الحركة ومنطق قيادة أكثر شبهاً بالإنسان. ينبع هذا التحسين من عدة قفزات تقنية:

  • القابلية للتوسع: مضاعفة معايير النموذج المفعلة تقريبًا لتصل إلى حوالي 4 مليار.
  • الأداء: زيادة تردد مخرجات المسار بمعدل 10 Hz، مما يقلل التأخير بشكل كبير.
  • الاستنتاج: استدلال مكاني ثلاثي الأبعاد أقوى في سيناريوهات "التفاوض" المروري.

Li Auto OTA 8.1 driver model interface

ما وراء القيادة المساعدة: نحو وكلاء الذكاء الاصطناعي

تسلط التطبيقات الأكثر تقدمًا الضوء على إمكانات VLA على المدى الطويل. في البيئات شبه المغلقة مثل المجمعات الصناعية، يمكن للنظام استنتاج نية المستخدم دون إدخال ملاحة صريح، بالاعتماد على الاستنتاج الدلالي والذاكرة طويلة المدى.

تشير هذه القدرات نحو تطور VLA إلى وكيل ذكاء اصطناعي (AI agent) بدلاً من وظيفة قيادة محددة بدقة — قادر على التعلم والتذكر وتكييف الاستراتيجيات بناءً على الظروف المتغيرة.

VLA AI Agent intent inference logic

التقارب لا الاستبدال

يجادل مراقبو الصناعة بشكل متزايد بأن مستقبل القيادة المساعدة قد لا يعتمد على استبدال هيكل بآخر، بل على التحسين العميق للأطر الحالية.

يبدو أن VLA ونماذج العالم تتقارب نحو هدف مشترك: ذكاء قابل للتوسع والتعميم للقيادة. ويتحول النقاش تدريجياً من "أي هيكل سيفوز" إلى مدى سرعة تحسن الأداء في العالم الحقيقي تحت القيود العملية.

Capability convergence in intelligent vehicle industry