Published on:
معمارية VLA بتكتسب زخم في السواقة الذكية، مع تحول الجدل في الصناعة من 'حروب المعمارية' لتقارب القدرات
السرعة الرهيبة في تطوير صناعة السيارات الذكية في الصين بتغير نظرتنا للتقنيات الأساسية. الهيكل اللي كان بيتوصف من أقل من سنة بأنه "نجم الجيل الجاي"، دلوقتي بقى بيتوصف من بعض النقاد بأنه "هيكل مبسط". الهيكل ده هو VLA (Vision-Language-Action)، واللي بقى واحد من أكتر الأساليب اللي بيتم مناقشتها في مجال القيادة المساعدة والآلية.

من الروبوتات للسيارات
مفهوم الـ VLA دخل في دايرة النقاش العام في يوليو 2023، بعد ما DeepMind أطلقت موديل RT-2 للتحكم في الروبوتات. وفي خلال شهور قليلة، مطورين القيادة الذاتية الأوائل قدروا يطبقوا مفهوم الـ VLA — اللي كان متصمم أصلاً للذكاء المتجسد — في مجال السيارات، وده بسبب قدرته على ربط الإدراك المباشر بأفعال القيادة.
وبحلول سنة 2025، دخلت كذا منظومة قيادة مساعدة بتعتمد على مبادئ الـ VLA حيز التنفيذ الفعلي. ومن وقتها، والـ VLA بقى واحد من المسارات التقنية الرئيسية، رغم إنه مش الوحيد.

نماذج العالم والـ VLA: الفرق بينهم أقل مما يبدو
للوهلة الأولى، النهجين — نماذج العالم والـ VLA — يبانوا عكس بعض تماماً. نماذج العالم بتركز على بناء نسخة رقمية للبيئة المحيطة، في حين إن الـ VLA بيركز على تعلم "الإدراك-للفعل" من البداية للنهاية (end-to-end).
لكن لو ركزنا أكتر، هنلاقي إن الاتنين في جوهرهم عبارة عن تنفيذ هندسي لنفس النموذج: الشبكات العصبية مع التعلم المعزز.
الفرق بيكمن أكتر في التركيز — نماذج العالم بتهتم أكتر بإعادة بناء البيئة بشكل صريح، أما الـ VLA فبيهتم بإنتاج الفعل — لكن الميكانيزم الأساسي في الاتنين متشابه جداً.

التطبيق العملي: موديل السائق VLA من لي أوتو
بين شركات السيارات، "لي أوتو" (Li Auto) معروفة بأنها أول شركة تطبق موديل سائق مبني على VLA على نطاق واسع. ومن ساعة الإطلاق الأول، المنظومة مرت بتحديثات كتير، وآخرها كان في التحديث OTA 8.1.
وبناءً على بيانات القيادة في العالم الحقيقي، موديل السائق VLA بيظهر سلاسة أكبر في التحكم في الحركة ومنطق قيادة أقرب للبشر. التطور ده ناتج عن قفزات تقنية أهمها:
- القابلية للتوسع: تضاعف تقريباً في عدد "بارامترات" الموديل النشطة لتوصل لحوالي 4 مليار.
- الأداء: زيادة تردد إخراج المسار لـ 10 Hz، وده قلل التأخير بشكل كبير.
- الاستنتاج: قدرة أقوى على الاستنتاج المكاني ثلاثي الأبعاد في سيناريوهات "التفاوض" المروري.

ما بعد القيادة المساعدة: نحو وكلاء الذكاء الاصطناعي
التطبيقات الأكتر تقدماً بتوضح إمكانيات الـ VLA على المدى البعيد. فمثلاً في البيئات شبه المغلقة زي المجمعات الصناعية، النظام بيقدر يستنتج نية المستخدم من غير مدخلات ملاحة صريحة، وده بالاعتماد على الاستنتاج الدلالي والذاكرة طويلة المدى.
القدرات دي بتشير لإن الـ VLA بيتطور عشان يكون وكيل ذكاء اصطناعي (AI agent) مش مجرد وظيفة قيادة محددة — بحيث يكون قادر على التعلم، والتذكر، وتطويع الاستراتيجيات بناءً على الظروف المتغيرة.

التقارب مش الاستبدال
مراقبين الصناعة بيشوفوا بشكل متزايد إن مستقبل القيادة المساعدة مش معتمد على استبدال هيكل بالتاني، لكن على التحسين العميق للهياكل الموجودة فعلاً.
الـ VLA ونماذج العالم بيبانوا كأنهم بيقربوا من هدف واحد مشترك: ذكاء قابل للتوسع والتعميم في القيادة. والنقاش دلوقتي بدأ يتحول من "أي هيكل هيكسب" لكيفية تحسين الأداء في العالم الحقيقي بسرعة في ظل القيود العملية.
