Published on: 2026-03-13T09:27:33.000Z

VLA आर्किटेक्चर को इंटेलिजेंट ड्राइविंग में गति मिल रही है, क्योंकि उद्योग की बहस 'आर्किटेक्चर वॉर्स' से क्षमता अभिसरण (Capability Convergence) की ओर बढ़ रही है।

चीन के इंटेलिजेंट वाहन उद्योग में विकास की तीव्र गति मुख्य तकनीकों के प्रति धारणा को नया आकार दे रही है। एक रूपरेखा (framework) जिसे कभी "अगली पीढ़ी का सितारा" बताया गया था, उसे एक साल से भी कम समय में कुछ आलोचकों द्वारा "सरलीकृत आर्किटेक्चर" करार दिया गया है। वह रूपरेखा VLA (Vision-Language-Action) है, जो अब असिस्टेड और ऑटोमेटेड ड्राइविंग में सबसे अधिक चर्चा वाले दृष्टिकोणों में से एक है।

VLA Architecture concept visualization

रोबोटिक्स से ऑटोमोबाइल तक

VLA की अवधारणा जुलाई 2023 में DeepMind द्वारा रोबोटिक नियंत्रण के लिए RT-2 मॉडल जारी करने के बाद सार्वजनिक चर्चा में आई। कुछ ही महीनों के भीतर, शुरुआती स्वायत्त ड्राइविंग डेवलपर्स ने VLA अवधारणा—जो मूल रूप से एम्बॉडीएड इंटेलिजेंस (embodied intelligence) के लिए डिज़ाइन की गई थी—को ऑटोमोटिव क्षेत्र में अपनाया, जो सीधे ड्राइविंग क्रियाओं (actions) के साथ रॉ परसेप्शन (raw perception) को मैप करने की इसकी क्षमता से आकर्षित थे।

2025 तक, VLA सिद्धांतों पर आधारित कई असिस्टेड-ड्राइविंग सिस्टम वास्तविक दुनिया में तैनात हो चुके थे। VLA तब से मुख्यधारा के तकनीकी रास्तों में से एक बन गया है, हालाँकि यह अकेला नहीं है।

DeepMind RT-2 robotics to automotive transition

वर्ल्ड मॉडल्स और VLA: दिखने की तुलना में कम भिन्न

पहली नज़र में, दो दृष्टिकोण—वर्ल्ड मॉडल्स और VLA—मौलिक रूप से विपरीत लगते हैं। वर्ल्ड मॉडल्स भौतिक वातावरण की एक डिजिटल प्रतिकृति के पुनर्निर्माण पर जोर देते हैं, जबकि VLA एंड-टू-एंड परसेप्शन-टू-एक्शन लर्निंग पर प्रकाश डालता है।

हालाँकि, करीब से निरीक्षण करने पर पता चलता है कि दोनों, अपने मूल में, एक ही प्रतिमान (paradigm) के इंजीनियरिंग कार्यान्वयन हैं: न्यूरल नेटवर्क और रीइन्फोर्समेंट लर्निंग का संयोजन।

अंतर जोर देने में अधिक है—वर्ल्ड मॉडल्स स्पष्ट वातावरण पुनर्निर्माण पर ध्यान केंद्रित करते हैं, जबकि VLA क्रिया उत्पादन (action generation) पर जोर देता है—लेकिन अंतर्निहित तंत्र उल्लेखनीय रूप से समान हैं।

Comparison between World Models and VLA paradigms

व्यावहारिक तैनाती: Li Auto का VLA ड्राइवर मॉडल

ऑटोमेकर्स के बीच, Li Auto को बड़े पैमाने पर VLA-आधारित ड्राइवर मॉडल तैनात करने वाले पहले व्यक्ति के रूप में व्यापक रूप से मान्यता प्राप्त है। इसके शुरुआती पूर्ण रोलआउट के बाद से, सिस्टम पहले ही कई पुनरावृत्तियों (iterations) से गुजर चुका है, हाल के अपडेट OTA 8.1 के माध्यम से दिए गए हैं।

वास्तविक दुनिया के ड्राइविंग डेटा के अनुसार, VLA ड्राइवर मॉडल सुगम मोशन कंट्रोल और अधिक मानव-समान ड्राइविंग लॉजिक प्रदर्शित करता है। यह सुधार कई तकनीकी छलांगों से उपजा है:

स्केलेबिलिटी: सक्रिय मॉडल पैरामीटर्स का लगभग दोगुना होकर लगभग 4 बिलियन होना।
प्रदर्शन: 10 Hz की बढ़ी हुई प्रक्षेपवक्र (trajectory) आउटपुट फ्रीक्वेंसी, जिससे लेटेंसी (latency) काफी कम हो गई है।
रीजनिंग: ट्रैफ़िक "बातचीत" (negotiation) परिदृश्यों में मजबूत 3D स्थानिक रीजनिंग।

Li Auto OTA 8.1 driver model interface

असिस्टेड ड्राइविंग से आगे: एआई एजेंट्स की ओर

अधिक उन्नत अनुप्रयोग VLA की दीर्घकालिक क्षमता को उजागर करते हैं। औद्योगिक पार्कों जैसे अर्ध-बंद वातावरणों में, सिस्टम स्पष्ट नेविगेशन इनपुट के बिना उपयोगकर्ता के इरादे का अनुमान लगा सकता है, जो सिमेंटिक रीजनिंग और दीर्घकालिक स्मृति पर निर्भर करता है।

ये क्षमताएं VLA को एक संकीर्ण रूप से परिभाषित ड्राइविंग फ़ंक्शन के बजाय एक AI agent के रूप में विकसित होने की ओर इशारा करती हैं—जो बदलती परिस्थितियों के आधार पर सीखने, याद रखने और रणनीतियों को अनुकूलित करने में सक्षम है।

VLA AI Agent intent inference logic

अभिसरण, प्रतिस्थापन नहीं

उद्योग पर्यवेक्षक तेजी से तर्क दे रहे हैं कि असिस्टेड ड्राइविंग का भविष्य एक आर्किटेक्चर को दूसरे के साथ बदलने पर नहीं, बल्कि मौजूदा फ्रेमवर्क के गहन अनुकूलन (optimization) पर निर्भर हो सकता है।

VLA और वर्ल्ड मॉडल्स एक साझा लक्ष्य की ओर अभिसरण करते दिख रहे हैं: ड्राइविंग के लिए स्केलेबल, सामान्यीकरण योग्य इंटेलिजेंस। बहस धीरे-धीरे "कौन सा आर्किटेक्चर जीतता है" से हटकर इस बात पर जा रही है कि व्यावहारिक बाधाओं के तहत वास्तविक दुनिया का प्रदर्शन कितनी जल्दी सुधर सकता है।

Capability convergence in intelligent vehicle industry