Published on:
VLA आर्किटेक्चर को इंटेलिजेंट ड्राइविंग में गति मिल रही है, क्योंकि उद्योग की बहस 'आर्किटेक्चर वॉर्स' से क्षमता अभिसरण (Capability Convergence) की ओर बढ़ रही है।
चीन के इंटेलिजेंट वाहन उद्योग में विकास की तीव्र गति मुख्य तकनीकों के प्रति धारणा को नया आकार दे रही है। एक रूपरेखा (framework) जिसे कभी "अगली पीढ़ी का सितारा" बताया गया था, उसे एक साल से भी कम समय में कुछ आलोचकों द्वारा "सरलीकृत आर्किटेक्चर" करार दिया गया है। वह रूपरेखा VLA (Vision-Language-Action) है, जो अब असिस्टेड और ऑटोमेटेड ड्राइविंग में सबसे अधिक चर्चा वाले दृष्टिकोणों में से एक है।

रोबोटिक्स से ऑटोमोबाइल तक
VLA की अवधारणा जुलाई 2023 में DeepMind द्वारा रोबोटिक नियंत्रण के लिए RT-2 मॉडल जारी करने के बाद सार्वजनिक चर्चा में आई। कुछ ही महीनों के भीतर, शुरुआती स्वायत्त ड्राइविंग डेवलपर्स ने VLA अवधारणा—जो मूल रूप से एम्बॉडीएड इंटेलिजेंस (embodied intelligence) के लिए डिज़ाइन की गई थी—को ऑटोमोटिव क्षेत्र में अपनाया, जो सीधे ड्राइविंग क्रियाओं (actions) के साथ रॉ परसेप्शन (raw perception) को मैप करने की इसकी क्षमता से आकर्षित थे।
2025 तक, VLA सिद्धांतों पर आधारित कई असिस्टेड-ड्राइविंग सिस्टम वास्तविक दुनिया में तैनात हो चुके थे। VLA तब से मुख्यधारा के तकनीकी रास्तों में से एक बन गया है, हालाँकि यह अकेला नहीं है।

वर्ल्ड मॉडल्स और VLA: दिखने की तुलना में कम भिन्न
पहली नज़र में, दो दृष्टिकोण—वर्ल्ड मॉडल्स और VLA—मौलिक रूप से विपरीत लगते हैं। वर्ल्ड मॉडल्स भौतिक वातावरण की एक डिजिटल प्रतिकृति के पुनर्निर्माण पर जोर देते हैं, जबकि VLA एंड-टू-एंड परसेप्शन-टू-एक्शन लर्निंग पर प्रकाश डालता है।
हालाँकि, करीब से निरीक्षण करने पर पता चलता है कि दोनों, अपने मूल में, एक ही प्रतिमान (paradigm) के इंजीनियरिंग कार्यान्वयन हैं: न्यूरल नेटवर्क और रीइन्फोर्समेंट लर्निंग का संयोजन।
अंतर जोर देने में अधिक है—वर्ल्ड मॉडल्स स्पष्ट वातावरण पुनर्निर्माण पर ध्यान केंद्रित करते हैं, जबकि VLA क्रिया उत्पादन (action generation) पर जोर देता है—लेकिन अंतर्निहित तंत्र उल्लेखनीय रूप से समान हैं।

व्यावहारिक तैनाती: Li Auto का VLA ड्राइवर मॉडल
ऑटोमेकर्स के बीच, Li Auto को बड़े पैमाने पर VLA-आधारित ड्राइवर मॉडल तैनात करने वाले पहले व्यक्ति के रूप में व्यापक रूप से मान्यता प्राप्त है। इसके शुरुआती पूर्ण रोलआउट के बाद से, सिस्टम पहले ही कई पुनरावृत्तियों (iterations) से गुजर चुका है, हाल के अपडेट OTA 8.1 के माध्यम से दिए गए हैं।
वास्तविक दुनिया के ड्राइविंग डेटा के अनुसार, VLA ड्राइवर मॉडल सुगम मोशन कंट्रोल और अधिक मानव-समान ड्राइविंग लॉजिक प्रदर्शित करता है। यह सुधार कई तकनीकी छलांगों से उपजा है:
- स्केलेबिलिटी: सक्रिय मॉडल पैरामीटर्स का लगभग दोगुना होकर लगभग 4 बिलियन होना।
- प्रदर्शन: 10 Hz की बढ़ी हुई प्रक्षेपवक्र (trajectory) आउटपुट फ्रीक्वेंसी, जिससे लेटेंसी (latency) काफी कम हो गई है।
- रीजनिंग: ट्रैफ़िक "बातचीत" (negotiation) परिदृश्यों में मजबूत 3D स्थानिक रीजनिंग।

असिस्टेड ड्राइविंग से आगे: एआई एजेंट्स की ओर
अधिक उन्नत अनुप्रयोग VLA की दीर्घकालिक क्षमता को उजागर करते हैं। औद्योगिक पार्कों जैसे अर्ध-बंद वातावरणों में, सिस्टम स्पष्ट नेविगेशन इनपुट के बिना उपयोगकर्ता के इरादे का अनुमान लगा सकता है, जो सिमेंटिक रीजनिंग और दीर्घकालिक स्मृति पर निर्भर करता है।
ये क्षमताएं VLA को एक संकीर्ण रूप से परिभाषित ड्राइविंग फ़ंक्शन के बजाय एक AI agent के रूप में विकसित होने की ओर इशारा करती हैं—जो बदलती परिस्थितियों के आधार पर सीखने, याद रखने और रणनीतियों को अनुकूलित करने में सक्षम है।

अभिसरण, प्रतिस्थापन नहीं
उद्योग पर्यवेक्षक तेजी से तर्क दे रहे हैं कि असिस्टेड ड्राइविंग का भविष्य एक आर्किटेक्चर को दूसरे के साथ बदलने पर नहीं, बल्कि मौजूदा फ्रेमवर्क के गहन अनुकूलन (optimization) पर निर्भर हो सकता है।
VLA और वर्ल्ड मॉडल्स एक साझा लक्ष्य की ओर अभिसरण करते दिख रहे हैं: ड्राइविंग के लिए स्केलेबल, सामान्यीकरण योग्य इंटेलिजेंस। बहस धीरे-धीरे "कौन सा आर्किटेक्चर जीतता है" से हटकर इस बात पर जा रही है कि व्यावहारिक बाधाओं के तहत वास्तविक दुनिया का प्रदर्शन कितनी जल्दी सुधर सकता है।
