Published on:

Seni Bina VLA Mendapat Momentum dalam Pemanduan Pintar, Sambil Debat Industri Beralih daripada 'Perang Seni Bina' kepada Penyatuan Keupayaan

Kepantasan pembangunan dalam industri kenderaan pintar di China sedang membentuk semula cara teknologi teras dilihat. Kerangka kerja yang pernah digambarkan sebagai "bintang generasi seterusnya" telah, dalam masa kurang dari setahun, dilabelkan oleh beberapa pengkritik sebagai "arkitektur yang dipermudahkan." Kerangka kerja tersebut ialah VLA (Vision-Language-Action), kini salah satu pendekatan yang paling banyak dibincangkan dalam pemanduan berbantu dan automatik.

VLA Architecture concept visualization

Dari Robotik ke Automobil

Konsep VLA memasuki perbincangan awam pada Julai 2023, susulan pelancaran model RT-2 oleh DeepMind untuk kawalan robotik. Dalam masa beberapa bulan sahaja, pembangun pemanduan autonomi awal menyesuaikan konsep VLA—asalnya direka untuk kecerdasan berjasad—ke dalam domain automotif, tertarik dengan potensinya untuk memetakan persepsi mentah secara langsung kepada tindakan pemanduan.

Menjelang 2025, pelbagai sistem pemanduan berbantu berdasarkan prinsip VLA telah memasuki penggunaan dunia nyata. VLA sejak itu telah menjadi salah satu laluan teknikal arus perdana, walaupun bukan satu-satunya.

DeepMind RT-2 robotics to automotive transition

Model Dunia dan VLA: Kurang Berbeza Daripada Apa Yang Kelihatan

Pada pandangan pertama, kedua-dua pendekatan—Model Dunia dan VLA—kelihatan bertentangan secara asasnya. Model dunia menekankan pembinaan semula replika digital persekitaran fizikal, manakala VLA mengetengahkan pembelajaran persepsi-ke-tindakan hujung-ke-hujung.

Walau bagaimanapun, pemeriksaan lebih dekat mendedahkan bahawa kedua-duanya, pada terasnya, adalah pelaksanaan kejuruteraan bagi paradigma yang sama: rangkaian saraf yang digabungkan dengan pembelajaran pengukuhan.

Perbezaannya lebih kepada penekanan—model dunia memberi tumpuan kepada pembinaan semula persekitaran yang eksplisit, manakala VLA menekankan penjanaan tindakan—tetapi mekanik asasnya adalah sangat serupa.

Comparison between World Models and VLA paradigms

Kajian Kes Praktikal: Model Pemandu VLA Li Auto

Dalam kalangan pengeluar kereta, Li Auto diiktiraf secara meluas sebagai yang pertama menggunakan model pemandu berasaskan VLA secara besar-besaran. Sejak pelancaran penuh awalnya, sistem ini telah melalui pelbagai lelaran, dengan kemas kini terkini dihantar melalui OTA 8.1.

Menurut data pemanduan dunia nyata, model pemandu VLA menunjukkan kawalan pergerakan yang lebih lancar dan logik pemanduan yang lebih menyerupai manusia. Peningkatan ini berpunca daripada beberapa lonjakan teknikal:

  • Kebolehskalaan: Parameter model yang diaktifkan meningkat hampir dua kali ganda kepada kira-kira 4 bilion.
  • Prestasi: Kekerapan output trajektori meningkat kepada 10 Hz, mengurangkan kependaman secara ketara.
  • Penaakulan: Penaakulan spatial 3D yang lebih kuat dalam senario "perundingan" trafik.

Li Auto OTA 8.1 driver model interface

Melampaui Pemanduan Berbantu: Ke Arah Ejen AI

Aplikasi yang lebih maju menyerlahkan potensi jangka panjang VLA. Dalam persekitaran separa tertutup seperti taman perindustrian, sistem ini boleh menyimpulkan niat pengguna tanpa input navigasi yang eksplisit, bergantung pada penaakulan semantik dan memori jangka panjang.

Keupayaan ini menunjukkan evolusi VLA menjadi sebuah ejen AI dan bukannya fungsi pemanduan yang ditakrifkan secara sempit—berkeupayaan untuk belajar, mengingati, dan menyesuaikan strategi berdasarkan keadaan yang berubah.

VLA AI Agent intent inference logic

Penumpuan, Bukan Penggantian

Pemerhati industri semakin berhujah bahawa masa depan pemanduan berbantu mungkin tidak bergantung pada penggantian satu arkitektur dengan yang lain, tetapi pada pengoptimuman mendalam kerangka kerja sedia ada.

VLA dan model dunia nampaknya sedang menumpu ke arah matlamat bersama: kecerdasan pemanduan yang boleh skala dan boleh digeneralisasikan. Perdebatan secara beransur-ansur beralih daripada "arkitektur mana yang menang" kepada seberapa cepat prestasi dunia nyata dapat dipertingkatkan di bawah kekangan praktikal.

Capability convergence in intelligent vehicle industry