Published on:
Arsitektur VLA Mendapatkan Momentum dalam Mengemudi Cerdas, seiring Pergeseran Debat Industri dari 'Perang Arsitektur' ke Konvergensi Kemampuan
Pesatnya laju perkembangan di industri kendaraan cerdas Tiongkok membentuk kembali cara teknologi inti dipahami. Sebuah kerangka kerja yang pernah digambarkan sebagai "bintang generasi berikutnya" dalam waktu kurang dari setahun, telah dilabeli oleh beberapa kritikus sebagai "arsitektur yang disederhanakan." Kerangka kerja tersebut adalah VLA (Vision-Language-Action), yang kini menjadi salah satu pendekatan yang paling banyak didiskusikan dalam mengemudi berbantu dan otomatis.

Dari Robotika ke Otomotif
Konsep VLA memasuki diskusi publik pada Juli 2023, menyusul rilis model RT-2 oleh DeepMind untuk kontrol robotik. Hanya dalam beberapa bulan, pengembang awal mengemudi otonom mengadaptasi konsep VLA—yang awalnya dirancang untuk kecerdasan yang diwujudkan—ke dalam ranah otomotif, tertarik oleh potensinya untuk memetakan persepsi mentah secara langsung ke tindakan mengemudi.
Pada tahun 2025, beberapa sistem mengemudi berbantu yang didasarkan pada prinsip-prinsip VLA telah memasuki penerapan di dunia nyata. Sejak saat itu, VLA telah menjadi salah satu rute teknis utama, meskipun bukan satu-satunya.

World Models dan VLA: Tidak Terlalu Berbeda Seperti Kelihatannya
Sekilas, kedua pendekatan tersebut—World Models dan VLA—tampak sangat bertolak belakang. World models menekankan rekonstruksi replika digital dari lingkungan fisik, sementara VLA menyoroti pembelajaran persepsi-ke-tindakan secara end-to-end.
Namun, pemeriksaan lebih dekat mengungkapkan bahwa keduanya, pada intinya, merupakan implementasi teknis dari paradigma yang sama: jaringan saraf yang dikombinasikan dengan pembelajaran penguatan.
Perbedaannya lebih terletak pada penekanan—world models fokus pada rekonstruksi lingkungan yang eksplisit, sementara VLA menekankan pada pembuatan tindakan—tetapi mekanika yang mendasarinya sangatlah mirip.

Studi Kasus Penerapan Praktis: Model Pengemudi VLA Li Auto
Di antara produsen mobil, Li Auto diakui secara luas sebagai yang pertama menerapkan model pengemudi berbasis VLA dalam skala besar. Sejak peluncuran penuh perdananya, sistem ini telah melalui beberapa iterasi, dengan pembaruan terkini dikirimkan melalui OTA 8.1.
Menurut data mengemudi di dunia nyata, model pengemudi VLA menunjukkan kontrol gerakan yang lebih halus dan logika mengemudi yang lebih mirip manusia. Peningkatan ini berasal dari beberapa lompatan teknis:
- Skalabilitas: Hampir menggandakan parameter model yang diaktifkan menjadi sekitar 4 miliar.
- Performa: Peningkatan frekuensi keluaran lintasan sebesar 10 Hz, yang secara signifikan mengurangi latensi.
- Penalaran: Penalaran spasial 3D yang lebih kuat dalam skenario "negosiasi" lalu lintas.

Melampaui Mengemudi Berbantu: Menuju Agen AI
Aplikasi yang lebih canggih menyoroti potensi jangka panjang VLA. Di lingkungan semi-tertutup seperti kawasan industri, sistem dapat menyimpulkan niat pengguna tanpa masukan navigasi yang eksplisit, dengan mengandalkan penalaran semantik dan memori jangka panjang.
Kemampuan ini menunjukkan arah evolusi VLA menjadi sebuah agen AI alih-alih sekadar fungsi mengemudi yang didefinisikan secara sempit—mampu belajar, mengingat, dan mengadaptasi strategi berdasarkan kondisi yang berubah.

Konvergensi, Bukan Penggantian
Para pengamat industri semakin berpendapat bahwa masa depan mengemudi berbantu mungkin tidak bergantung pada penggantian satu arsitektur dengan arsitektur lainnya, melainkan pada optimasi mendalam dari kerangka kerja yang sudah ada.
VLA dan world models tampaknya mengarah pada tujuan bersama: kecerdasan yang dapat diskalakan dan digeneralisasi untuk mengemudi. Perdebatan secara bertahap bergeser dari "arsitektur mana yang menang" ke seberapa cepat performa dunia nyata dapat ditingkatkan di bawah batasan praktis.
