Published on: 2026-03-13T09:27:33.000Z

Kiến trúc VLA đang dần tạo được đà phát triển trong lĩnh vực lái xe thông minh, khi cuộc tranh luận trong ngành chuyển từ 'Cuộc chiến kiến trúc' sang sự hội tụ về năng lực

Tốc độ phát triển nhanh chóng của ngành công nghiệp xe thông minh tại Trung Quốc đang tái định hình cách nhìn nhận về các công nghệ cốt lõi. Một khung kiến trúc từng được mô tả là “ngôi sao thế hệ mới”, trong chưa đầy một năm, đã bị một số nhà phê bình dán nhãn là “kiến trúc đơn giản hóa”. Khung kiến trúc đó chính là VLA (Vision-Language-Action), hiện là một trong những phương pháp được thảo luận nhiều nhất trong lĩnh vực lái xe hỗ trợ và tự động.

VLA Architecture concept visualization

Từ Robot đến Ô tô

Khái niệm VLA bắt đầu được thảo luận công khai vào tháng 7 năm 2023, sau khi DeepMind phát hành mô hình RT-2 cho việc điều khiển robot. Chỉ trong vòng vài tháng, các nhà phát triển lái xe tự động đời đầu đã điều chỉnh khái niệm VLA—vốn ban đầu được thiết kế cho trí tuệ hiện thân (embodied intelligence)—vào lĩnh vực ô tô, bị thu hút bởi tiềm năng ánh xạ trực tiếp nhận thức thô sang các hành động lái xe.

Đến năm 2025, nhiều hệ thống hỗ trợ lái xe dựa trên nguyên lý VLA đã được triển khai trong thế giới thực. VLA kể từ đó đã trở thành một trong những lộ trình kỹ thuật chính thống, mặc dù không phải là duy nhất.

DeepMind RT-2 robotics to automotive transition

World Models và VLA: Ít khác biệt hơn vẻ ngoài

Thoạt nhìn, hai phương pháp—World Models và VLA—có vẻ hoàn toàn đối lập. World models (Mô hình thế giới) nhấn mạnh vào việc tái tạo một bản sao kỹ thuật số của môi trường vật lý, trong khi VLA làm nổi bật việc học từ nhận thức đến hành động theo kiểu đầu-cuối (end-to-end).

Tuy nhiên, khi xem xét kỹ hơn, cả hai về cốt lõi đều là những triển khai kỹ thuật của cùng một mô hình: mạng thần kinh kết hợp với học tăng cường (reinforcement learning).

Sự khác biệt nằm nhiều hơn ở trọng tâm—world models tập trung vào việc tái tạo môi trường rõ ràng, trong khi VLA nhấn mạnh vào việc tạo ra hành động—nhưng cơ chế cơ bản thì tương tự nhau một cách đáng kinh ngạc.

Comparison between World Models and VLA paradigms

Triển khai thực tế: Mô hình lái xe VLA của Li Auto

Trong số các nhà sản xuất ô tô, Li Auto được công nhận rộng rãi là đơn vị đầu tiên triển khai mô hình lái xe dựa trên VLA ở quy mô lớn. Kể từ lần ra mắt đầy đủ đầu tiên, hệ thống đã trải qua nhiều lần lặp lại, với các bản cập nhật gần đây được phân phối qua OTA 8.1.

Theo dữ liệu lái xe thực tế, mô hình lái xe VLA thể hiện khả năng kiểm soát chuyển động mượt mà hơn và logic lái xe giống con người hơn. Cải tiến này bắt nguồn từ một số bước nhảy vọt về kỹ thuật:

Khả năng mở rộng: Gần như gấp đôi các tham số mô hình được kích hoạt lên khoảng 4 tỷ.
Hiệu suất: Tăng tần suất đầu ra quỹ đạo lên 10 Hz, giảm đáng kể độ trễ.
Lập luận: Lập luận không gian 3D mạnh mẽ hơn trong các kịch bản "thương lượng" giao thông.

Li Auto OTA 8.1 driver model interface

Vượt xa lái xe hỗ trợ: Hướng tới AI Agents

Các ứng dụng tiên tiến hơn làm nổi bật tiềm năng dài hạn của VLA. Trong các môi trường bán khép kín như khu công nghiệp, hệ thống có thể suy luận ý định của người dùng mà không cần đầu vào điều hướng rõ ràng, dựa vào lập luận ngữ nghĩa và bộ nhớ dài hạn.

Những khả năng này cho thấy VLA đang phát triển thành một AI agent thay vì chỉ là một chức năng lái xe được định nghĩa hẹp—có khả năng học hỏi, ghi nhớ và điều chỉnh các chiến lược dựa trên các điều kiện thay đổi.

VLA AI Agent intent inference logic

Sự hội tụ, không phải sự thay thế

Các nhà quan sát trong ngành ngày càng lập luận rằng tương lai của lái xe hỗ trợ có thể không phụ thuộc vào việc thay thế kiến trúc này bằng kiến trúc khác, mà dựa trên sự tối ưu hóa sâu sắc các khung kiến trúc hiện có.

VLA và world models dường như đang hội tụ về một mục tiêu chung: trí tuệ có thể mở rộng và tổng quát hóa cho việc lái xe. Cuộc tranh luận đang dần chuyển từ "kiến trúc nào chiến thắng" sang tốc độ cải thiện hiệu suất thực tế trong các điều kiện ràng buộc thực tế.

Capability convergence in intelligent vehicle industry