Published on: 2026-03-13T09:27:33.000Z

VLA 架構在智慧駕駛領域勢頭正盛，業界爭論從「架構之爭」轉向能力融合

中國智慧汽車產業的快速發展正在重塑核心技術的認知方式。一個曾被描述為「下一代明星」的架構，在不到一年的時間內，就被部分評論家標籤為「簡化架構」。該架構即為 VLA (Vision-Language-Action)，現在是輔助與自動駕駛中最受討論的方法之一。

VLA Architecture concept visualization

從機器人到汽車

VLA 的概念於 2023 年 7 月隨 DeepMind 發佈用於機器人控制的 RT-2 模型而進入公眾討論。在短短幾個月內，早期的自動駕駛開發者將最初為具身智慧設計的 VLA 概念改編至汽車領域，因其具有將原始感知直接映射到駕駛動作的潛力而受到青睞。

到 2025 年，多種基於 VLA 原理的輔助駕駛系統已進入實際部署。VLA 自此成為主流技術路線之一，儘管並非唯一路徑。

DeepMind RT-2 robotics to automotive transition

乍看之下，這兩種方法——世界模型 (World Models) 與 VLA——似乎根本對立。世界模型強調重建物理環境的數位副本，而 VLA 則強調端到端的感知到動作學習。

然而，進一步觀察發現，兩者在核心上都是同一範式的工程實現：神經網路結合強化學習。

差異主要在於側重點——世界模型專注於顯式的環境重建，而 VLA 則強調動作生成——但底層機制卻極其相似。

Comparison between World Models and VLA paradigms

在汽車製造商中，理想汽車 (Li Auto) 被廣泛認為是首個大規模部署基於 VLA 駕駛模型的企業。自最初全面推出以來，該系統已經歷了多次迭代，最近的更新透過 OTA 8.1 交付。

根據實際駕駛數據，VLA 駕駛模型展現了更平滑的運動控制和更接近人類的駕駛邏輯。這種改進源於多項技術飛躍：

Li Auto OTA 8.1 driver model interface

更先進的應用突顯了 VLA 的長期潛力。在如工業園區等半封閉環境中，系統可以在沒有明確導航輸入的情況下，依賴語義推理和長期記憶來推斷用戶意圖。

這些能力指向 VLA 正在演變成一個 AI 智能體 (AI agent)，而非狹義定義的駕駛功能——具備學習、記憶並根據不斷變化的條件調整策略的能力。

VLA AI Agent intent inference logic

行業觀察者日益認為，輔助駕駛的未來可能不取決於用一種架構取代另一種架構，而是在於對現有框架的深度優化。

VLA 與世界模型似乎正朝著一個共同目標融合：具備可擴展性與泛化能力的駕駛智慧。 爭論正逐漸從「哪種架構勝出」轉向在實際限制下，實際性能提升的速度有多快。

Capability convergence in intelligent vehicle industry