Published on:

VLA 架構在智慧駕駛領域勢頭正盛,業界爭論從「架構之爭」轉向能力融合

中國智慧汽車產業的快速發展正在重塑核心技術的認知方式。一個曾被描述為「下一代明星」的架構,在不到一年的時間內,就被部分評論家標籤為「簡化架構」。該架構即為 VLA (Vision-Language-Action),現在是輔助與自動駕駛中最受討論的方法之一。

VLA Architecture concept visualization

從機器人到汽車

VLA 的概念於 2023 年 7 月隨 DeepMind 發佈用於機器人控制的 RT-2 模型而進入公眾討論。在短短幾個月內,早期的自動駕駛開發者將最初為具身智慧設計的 VLA 概念改編至汽車領域,因其具有將原始感知直接映射到駕駛動作的潛力而受到青睞。

到 2025 年,多種基於 VLA 原理的輔助駕駛系統已進入實際部署。VLA 自此成為主流技術路線之一,儘管並非唯一路徑。

DeepMind RT-2 robotics to automotive transition

世界模型與 VLA:差異比想像中更小

乍看之下,這兩種方法——世界模型 (World Models) 與 VLA——似乎根本對立。世界模型強調重建物理環境的數位副本,而 VLA 則強調端到端的感知到動作學習。

然而,進一步觀察發現,兩者在核心上都是同一範式的工程實現:神經網路結合強化學習。

差異主要在於側重點——世界模型專注於顯式的環境重建,而 VLA 則強調動作生成——但底層機制卻極其相似。

Comparison between World Models and VLA paradigms

實際部署:理想汽車的 VLA 駕駛模型

在汽車製造商中,理想汽車 (Li Auto) 被廣泛認為是首個大規模部署基於 VLA 駕駛模型的企業。自最初全面推出以來,該系統已經歷了多次迭代,最近的更新透過 OTA 8.1 交付。

根據實際駕駛數據,VLA 駕駛模型展現了更平滑的運動控制和更接近人類的駕駛邏輯。這種改進源於多項技術飛躍:

  • 可擴展性: 激活的模型參數接近翻倍,達到約 40 億
  • 性能: 軌跡輸出頻率增加至 10 Hz,顯著降低了延遲。
  • 推理: 在交通「博弈」場景中具有更強的 3D 空間推理能力。

Li Auto OTA 8.1 driver model interface

超越輔助駕駛:邁向 AI 智能體

更先進的應用突顯了 VLA 的長期潛力。在如工業園區等半封閉環境中,系統可以在沒有明確導航輸入的情況下,依賴語義推理和長期記憶來推斷用戶意圖。

這些能力指向 VLA 正在演變成一個 AI 智能體 (AI agent),而非狹義定義的駕駛功能——具備學習、記憶並根據不斷變化的條件調整策略的能力。

VLA AI Agent intent inference logic

融合而非取代

行業觀察者日益認為,輔助駕駛的未來可能不取決於用一種架構取代另一種架構,而是在於對現有框架的深度優化。

VLA 與世界模型似乎正朝著一個共同目標融合:具備可擴展性與泛化能力的駕駛智慧。 爭論正逐漸從「哪種架構勝出」轉向在實際限制下,實際性能提升的速度有多快。

Capability convergence in intelligent vehicle industry