Published on: 2026-03-13T09:27:33.000Z

VLA架构在智能驾驶领域势头强劲，行业讨论重点正从“架构之争”转向能力融合

中国智能汽车行业的飞速发展正在重塑人们对核心技术的认知。一个曾被描述为“下一代明星”的架构，在不到一年的时间里，就被一些批评者贴上了“简化架构”的标签。该架构就是 VLA (Vision-Language-Action)，它是目前辅助驾驶和自动驾驶领域讨论最多的方法之一。

VLA 架构概念可视化

从机器人到汽车

VLA 的概念在 2023 年 7 月随着 DeepMind 发布用于机器人控制的 RT-2 模型而进入公众视野。在短短几个月内，早期的自动驾驶开发者将最初为具身智能设计的 VLA 概念引入到汽车领域，其将原始感知直接映射为驾驶动作的潜力吸引了他们。

到 2025 年，多个基于 VLA 原理的辅助驾驶系统已进入实际部署阶段。VLA 此后成为主流技术路线之一，尽管并非唯一路线。

DeepMind RT-2 从机器人到汽车的转型

乍一看，世界模型和 VLA 这两种方法似乎根本对立。世界模型强调重建物理环境的数字副本，而 VLA 则强调端对端的感知到动作的学习。

然而，仔细观察可以发现，两者在核心上都是同一范式的工程实现：神经网络与强化学习的结合。

区别更多在于侧重点——世界模型侧重于显式的环境重建，而 VLA 侧重于动作生成——但底层机制非常相似。

世界模型与 VLA 范式的对比

在汽车制造商中，理想汽车被广泛认为是首个大规模部署基于 VLA 的驾驶员模型的公司。自最初全面推出以来，该系统已经经历了多次迭代，最近的更新通过 OTA 8.1 推送。

根据真实驾驶数据，VLA 驾驶员模型表现出更平滑的运动控制和更像人的驾驶逻辑。这一改进源于几项技术飞跃：

理想汽车 OTA 8.1 驾驶员模型界面

更先进的应用突显了 VLA 的长期潜力。在工业园区等半封闭环境中，系统无需显式导航输入即可推断用户意图，依靠语义推理和长期记忆。

这些能力表明 VLA 正在演变成一个 AI 智能体，而不仅仅是定义狭窄的驾驶功能——它能够根据不断变化的条件进行学习、记忆和调整策略。

VLA AI 智能体意图推断逻辑

行业观察人士越来越多地认为，辅助驾驶的未来可能并不取决于用一种架构取代另一种架构，而在于对现有框架的深度优化。

VLA 和世界模型似乎正朝着一个共同的目标融合：可扩展、可泛化的驾驶智能。 争论正逐渐从“哪种架构胜出”转向在实际约束下实际性能提升的速度有多快。

智能汽车行业的能力融合