Published on:
VLA架构在智能驾驶领域势头强劲,行业讨论重点正从“架构之争”转向能力融合
中国智能汽车行业的飞速发展正在重塑人们对核心技术的认知。一个曾被描述为“下一代明星”的架构,在不到一年的时间里,就被一些批评者贴上了“简化架构”的标签。该架构就是 VLA (Vision-Language-Action),它是目前辅助驾驶和自动驾驶领域讨论最多的方法之一。

从机器人到汽车
VLA 的概念在 2023 年 7 月随着 DeepMind 发布用于机器人控制的 RT-2 模型而进入公众视野。在短短几个月内,早期的自动驾驶开发者将最初为具身智能设计的 VLA 概念引入到汽车领域,其将原始感知直接映射为驾驶动作的潜力吸引了他们。
到 2025 年,多个基于 VLA 原理的辅助驾驶系统已进入实际部署阶段。VLA 此后成为主流技术路线之一,尽管并非唯一路线。

世界模型与 VLA:差异比看起来要小
乍一看,世界模型和 VLA 这两种方法似乎根本对立。世界模型强调重建物理环境的数字副本,而 VLA 则强调端对端的感知到动作的学习。
然而,仔细观察可以发现,两者在核心上都是同一范式的工程实现:神经网络与强化学习的结合。
区别更多在于侧重点——世界模型侧重于显式的环境重建,而 VLA 侧重于动作生成——但底层机制非常相似。

实际部署:理想汽车的 VLA 驾驶员模型
在汽车制造商中,理想汽车被广泛认为是首个大规模部署基于 VLA 的驾驶员模型的公司。自最初全面推出以来,该系统已经经历了多次迭代,最近的更新通过 OTA 8.1 推送。
根据真实驾驶数据,VLA 驾驶员模型表现出更平滑的运动控制和更像人的驾驶逻辑。这一改进源于几项技术飞跃:
- 可扩展性: 激活的模型参数接近翻倍,达到约 40 亿。
- 性能: 轨迹输出频率提高到 10 Hz,显著降低了延迟。
- 推理能力: 在交通“博弈”场景中具有更强的 3D 空间推理能力。

超越辅助驾驶:迈向 AI 智能体
更先进的应用突显了 VLA 的长期潜力。在工业园区等半封闭环境中,系统无需显式导航输入即可推断用户意图,依靠语义推理和长期记忆。
这些能力表明 VLA 正在演变成一个 AI 智能体,而不仅仅是定义狭窄的驾驶功能——它能够根据不断变化的条件进行学习、记忆和调整策略。

融合,而非取代
行业观察人士越来越多地认为,辅助驾驶的未来可能并不取决于用一种架构取代另一种架构,而在于对现有框架的深度优化。
VLA 和世界模型似乎正朝着一个共同的目标融合:可扩展、可泛化的驾驶智能。 争论正逐渐从“哪种架构胜出”转向在实际约束下实际性能提升的速度有多快。
