Published on: 2026-03-13T09:27:33.000Z

La arquitectura VLA gana impulso en la conducción inteligente, mientras el debate de la industria pasa de las 'guerras de arquitectura' a la convergencia de capacidades

El rápido ritmo de desarrollo en la industria de vehículos inteligentes de China está remodelando cómo se perciben las tecnologías centrales. Un marco descrito una vez como una “estrella de próxima generación” ha sido etiquetado por algunos críticos, en menos de un año, como una “arquitectura simplificada”. Ese marco es VLA (Visión-Lenguaje-Acción), ahora uno de los enfoques más discutidos en la conducción asistida y automatizada.

Visualización del concepto de arquitectura VLA

De la robótica a los automóviles

El concepto de VLA entró en la discusión pública en julio de 2023, tras el lanzamiento por parte de DeepMind del modelo RT-2 para el control robótico. En solo unos meses, los primeros desarrolladores de conducción autónoma adaptaron el concepto VLA —diseñado originalmente para la inteligencia física— al dominio automotriz, atraídos por su potencial para mapear la percepción bruta directamente a acciones de conducción.

Para 2025, múltiples sistemas de conducción asistida basados en los principios de VLA habían entrado en despliegue en el mundo real. Desde entonces, VLA se ha convertido en una de las rutas técnicas principales, aunque no la única.

Transición de la robótica DeepMind RT-2 a la automoción

Modelos de Mundo y VLA: Menos diferentes de lo que parecen

A primera vista, los dos enfoques —Modelos de Mundo y VLA— parecen fundamentalmente opuestos. Los modelos de mundo enfatizan la reconstrucción de una réplica digital del entorno físico, mientras que VLA destaca el aprendizaje de percepción a acción de extremo a extremo.

Sin embargo, una inspección más cercana revela que ambos son, en su esencia, implementaciones de ingeniería del mismo paradigma: redes neuronales combinadas con aprendizaje por refuerzo.

La diferencia reside más en el énfasis: los modelos de mundo se centran en la reconstrucción explícita del entorno, mientras que VLA enfatiza la generación de acciones, pero la mecánica subyacente es notablemente similar.

Comparación entre los paradigmas de Modelos de Mundo y VLA

Despliegue práctico: El modelo de conductor VLA de Li Auto

Entre los fabricantes de automóviles, Li Auto es ampliamente reconocido como el primero en desplegar a escala un modelo de conductor basado en VLA. Desde su lanzamiento inicial completo, el sistema ya ha pasado por múltiples iteraciones, con actualizaciones recientes entregadas a través de OTA 8.1.

Según los datos de conducción del mundo real, el modelo de conductor VLA demuestra un control de movimiento más fluido y una lógica de conducción más humana. Esta mejora proviene de varios saltos técnicos:

Escalabilidad: Casi se duplicaron los parámetros del modelo activado a alrededor de 4 mil millones.
Rendimiento: Aumento de la frecuencia de salida de la trayectoria a 10 Hz, reduciendo significativamente la latencia.
Razonamiento: Un razonamiento espacial 3D más sólido en escenarios de “negociación” de tráfico.

Interfaz del modelo de conductor Li Auto OTA 8.1

Más allá de la conducción asistida: Hacia los agentes de IA

Las aplicaciones más avanzadas resaltan el potencial a largo plazo de VLA. En entornos semicerrados, como parques industriales, el sistema puede inferir la intención del usuario sin una entrada de navegación explícita, confiando en el razonamiento semántico y la memoria a largo plazo.

Estas capacidades apuntan a que VLA evolucione hacia un agente de IA en lugar de una función de conducción estrictamente definida, capaz de aprender, recordar y adaptar estrategias basadas en condiciones cambiantes.

Lógica de inferencia de intención del agente de IA VLA

Convergencia, no reemplazo

Los observadores de la industria argumentan cada vez más que el futuro de la conducción asistida puede no depender de reemplazar una arquitectura por otra, sino de la optimización profunda de los marcos existentes.

VLA y los modelos de mundo parecen estar convergiendo hacia un objetivo compartido: inteligencia escalable y generalizable para la conducción. El debate se está desplazando gradualmente de “qué arquitectura gana” hacia qué tan rápido puede mejorar el rendimiento en el mundo real bajo restricciones prácticas.

Convergencia de capacidades en la industria de vehículos inteligentes