Published on:

Arquitetura VLA Ganha Impulso na Condução Inteligente, à Medida que o Debate da Indústria Muda de 'Guerras de Arquitetura' para Convergência de Capacidades

O ritmo acelerado do desenvolvimento na indústria de veículos inteligentes da China está remodelando a forma como as tecnologias fundamentais são percebidas. Uma estrutura outrora descrita como uma "estrela da próxima geração" foi, em menos de um ano, rotulada por alguns críticos como uma "arquitetura simplificada". Essa estrutura é a VLA (Visão-Linguagem-Ação), agora uma das abordagens mais discutidas na condução assistida e automatizada.

Visualização do conceito da arquitetura VLA

Da Robótica para os Automóveis

O conceito de VLA entrou na discussão pública em julho de 2023, após o lançamento do modelo RT-2 pela DeepMind para controle robótico. Em apenas alguns meses, os primeiros desenvolvedores de condução autônoma adaptaram o conceito de VLA — originalmente projetado para inteligência incorporada — para o domínio automotivo, atraídos por seu potencial de mapear a percepção bruta diretamente para as ações de condução.

Até 2025, múltiplos sistemas de condução assistida baseados nos princípios VLA entraram em implantação no mundo real. Desde então, o VLA tornou-se uma das rotas técnicas convencionais, embora não a única.

Transição da robótica para o setor automotivo do DeepMind RT-2

Modelos de Mundo e VLA: Menos Diferentes do Que Parecem

À primeira vista, as duas abordagens — Modelos de Mundo e VLA — parecem fundamentalmente opostas. Os modelos de mundo enfatizam a reconstrução de uma réplica digital do ambiente físico, enquanto o VLA destaca o aprendizado de percepção para ação de ponta a ponta.

No entanto, uma inspeção mais detalhada revela que ambos são, em sua essência, implementações de engenharia do mesmo paradigma: redes neurais combinadas com aprendizado por reforço.

A diferença reside mais na ênfase — os modelos de mundo focam na reconstrução explícita do ambiente, enquanto o VLA enfatiza a geração de ações — mas a mecânica subjacente é notavelmente semelhante.

Comparação entre os paradigmas de Modelos de Mundo e VLA

Implantação Prática: O Modelo de Motorista VLA da Li Auto

Entre as montadoras, a Li Auto é amplamente reconhecida como a primeira a implantar um modelo de motorista baseado em VLA em escala. Desde a sua implementação total inicial, o sistema já passou por múltiplas iterações, com atualizações recentes entregues via OTA 8.1.

De acordo com dados de condução do mundo real, o modelo de motorista VLA demonstra um controle de movimento mais suave e uma lógica de condução mais próxima da humana. Essa melhoria decorre de vários saltos técnicos:

  • Escalabilidade: Quase duplicação dos parâmetros ativados do modelo para cerca de 4 bilhões.
  • Desempenho: Aumento da frequência de saída da trajetória para 10 Hz, reduzindo significativamente a latência.
  • Raciocínio: Raciocínio espacial 3D mais forte em cenários de "negociação" de tráfego.

Interface do modelo de motorista Li Auto OTA 8.1

Além da Condução Assistida: Rumo aos Agentes de IA

Aplicações mais avançadas destacam o potencial de longo prazo do VLA. Em ambientes semi-fechados, como parques industriais, o sistema pode inferir a intenção do usuário sem entrada de navegação explícita, baseando-se em raciocínio semântico e memória de longo prazo.

Essas capacidades apontam para a evolução do VLA para um agente de IA, em vez de uma função de condução estritamente definida — capaz de aprender, lembrar e adaptar estratégias com base nas mudanças das condições.

Lógica de inferência de intenção do Agente de IA VLA

Convergência, Não Substituição

Observadores da indústria argumentam cada vez mais que o futuro da condução assistida pode não depender da substituição de uma arquitetura por outra, mas da otimização profunda das estruturas existentes.

VLA e modelos de mundo parecem estar convergindo para um objetivo compartilhado: inteligência escalável e generalizável para a condução. O debate está gradualmente mudando de "qual arquitetura vence" para a rapidez com que o desempenho no mundo real pode melhorar sob restrições práticas.

Convergência de capacidades na indústria de veículos inteligentes