Published on:
L'architettura VLA guadagna slancio nella guida intelligente, mentre il dibattito del settore si sposta dalle 'guerre tra architetture' alla convergenza delle capacità
Il rapido ritmo di sviluppo dell'industria cinese dei veicoli intelligenti sta rimodellando il modo in cui vengono percepite le tecnologie core. Un framework un tempo descritto come una "star di prossima generazione" è stato, in meno di un anno, etichettato da alcuni critici come una "architettura semplificata". Quel framework è il VLA (Vision-Language-Action), ora uno degli approcci più discussi nella guida assistita e automatizzata.

Dalla robotica alle automobili
Il concetto di VLA è entrato nel dibattito pubblico nel luglio 2023, a seguito del rilascio da parte di DeepMind del modello RT-2 per il controllo robotico. In pochi mesi, i primi sviluppatori di guida autonoma hanno adattato il concetto di VLA — originariamente progettato per l'intelligenza incarnata (embodied intelligence) — al settore automobilistico, attratti dal suo potenziale di mappare la percezione grezza direttamente in azioni di guida.
Entro il 2025, molteplici sistemi di guida assistita basati sui principi VLA sono entrati in fase di implementazione nel mondo reale. Da allora, il VLA è diventato uno dei percorsi tecnici principali, sebbene non l'unico.

World Model e VLA: Meno diversi di quanto sembrino
A prima vista, i due approcci — World Model e VLA — sembrano fondamentalmente opposti. I world model pongono l'accento sulla ricostruzione di una replica digitale dell'ambiente fisico, mentre il VLA evidenzia l'apprendimento end-to-end dalla percezione all'azione.
Tuttavia, un'analisi più attenta rivela che entrambi sono, nel profondo, implementazioni ingegneristiche dello stesso paradigma: reti neurali combinate con l'apprendimento per rinforzo.
La differenza risiede più nell'enfasi — i world model si concentrano sulla ricostruzione esplicita dell'ambiente, mentre il VLA enfatizza la generazione di azioni — ma i meccanismi sottostanti sono notevolmente simili.

Implementazione pratica: Il modello di guida VLA di Li Auto
Tra le case automobilistiche, Li Auto è ampiamente riconosciuta come la prima ad aver implementato su larga scala un modello di guida basato su VLA. Dal suo rollout iniziale completo, il sistema ha già subito diverse iterazioni, con aggiornamenti recenti distribuiti tramite OTA 8.1.
Secondo i dati di guida nel mondo reale, il modello di guida VLA dimostra un controllo del movimento più fluido e una logica di guida più simile a quella umana. Questo miglioramento deriva da diversi salti tecnologici:
- Scalabilità: Quasi il raddoppio dei parametri del modello attivati a circa 4 miliardi.
- Prestazioni: Aumento della frequenza di output della traiettoria a 10 Hz, riducendo significativamente la latenza.
- Ragionamento: Ragionamento spaziale 3D più forte negli scenari di "negoziazione" del traffico.

Oltre la guida assistita: Verso gli AI Agent
Applicazioni più avanzate evidenziano il potenziale a lungo termine del VLA. In contesti semi-chiusi come i parchi industriali, il sistema può dedurre l'intento dell'utente senza input di navigazione espliciti, affidandosi al ragionamento semantico e alla memoria a lungo termine.
Queste capacità indicano che il VLA si sta evolvendo in un AI agent piuttosto che in una funzione di guida strettamente definita — capace di imparare, ricordare e adattare strategie in base alle condizioni mutevoli.

Convergenza, non sostituzione
Gli osservatori del settore sostengono sempre più che il futuro della guida assistita potrebbe non dipendere dalla sostituzione di un'architettura con un'altra, ma dall'ottimizzazione profonda dei framework esistenti.
Il VLA e i world model sembrano convergere verso un obiettivo comune: un'intelligenza scalabile e generalizzabile per la guida. Il dibattito si sta gradualmente spostando da "quale architettura vincerà" a quanto velocemente le prestazioni nel mondo reale possano migliorare sotto vincoli pratici.
