Published on:

L'architecture VLA gagne du terrain dans la conduite intelligente, alors que le débat de l'industrie passe de la « guerre des architectures » à la convergence des capacités

Le rythme rapide du développement de l'industrie des véhicules intelligents en Chine redéfinit la perception des technologies de base. Un cadre autrefois décrit comme une « étoile de la prochaine génération » a été, en moins d'un an, qualifié par certains critiques d'« architecture simplifiée ». Ce cadre est le VLA (Vision-Language-Action), désormais l'une des approches les plus discutées en matière de conduite assistée et automatisée.

Visualisation du concept de l'architecture VLA

De la robotique à l'automobile

Le concept de VLA est entré dans le débat public en juillet 2023, à la suite de la publication par DeepMind du modèle RT-2 pour le contrôle robotique. En seulement quelques mois, les premiers développeurs de conduite autonome ont adapté le concept VLA — initialement conçu pour l'intelligence incarnée — au domaine automobile, attirés par son potentiel à mapper directement la perception brute aux actions de conduite.

D'ici 2025, plusieurs systèmes de conduite assistée basés sur les principes VLA seront entrés en déploiement réel. Le VLA est depuis devenu l'une des voies techniques dominantes, bien qu'il ne soit pas la seule.

Transition de la robotique à l'automobile du DeepMind RT-2

Modèles du monde et VLA : moins différents qu'il n'y paraît

À première vue, les deux approches — Modèles du monde (World Models) et VLA — semblent fondamentalement opposées. Les modèles du monde mettent l'accent sur la reconstruction d'une réplique numérique de l'environnement physique, tandis que le VLA met en avant l'apprentissage de la perception à l'action de bout en bout.

Cependant, un examen plus approfondi révèle que les deux sont, à la base, des implémentations d'ingénierie du même paradigme : réseaux de neurones combinés à l'apprentissage par renforcement.

La différence réside davantage dans l'accent mis — les modèles du monde se concentrent sur la reconstruction explicite de l'environnement, tandis que le VLA privilégie la génération d'actions — mais les mécanismes sous-jacents sont remarquablement similaires.

Comparaison entre les paradigmes des modèles du monde et du VLA

Déploiement pratique : le modèle de conducteur VLA de Li Auto

Parmi les constructeurs automobiles, Li Auto est largement reconnu comme le premier à avoir déployé à grande échelle un modèle de conducteur basé sur le VLA. Depuis son déploiement initial complet, le système a déjà subi plusieurs itérations, avec des mises à jour récentes livrées via OTA 8.1.

Selon les données de conduite en conditions réelles, le modèle de conducteur VLA démontre un contrôle de mouvement plus fluide et une logique de conduite plus humaine. Cette amélioration découle de plusieurs avancées techniques :

  • Scalabilité : Près du doublement des paramètres activés du modèle pour atteindre environ 4 milliards.
  • Performance : Augmentation de la fréquence de sortie de trajectoire à 10 Hz, réduisant considérablement la latence.
  • Raisonnement : Renforcement du raisonnement spatial 3D dans les scénarios de « négociation » du trafic.

Interface du modèle de conducteur Li Auto OTA 8.1

Au-delà de la conduite assistée : vers les agents IA

Des applications plus avancées soulignent le potentiel à plus long terme du VLA. Dans des environnements semi-fermés tels que les parcs industriels, le système peut inférer l'intention de l'utilisateur sans saisie de navigation explicite, en s'appuyant sur le raisonnement sémantique et la mémoire à long terme.

Ces capacités indiquent que le VLA évolue vers un agent IA plutôt qu'une fonction de conduite étroitement définie — capable d'apprendre, de se souvenir et d'adapter des stratégies en fonction de l'évolution des conditions.

Logique d'inférence d'intention de l'agent IA VLA

Convergence, pas remplacement

Les observateurs de l'industrie soutiennent de plus en plus que l'avenir de la conduite assistée ne dépendra peut-être pas du remplacement d'une architecture par une autre, mais d'une optimisation approfondie des cadres existants.

VLA et modèles du monde semblent converger vers un objectif commun : une intelligence évolutive et généralisable pour la conduite. Le débat s'éloigne progressivement de « quelle architecture l'emporte » vers la rapidité avec laquelle les performances en conditions réelles peuvent s'améliorer sous des contraintes pratiques.

Convergence des capacités dans l'industrie des véhicules intelligents