Published on:
VLA-Architektur gewinnt an Dynamik beim intelligenten Fahren, während sich die Branchendebatte von 'Architekturkriegen' zur Konvergenz der Fähigkeiten verlagert
Das rasante Tempo der Entwicklung in Chinas Branche der intelligenten Fahrzeuge definiert neu, wie Kerntechnologien wahrgenommen werden. Ein Framework, das einst als „Star der nächsten Generation“ beschrieben wurde, wurde in weniger als einem Jahr von einigen Kritikern als „vereinfachte Architektur“ abgestempelt. Bei diesem Framework handelt es sich um VLA (Vision-Language-Action), das derzeit einer der am meisten diskutierten Ansätze für assistiertes und automatisiertes Fahren ist.

Von der Robotik zum Automobil
Das Konzept von VLA trat im Juli 2023 in die öffentliche Diskussion ein, nach der Veröffentlichung des RT-2-Modells für die Robotersteuerung durch DeepMind. Innerhalb weniger Monate passten die frühen Entwickler des autonomen Fahrens das VLA-Konzept - das ursprünglich für verkörperte Intelligenz entwickelt wurde - auf den Automobilbereich an, angezogen von seinem Potenzial, Rohdaten der Wahrnehmung direkt auf Fahraktionen abzubilden.
Bis 2025 waren mehrere auf VLA-Prinzipien basierende Assistenzsysteme im realen Einsatz. VLA hat sich seither zu einer der wichtigsten technischen Routen entwickelt, wenngleich sie nicht die einzige ist.

Weltmodelle und VLA: Weniger unterschiedlich als sie scheinen
Auf den ersten Blick scheinen die beiden Ansätze - Weltmodelle und VLA - grundlegend gegensätzlich zu sein. Weltmodelle betonen die Rekonstruktion eines digitalen Abbilds der physischen Umgebung, während VLA das End-to-End-Lernen von Wahrnehmung zu Aktion hervorhebt.
Eine genauere Untersuchung zeigt jedoch, dass beide im Kern technische Implementierungen desselben Paradigmas sind: neuronale Netze kombiniert mit Reinforcement Learning.
Der Unterschied liegt eher in der Gewichtung - Weltmodelle konzentrieren sich auf die explizite Rekonstruktion der Umgebung, während VLA die Generierung von Aktionen betont -, aber die zugrunde liegende Mechanik ist bemerkenswert ähnlich.

Praktischer Einsatz: Das VLA-Fahrermodell von Li Auto
Unter den Automobilherstellern ist Li Auto weithin als der erste anerkannt, der ein VLA-basiertes Fahrermodell in großem Maßstab eingesetzt hat. Seit der ersten vollständigen Einführung hat das System bereits mehrere Iterationen durchlaufen, wobei die neuesten Updates via OTA 8.1 bereitgestellt wurden.
Nach realen Fahrdaten zeigt das VLA-Fahrermodell eine flüssigere Bewegungssteuerung und eine menschenähnlichere Fahrlogik. Diese Verbesserung resultiert aus mehreren technischen Sprüngen:
- Skalierbarkeit: Beinahe Verdoppelung der aktivierten Modellparameter auf etwa 4 Milliarden.
- Leistung: Erhöhte Frequenz der Trajektorienausgabe von 10 Hz, was die Latenz erheblich reduziert.
- Logik: Stärkere räumliche 3D-Schlussfolgerung in Szenarien der Verkehrs-„Verhandlung“.

Jenseits des assistierten Fahrens: Hin zu KI-Agenten
Fortgeschrittenere Anwendungen unterstreichen das langfristige Potenzial von VLA. In halbgeschlossenen Umgebungen wie Industrieparks kann das System die Absicht des Nutzers ohne explizite Navigationseingabe ableiten und verlässt sich dabei auf semantische Schlussfolgerungen und das Langzeitgedächtnis.
Diese Fähigkeiten deuten darauf hin, dass sich VLA zu einem KI-Agenten entwickelt und nicht nur eine eng definierte Fahrfunktion bleibt - fähig zu lernen, sich zu erinnern und Strategien basierend auf sich ändernden Bedingungen anzupassen.

Konvergenz statt Ablösung
Branchenbeobachter argumentieren zunehmend, dass die Zukunft des assistierten Fahrens möglicherweise nicht darin besteht, eine Architektur durch eine andere zu ersetzen, sondern in der tiefgreifenden Optimierung bestehender Frameworks.
VLA und Weltmodelle scheinen auf ein gemeinsames Ziel zuzusteuern: skalierbare, verallgemeinerbare Intelligenz für das Fahren. Die Debatte verlagert sich allmählich weg von der Frage, „welche Architektur gewinnt“, hin zu der Frage, wie schnell sich die Leistung in der realen Welt unter praktischen Bedingungen verbessern lässt.
