Published on:

Архитектура VLA набирает обороты в интеллектуальном вождении, по мере того как отраслевые дискуссии смещаются от «войн архитектур» к конвергенции возможностей

Стремительные темпы развития индустрии интеллектуальных автомобилей в Китае меняют представление о ключевых технологиях. Архитектура, которую еще недавно называли «звездой следующего поколения», менее чем за год получила от некоторых критиков клеймо «упрощенной архитектуры». Речь идет о VLA (Vision-Language-Action) — одном из самых обсуждаемых подходов в области вспомогательного и автоматизированного вождения.

VLA Architecture concept visualization

От робототехники к автомобилям

Концепция VLA стала предметом публичных дискуссий в июле 2023 года после выпуска компанией DeepMind модели RT-2 для управления роботами. Всего за несколько месяцев разработчики систем автономного вождения адаптировали концепцию VLA, изначально созданную для воплощенного интеллекта, к автомобильной сфере, привлеченные ее потенциалом напрямую связывать необработанные данные восприятия с действиями водителя.

К 2025 году несколько систем вспомогательного вождения, основанных на принципах VLA, начали эксплуатироваться в реальных условиях. С тех пор VLA стала одним из основных технических направлений, хотя и не единственным.

DeepMind RT-2 robotics to automotive transition

Мировые модели и VLA: меньше различий, чем кажется

На первый взгляд, два подхода — мировые модели (World Models) и VLA — кажутся принципиально противоположными. Мировые модели делают акцент на реконструкции цифровой копии физической среды, в то время как VLA выделяет сквозное обучение «от восприятия к действию».

Однако при более детальном рассмотрении оказывается, что оба подхода по своей сути являются инженерными реализациями одной и той же парадигмы: нейронных сетей в сочетании с обучением с подкреплением.

Разница заключается скорее в акцентах: мировые модели фокусируются на явной реконструкции среды, тогда как VLA делает упор на генерацию действий — но лежащая в их основе механика удивительно схожа.

Comparison between World Models and VLA paradigms

Практическое внедрение: модель водителя VLA от Li Auto

Среди автопроизводителей компания Li Auto широко признана первой, кто масштабно внедрил модель водителя на базе VLA. С момента первоначального запуска система уже прошла через несколько итераций, а последние обновления были доставлены через OTA 8.1.

Согласно данным о вождении в реальных условиях, модель водителя VLA демонстрирует более плавное управление движением и логику вождения, более похожую на человеческую. Это улучшение обусловлено несколькими техническими скачками:

  • Масштабируемость: почти двукратное увеличение количества активированных параметров модели — примерно до 4 миллиардов.
  • Производительность: увеличение частоты вывода траектории до 10 Гц, что значительно снижает задержку.
  • Рассуждение: более развитое 3D-пространственное мышление в сценариях «согласования» движения в потоке.

Li Auto OTA 8.1 driver model interface

Больше, чем вспомогательное вождение: на пути к ИИ-агентам

Более продвинутые приложения подчеркивают долгосрочный потенциал VLA. В полузакрытых пространствах, таких как промышленные парки, система может предугадывать намерения пользователя без явного ввода данных навигации, полагаясь на семантические рассуждения и долгосрочную память.

Эти возможности указывают на эволюцию VLA в сторону ИИ-агента, а не просто узкоспециализированной функции вождения — агента, способного обучаться, запоминать и адаптировать стратегии в зависимости от меняющихся условий.

VLA AI Agent intent inference logic

Конвергенция, а не замена

Отраслевые наблюдатели все чаще утверждают, что будущее вспомогательного вождения может зависеть не от замены одной архитектуры другой, а от глубокой оптимизации существующих фреймворков.

VLA и мировые модели, похоже, сближаются на пути к общей цели: масштабируемому, обобщаемому интеллекту для вождения. Дискуссия постепенно смещается от вопроса «какая архитектура победит» к тому, как быстро можно улучшить реальные показатели производительности в рамках практических ограничений.

Capability convergence in intelligent vehicle industry