Published on:

VLA-архітектура набирає обертів в інтелектуальному водінні, оскільки галузеві дебати зміщуються від «воєн архітектур» до конвергенції можливостей

Швидкі темпи розвитку індустрії інтелектуальних транспортних засобів у Китаї змінюють сприйняття основних технологій. Структуру, яку колись описували як «зірку наступного покоління», менш ніж за рік деякі критики встигли охрестити «спрощеною архітектурою». Цією структурою є VLA (Vision-Language-Action), яка зараз є одним із найбільш обговорюваних підходів у сфері допоміжного та автоматизованого водіння.

Візуалізація концепції архітектури VLA

Від робототехніки до автомобілів

Концепція VLA увійшла в публічне обговорення в липні 2023 року після випуску компанією DeepMind моделі RT-2 для керування роботами. Всього за кілька місяців перші розробники систем автономного водіння адаптували концепцію VLA (спочатку розроблену для втіленого інтелекту) до автомобільної сфери, залучені її потенціалом безпосередньо відображати необроблене сприйняття в дії водіння.

До 2025 року кілька систем допоміжного водіння, заснованих на принципах VLA, були впроваджені в реальних умовах. Відтоді VLA стала одним із основних технічних напрямків, хоча й не єдиним.

Перехід DeepMind RT-2 від робототехніки до автомобільної галузі

Світові моделі та VLA: менше відмінностей, ніж здається

На перший погляд, ці два підходи — світові моделі та VLA — здаються фундаментально протилежними. Світові моделі роблять акцент на реконструкції цифрової копії фізичного середовища, тоді як VLA підкреслює наскрізне навчання від сприйняття до дії.

Проте більш детальний аналіз показує, що обидва підходи за своєю суттю є інженерними реалізаціями тієї самої парадигми: нейронних мереж у поєднанні з навчанням з підкріпленням.

Різниця полягає радше в акцентах: світові моделі зосереджені на явній реконструкції середовища, тоді як VLA — на генерації дій, проте базові механізми в них надзвичайно схожі.

Порівняння парадигм світових моделей та VLA

Практичне впровадження: модель водія VLA від Li Auto

Серед автовиробників Li Auto широко визнана першою компанією, яка масштабно розгорнула модель водія на базі VLA. З моменту першого повного впровадження система вже пройшла кілька ітерацій, а останні оновлення були доставлені через OTA 8.1.

Згідно з даними реального водіння, модель водія VLA демонструє плавніший контроль руху та більш людську логіку водіння. Це покращення стало результатом кількох технічних стрибків:

  • Масштабованість: майже двократне збільшення кількості активованих параметрів моделі до приблизно 4 мільярдів.
  • Продуктивність: підвищена частота виведення траєкторії до 10 Гц, що значно зменшує затримку.
  • Логічне мислення: краще 3D-просторове мислення в сценаріях «переговорів» у трафіку.

Інтерфейс моделі водія Li Auto OTA 8.1

Поза межами допоміжного водіння: на шляху до ШІ-агентів

Більш просунуті застосунки підкреслюють довгостроковий потенціал VLA. У напівзакритих середовищах, таких як індустріальні парки, система може визначати наміри користувача без явного введення навігації, покладаючись на семантичні міркування та довготривалу пам'ять.

Ці можливості вказують на те, що VLA еволюціонує в ШІ-агента, а не просто вузько визначену функцію водіння — здатного навчатися, запам'ятовувати та адаптувати стратегії залежно від мінливих умов.

Логіка висновку намірів ШІ-агента VLA

Конвергенція, а не заміна

Галузеві спостерігачі все частіше стверджують, що майбутнє допоміжного водіння може залежати не від заміни однієї архітектури іншою, а від глибокої оптимізації існуючих структур.

VLA та світові моделі, схоже, зближуються до спільної мети: масштабованого інтелекту для водіння, що піддається узагальненню. Дебати поступово зміщуються від питання «яка архітектура переможе» до того, як швидко можна покращити реальну продуктивність в умовах практичних обмежень.

Конвергенція можливостей в індустрії інтелектуальних транспортних засобів