Published on:

Architektura VLA zyskuje na znaczeniu w inteligentnej jeździe, podczas gdy debata branżowa przesuwa się z „wojen architektonicznych” w stronę konwergencji możliwości

Gwałtowne tempo rozwoju chińskiej branży pojazdów inteligentnych zmienia sposób postrzegania kluczowych technologii. Framework, który jeszcze niedawno opisywano jako „gwiazdę nowej generacji”, w niecały rok został przez niektórych krytyków określony mianem „uproszczonej architektury”. Mowa o VLA (Vision-Language-Action), jednym z obecnie najczęściej omawianych podejść w dziedzinie wspomaganego i zautomatyzowanego prowadzenia pojazdów.

VLA Architecture concept visualization

Od robotyki do samochodów

Koncepcja VLA weszła do debaty publicznej w lipcu 2023 r., po wydaniu przez DeepMind modelu RT-2 do sterowania robotami. W ciągu zaledwie kilku miesięcy pionierzy systemów autonomicznej jazdy dostosowali koncepcję VLA - pierwotnie zaprojektowaną dla inteligencji ucieleśnionej - do domeny motoryzacyjnej, przyciągnięci jej potencjałem bezpośredniego mapowania surowej percepcji na działania za kierownicą.

Do 2025 roku wiele systemów wspomagania jazdy opartych na zasadach VLA trafiło do rzeczywistego użytku. Od tego czasu VLA stało się jednym z głównych nurtów technologicznych, choć nie jedynym.

DeepMind RT-2 robotics to automotive transition

Modele Świata i VLA: Mniej różnic niż się wydaje

Na pierwszy rzut oka oba podejścia - Modele Świata (World Models) i VLA - wydają się fundamentalnie sprzeczne. Modele świata kładą nacisk na rekonstrukcję cyfrowej repliki fizycznego otoczenia, podczas gdy VLA podkreśla uczenie typu end-to-end od percepcji do działania.

Jednak bliższa analiza pokazuje, że oba rozwiązania są w swej istocie implementacjami inżynieryjnymi tego samego paradygmatu: sieci neuronowych połączonych z uczeniem ze wzmocnieniem.

Różnica polega bardziej na akcentach - modele świata skupiają się na jawnej rekonstrukcji otoczenia, podczas gdy VLA kładzie nacisk na generowanie działań - ale mechanizmy leżące u ich podstaw są uderzająco podobne.

Comparison between World Models and VLA paradigms

Praktyczne wdrożenie: Model kierowcy VLA firmy Li Auto

Wśród producentów samochodów Li Auto jest powszechnie uznawane za pierwszą firmę, która wdrożyła na dużą skalę model kierowcy oparty na VLA. Od czasu pierwszego pełnego wdrożenia, system przeszedł już wiele iteracji, a ostatnie aktualizacje dostarczono poprzez OTA 8.1.

Według danych z rzeczywistej jazdy, model kierowcy VLA wykazuje płynniejszą kontrolę ruchu i bardziej ludzką logikę prowadzenia. Ta poprawa wynika z kilku skoków technologicznych:

  • Skalowalność: Prawie dwukrotne zwiększenie liczby aktywnych parametrów modelu do około 4 miliardów.
  • Wydajność: Zwiększona częstotliwość generowania trajektorii wynosząca 10 Hz, co znacznie redukuje opóźnienia.
  • Wnioskowanie: Silniejsze wnioskowanie przestrzenne 3D w scenariuszach „negocjacji” w ruchu drogowym.

Li Auto OTA 8.1 driver model interface

Poza wspomaganiem jazdy: W stronę agentów AI

Bardziej zaawansowane aplikacje podkreślają długofalowy potencjał VLA. W środowiskach półzamkniętych, takich jak parki przemysłowe, system może wnioskować o intencjach użytkownika bez wyraźnych danych nawigacyjnych, polegając na rozumowaniu semantycznym i pamięci długotrwałej.

Możliwości te wskazują na ewolucję VLA w stronę agenta AI, a nie tylko wąsko zdefiniowanej funkcji jazdy - zdolnego do uczenia się, zapamiętywania i dostosowywania strategii w zależności od zmieniających się warunków.

VLA AI Agent intent inference logic

Konwergencja, a nie zastępowanie

Obserwatorzy branżowi coraz częściej twierdzą, że przyszłość wspomaganego prowadzenia pojazdów może nie zależeć od zastępowania jednej architektury inną, lecz od głębokiej optymalizacji istniejących frameworków.

VLA i modele świata wydają się zbiegać ku wspólnemu celowi: skalowalnej, uniwersalnej inteligencji w prowadzeniu pojazdów. Debata stopniowo przesuwa się z pytania „która architektura wygra” na to, jak szybko można poprawić wydajność w świecie rzeczywistym przy uwzględnieniu praktycznych ograniczeń.

Capability convergence in intelligent vehicle industry