Published on:

VLA-arkkitehtuuri saa vauhtia älykkäässä ajamisessa, kun alan keskustelu siirtyy 'arkkitehtuurisodista' kyvykkyyksien yhdenmukaistumiseen

Kehityksen nopea tahti Kiinan älykkäiden ajoneuvojen teollisuudessa muokkaa sitä, miten ydinteknologiat nähdään. Viitekehys, jota kutsuttiin kerran ”seuraavan sukupolven tähdeksi”, on alle vuodessa leimattu joidenkin kriitikoiden toimesta ”yksinkertaistetuksi arkkitehtuuriksi”. Kyseinen viitekehys on VLA (Vision-Language-Action), joka on nykyään yksi keskustelluimmista lähestymistavoista avustetussa ja automatisoidussa ajamisessa.

VLA Architecture concept visualization

Robotiikasta autoihin

VLA:n käsite tuli julkiseen keskusteluun heinäkuussa 2023 DeepMindin julkaistua RT-2-mallin robottiohjaukseen. Vain muutaman kuukauden kuluessa varhaiset autonomisen ajamisen kehittäjät mukauttivat VLA-konseptin - joka oli alun perin suunniteltu ruumiillistetulle tekoälylle - autoalalle, houkuteltuna sen kyvystä yhdistää raaka havaintodata suoraan ajotoimenpiteisiin.

Vuoteen 2025 mennessä useat VLA-periaatteisiin perustuvat avustetun ajamisen järjestelmät olivat siirtyneet todelliseen käyttöön. VLA:sta on sittemmin tullut yksi valtavirran teknisistä reiteistä, vaikkakaan ei ainoa.

DeepMind RT-2 robotics to automotive transition

Maailmanmallit ja VLA: Vähemmän erilaisia kuin miltä ne näyttävät

Ensisilmäyksellä kaksi lähestymistapaa - maailmanmallit ja VLA - vaikuttavat täysin vastakkaisilta. Maailmanmallit painottavat fyysisen ympäristön digitaalisen kopion rakentamista, kun taas VLA korostaa päästä päähän tapahtuvaa havainnosta toimintaan -oppimista.

Tarkempi tarkastelu kuitenkin paljastaa, että molemmat ovat pohjimmiltaan saman paradigman teknisiä toteutuksia: neuroverkkoja yhdistettynä vahvistusoppimiseen.

Ero on enemmänkin painotuksessa - maailmanmallit keskittyvät eksplisiittiseen ympäristön rekonstruointiin, kun taas VLA korostaa toiminnan tuottamista - mutta niiden taustalla oleva mekaniikka on huomattavan samankaltainen.

Comparison between World Models and VLA paradigms

Käytännön toteutus: Li Auton VLA-kuljettajamalli

Autonvalmistajien joukossa Li Auto tunnetaan laajalti ensimmäisenä, joka on ottanut käyttöön VLA-pohjaisen kuljettajamallin laajassa mittakaavassa. Ensimmäisen täyden julkaisunsa jälkeen järjestelmä on käynyt läpi useita iteraatioita, ja uusimmat päivitykset on toimitettu OTA 8.1:n kautta.

Todellisen ajodatan mukaan VLA-kuljettajamalli osoittaa sujuvampaa liikkeenohjausta ja ihmismäisempää ajologiikkaa. Tämä parannus johtuu useista teknisistä harppauksista:

  • Skaalautuvuus: Aktivoitujen malliparametrien lähes kaksinkertaistuminen noin 4 miljardiin.
  • Suorituskyky: Lisääntynyt liikeradan ulostulotaajuus 10 Hz, mikä vähentää viivettä merkittävästi.
  • Päättelykyky: Vahvempi 3D-tilallinen päättely liikenteen ”neuvottelutilanteissa”.

Li Auto OTA 8.1 driver model interface

Avustetun ajamisen ulkopuolella: Kohti AI-agentteja

Edistyneemmät sovellukset korostavat VLA:n pitkän aikavälin potentiaalia. Puolisuljetuissa ympäristöissä, kuten teollisuuspuistoissa, järjestelmä voi päätellä käyttäjän aikeet ilman nimenomaista navigointisyöttöä, tukeutuen semanttiseen päättelyyn ja pitkäkestoiseen muistiin.

Nämä kyvyt viittaavat siihen, että VLA on kehittymässä AI-agentiksi pikemminkin kuin kapeasti määritellyksi ajotoiminnoksi - se kykenee oppimaan, muistamaan ja mukauttamaan strategioita muuttuvien olosuhteiden mukaan.

VLA AI Agent intent inference logic

Lähentyminen, ei korvaaminen

Alan tarkkailijat väittävät yhä useammin, että avustetun ajamisen tulevaisuus ei välttämättä riipu yhden arkkitehtuurin korvaamisesta toisella, vaan olemassa olevien kehysten syvästä optimoinnista.

VLA ja maailmanmallit näyttävät lähentyvän kohti yhteistä tavoitetta: skaalautuvaa, yleistettävää älykkyyttä ajamiseen. Keskustelu on vähitellen siirtymässä pois kysymyksestä ”kumpi arkkitehtuuri voittaa” kohti sitä, kuinka nopeasti todellinen suorituskyky voi parantua käytännön rajoitteiden puitteissa.

Capability convergence in intelligent vehicle industry