Published on:
VLA 아키텍처, 지능형 주행 분야에서 탄력 확보... 업계 논쟁이 '아키텍처 전쟁'에서 '역량 융합'으로 전환
중국 지능형 자동차 산업의 급격한 발전 속도는 핵심 기술이 인식되는 방식을 재편하고 있습니다. 한때 "차세대 스타"로 묘사되었던 프레임워크가 1년도 채 되지 않아 일부 비평가들로부터 "단순화된 아키텍처"라는 꼬리표를 달게 되었습니다. 그 프레임워크는 바로 **VLA (Vision-Language-Action)**로, 현재 보조 및 자율 주행 분야에서 가장 많이 논의되는 접근 방식 중 하나입니다.

로봇 공학에서 자동차로
VLA의 개념은 DeepMind가 로봇 제어를 위한 RT-2 모델을 발표한 이후인 2023년 7월 공론화되었습니다. 불과 몇 달 만에 초기 자율 주행 개발자들은 원래 체화된 지능(embodied intelligence)을 위해 설계된 VLA 개념을 자동차 영역에 적용했으며, 이는 가공되지 않은 인식을 주행 행동으로 직접 매핑하는 잠재력에 매료되었기 때문입니다.
2025년까지 VLA 원칙에 기반한 여러 보조 주행 시스템이 실제 배포 단계에 진입했습니다. VLA는 이후 유일하지는 않지만 주류 기술 경로 중 하나가 되었습니다.

월드 모델과 VLA: 보이는 것보다 차이가 적다
얼핏 보기에 월드 모델(World Models)과 VLA라는 두 접근 방식은 근본적으로 상반되는 것처럼 보입니다. 월드 모델은 물리적 환경의 디지털 복제본을 재구성하는 것을 강조하는 반면, VLA는 엔드 투 엔드(end-to-end) 인식-행동 학습을 강조합니다.
그러나 더 자세히 살펴보면 두 방식 모두 핵심적으로는 동일한 패러다임, 즉 신경망과 강화 학습의 결합이라는 엔지니어링 구현체임을 알 수 있습니다.
차이점은 강조점의 차이에 더 가깝습니다. 월드 모델은 명시적인 환경 재구성에 초점을 맞추고 VLA는 행동 생성에 초점을 맞추지만, 그 이면의 메커니즘은 매우 유사합니다.

실제 배포 사례: 리오토(Li Auto)의 VLA 드라이버 모델
자동차 제조사 중 리오토(Li Auto)는 VLA 기반 드라이버 모델을 대규모로 배포한 최초의 기업으로 널리 인정받고 있습니다. 초기 전체 출시 이후 이 시스템은 이미 여러 번의 반복을 거쳤으며, 최근 업데이트는 OTA 8.1을 통해 제공되었습니다.
실제 주행 데이터에 따르면, VLA 드라이버 모델은 더 부드러운 모션 제어와 인간에 더 가까운 주행 로직을 보여줍니다. 이러한 개선은 다음과 같은 몇 가지 기술적 도약에서 비롯되었습니다:
- 확장성: 활성화된 모델 파라미터가 약 40억 개로 거의 두 배 증가했습니다.
- 성능: 궤적 출력 빈도가 10 Hz로 증가하여 지연 시간이 크게 단축되었습니다.
- 추론: 교통 "협상" 시나리오에서 더욱 강력해진 3D 공간 추론.

보조 주행을 넘어: AI 에이전트를 향하여
더 고도화된 애플리케이션은 VLA의 장기적인 잠재력을 강조합니다. 산업 단지와 같은 반폐쇄형 환경에서 시스템은 명시적인 내비게이션 입력 없이도 의미론적 추론과 장기 기억에 의존하여 사용자의 의도를 추론할 수 있습니다.
이러한 능력은 VLA가 좁게 정의된 주행 기능이 아닌, 변화하는 조건에 따라 학습하고 기억하며 전략을 조정할 수 있는 AI 에이전트로 진화하고 있음을 시사합니다.

대체가 아닌 수렴
업계 관찰자들은 보조 주행의 미래가 한 아키텍처를 다른 아키텍처로 대체하는 것이 아니라, 기존 프레임워크의 심층적인 최적화에 달려 있을 수 있다고 점점 더 주장하고 있습니다.
VLA와 월드 모델은 확장 가능하고 일반화 가능한 주행 지능이라는 공동의 목표를 향해 수렴하고 있는 것으로 보입니다. 논쟁은 "어떤 아키텍처가 승리하는가"에서 실질적인 제약 조건 하에서 실제 성능을 얼마나 빨리 개선할 수 있는지로 점차 옮겨가고 있습니다.
