Published on:

VLA Mimarisi Akıllı Sürüşte İvme Kazanıyor, Sektör Tartışmaları 'Mimari Savaşları'ndan Yetenek Yakınsamasına Evriliyor

Çin'in akıllı araç endüstrisindeki hızlı gelişim temposu, temel teknolojilerin nasıl algılandığını yeniden şekillendiriyor. Bir zamanlar “yeni nesil yıldız” olarak tanımlanan bir çerçeve, bir yıldan kısa bir süre içinde bazı eleştirmenler tarafından “basitleştirilmiş mimari” olarak etiketlendi. Bu çerçeve, şu anda destekli ve otonom sürüşte en çok tartışılan yaklaşımlardan biri olan VLA (Vision-Language-Action)'dır.

VLA Architecture concept visualization

Robotikten Otomobillere

VLA kavramı, DeepMind'ın robotik kontrol için RT-2 modelini yayınlamasının ardından Temmuz 2023'te kamuoyunun tartışmasına girdi. Sadece birkaç ay içinde, ilk otonom sürüş geliştiricileri, ham algıyı doğrudan sürüş eylemlerine eşleme potansiyelinden etkilenerek, başlangıçta somutlaşmış zeka için tasarlanan VLA konseptini otomotiv alanına uyarladılar.

2025 yılına gelindiğinde, VLA ilkelerine dayalı birden fazla destekli sürüş sistemi gerçek dünya uygulamalarına girdi. VLA o zamandan beri, tek olmasa da ana akım teknik rotalardan biri haline geldi.

DeepMind RT-2 robotics to automotive transition

Dünya Modelleri ve VLA: Göründüklerinden Daha Az Farklılar

İlk bakışta, iki yaklaşım—Dünya Modelleri ve VLA—temelden zıt görünüyor. Dünya modelleri fiziksel çevrenin dijital bir kopyasını yeniden oluşturmayı vurgularken, VLA uçtan uca algıdan eyleme öğrenmeyi öne çıkarıyor.

Bununla birlikte, daha yakından incelendiğinde, her ikisinin de özünde aynı paradigmanın mühendislik uygulamaları olduğu görülüyor: pekiştirmeli öğrenme ile birleştirilmiş sinir ağları.

Fark daha çok vurgu noktasındadır—dünya modelleri açık ortam yeniden inşasına odaklanırken, VLA eylem üretimine vurgu yapar—ancak temel mekanikler dikkate değer ölçüde benzerdir.

Comparison between World Models and VLA paradigms

Pratik Uygulama: Li Auto’nun VLA Sürücü Modeli

Otomobil üreticileri arasında Li Auto, VLA tabanlı bir sürücü modelini geniş ölçekte uygulayan ilk şirket olarak yaygın şekilde tanınmaktadır. İlk tam sürümünden bu yana sistem halihazırda birden fazla yinelemeden geçti ve son güncellemeler OTA 8.1 aracılığıyla sunuldu.

Gerçek dünya sürüş verilerine göre, VLA sürücü modeli daha akıcı hareket kontrolü ve daha insan benzeri sürüş mantığı sergiliyor. Bu iyileşme birkaç teknik sıçramadan kaynaklanıyor:

  • Ölçeklenebilirlik: Etkinleştirilen model parametrelerinin yaklaşık 4 milyara ulaşarak neredeyse iki katına çıkması.
  • Performans: Yörünge çıktı frekansının 10 Hz'e çıkarılması, gecikmeyi önemli ölçüde azaltıyor.
  • Muhakeme: Trafik “pazarlık” senaryolarında daha güçlü 3D mekansal muhakeme.

Li Auto OTA 8.1 driver model interface

Destekli Sürüşün Ötesinde: Yapay Zeka Ajanlarına Doğru

Daha gelişmiş uygulamalar, VLA'nın uzun vadeli potansiyelini vurguluyor. Endüstriyel parklar gibi yarı kapalı ortamlarda sistem, anlamsal muhakeme ve uzun süreli belleğe dayanarak, açık bir navigasyon girişi olmadan kullanıcı niyetini çıkarabilir.

Bu yetenekler, VLA'nın dar tanımlanmış bir sürüş fonksiyonundan ziyade, öğrenebilen, hatırlayabilen ve değişen koşullara göre stratejileri uyarlayabilen bir Yapay Zeka ajanına dönüşeceğine işaret ediyor.

VLA AI Agent intent inference logic

Yer Değiştirme Değil, Yakınsama

Sektör gözlemcileri, destekli sürüşün geleceğinin bir mimariyi diğeriyle değiştirmeye değil, mevcut çerçevelerin derinlemesine optimizasyonuna bağlı olabileceğini giderek daha fazla savunuyor.

VLA ve dünya modelleri ortak bir hedefe doğru yakınsıyor gibi görünüyor: sürüş için ölçeklenebilir, genelleştirilebilir zeka. Tartışma kademeli olarak “hangi mimarinin kazanacağından”, pratik kısıtlamalar altında gerçek dünya performansının ne kadar hızlı gelişebileceğine doğru kayıyor.

Capability convergence in intelligent vehicle industry