Published on:
ארכיטקטורת VLA צוברת תאוצה בנהיגה חכמה, כאשר הוויכוח בתעשייה עובר מ'מלחמות ארכיטקטורה' להתכנסות יכולות
הקצב המהיר של הפיתוח בתעשיית הרכבים החכמים בסין מעצב מחדש את האופן שבו טכנולוגיות ליבה נתפסות. מסגרת שפעם תוארה כ"כוכב הדור הבא" תויגה, תוך פחות משנה, על ידי חלק מהמבקרים כ"ארכיטקטורה מפושטת". המסגרת הזו היא VLA (Vision-Language-Action), כיום אחת הגישות המדוברות ביותר בנהיגה מסייעת ואוטונומית.

מרובוטיקה לכלי רכב
המושג VLA נכנס לדיון הציבורי ביולי 2023, בעקבות שחרור מודל RT-2 של DeepMind לשליטה רובוטית. בתוך חודשים ספורים בלבד, מפתחי נהיגה אוטונומית מוקדמים התאימו את קונספט ה-VLA — שתוכנן במקור עבור אינטליגנציה מגולמת — לתחום הרכב, כשהם נמשכים לפוטנציאל שלו למפות תפיסה גולמית ישירות לפעולות נהיגה.
עד שנת 2025, מערכות נהיגה מסייעת מרובות המבוססות על עקרונות VLA נכנסו לפריסה בעולם האמיתי. VLA הפך מאז לאחד המסלולים הטכניים העיקריים, אם כי לא היחיד.

מודלי עולם ו-VLA: פחות שונים ממה שהם נראים
במבט ראשון, שתי הגישות — מודלי עולם ו-VLA — נראות מנוגדות מיסודן. מודלי עולם מדגישים שחזור של העתק דיגיטלי של הסביבה הפיזית, בעוד VLA מדגיש למידת קצה-אל-קצה מתפיסה לפעולה.
עם זאת, בדיקה מעמיקה יותר מגלה ששניהם, בבסיסם, הם יישומים הנדסיים של אותה פרדיגמה: רשתות נוירונים בשילוב עם למידת חיזוק.
ההבדל טמון יותר בדגשים — מודלי עולם מתמקדים בשחזור סביבה מפורש, בעוד VLA מדגיש יצירת פעולה — אך המכניקה הבסיסית דומה להפליא.

פריסה מעשית: מודל הנהג VLA של Li Auto
בקרב יצרניות הרכב, Li Auto מוכרת נרחב כראשונה שפרסה מודל נהג מבוסס VLA בקנה מידה רחב. מאז ההשקה המלאה הראשונית שלו, המערכת כבר עברה מספר סבבי פיתוח, כאשר העדכונים האחרונים הועברו באמצעות OTA 8.1.
על פי נתוני נהיגה מהעולם האמיתי, מודל הנהג VLA מציג בקרת תנועה חלקה יותר ולוגיקת נהיגה דמוית אדם יותר. שיפור זה נובע מכמה קפיצות טכניות:
- יכולת הרחבה (Scalability): כמעט הכפלה של הפרמטרים המופעלים במודל לכ-4 מיליארד.
- ביצועים: תדירות פלט מסלול מוגברת של 10 Hz, המפחיתה משמעותית את זמן ההשהיה.
- הסקה (Reasoning): הסקה מרחבית בתלת-ממד חזקה יותר בתרחישי "משא ומתן" תעבורתי.

מעבר לנהיגה מסייעת: לעבר סוכני AI
יישומים מתקדמים יותר מדגישים את הפוטנציאל לטווח ארוך של VLA. בסביבות חצי סגורות כגון פארקים תעשייתיים, המערכת יכולה להסיק את כוונת המשתמש ללא קלט ניווט מפורש, תוך הסתמכות על הסקה סמנטית וזיכרון לטווח ארוך.
יכולות אלו מצביעות על התפתחות ה-VLA לכדי סוכן AI ולא רק פונקציית נהיגה מוגדרת בצורה צרה — כזו המסוגלת ללמוד, לזכור ולהתאים אסטרטגיות בהתאם לתנאים משתנים.

התכנסות, לא החלפה
משקיפים בתעשייה טוענים יותר ויותר כי העתיד של הנהיגה המסייעת עשוי שלא להיות תלוי בהחלפת ארכיטקטורה אחת באחרת, אלא באופטימיזציה עמוקה של מסגרות קיימות.
נראה כי VLA ומודלי עולם מתכנסים לעבר מטרה משותפת: אינטליגנציה ניתנת להרחבה ולהכללה עבור נהיגה. הוויכוח עובר בהדרגה מ"איזו ארכיטקטורה מנצחת" לשאלה באיזו מהירות ניתן לשפר את הביצועים בעולם האמיתי תחת מגבלות מעשיות.
