Published on:
VLA Architecture กำลังได้รับความนิยมในด้านการขับขี่อัจฉริยะ ขณะที่การถกเถียงในอุตสาหกรรมเปลี่ยนจาก 'สงครามสถาปัตยกรรม' ไปสู่การบรรจบกันของขีดความสามารถ
การพัฒนาอย่างรวดเร็วของอุตสาหกรรมยานยนต์อัจฉริยะในจีนกำลังปรับเปลี่ยนมุมมองที่มีต่อเทคโนโลยีหลัก เฟรมเวิร์กที่ครั้งหนึ่งเคยถูกขนานนามว่าเป็น “ดาวเด่นแห่งยุคถัดไป” กลับถูกนักวิจารณ์บางคนระบุว่าเป็น “สถาปัตยกรรมแบบย่อส่วน” ภายในเวลาไม่ถึงหนึ่งปี เฟรมเวิร์กนั้นคือ VLA (Vision-Language-Action) ซึ่งปัจจุบันเป็นหนึ่งในแนวทางที่ถูกพูดถึงมากที่สุดในระบบช่วยขับขี่และระบบขับเคลื่อนอัตโนมัติ

จากหุ่นยนต์สู่ยานยนต์
แนวคิดเรื่อง VLA เข้าสู่การพูดคุยในที่สาธารณะเมื่อเดือนกรกฎาคม 2023 หลังจากการเปิดตัวโมเดล RT-2 สำหรับการควบคุมหุ่นยนต์ของ DeepMind ภายในเวลาเพียงไม่กี่เดือน ผู้พัฒนาระบบขับเคลื่อนอัตโนมัติยุคแรกๆ ได้นำแนวคิด VLA — ซึ่งเดิมออกแบบมาสำหรับปัญญาประดิษฐ์ในร่างจำลอง (embodied intelligence) — มาปรับใช้ในโดเมนยานยนต์ โดยได้รับแรงจูงใจจากศักยภาพในการเชื่อมโยงการรับรู้ดิบเข้ากับการกระทำในการขับขี่โดยตรง
ภายในปี 2025 ระบบช่วยขับขี่หลายระบบที่ใช้หลักการ VLA ได้เข้าสู่การใช้งานจริงในโลกภายนอก ตั้งแต่นั้นมา VLA ได้กลายเป็นหนึ่งในเส้นทางเทคนิคหลัก แม้จะไม่ใช่เพียงเส้นทางเดียวก็ตาม

World Models และ VLA: แตกต่างกันน้อยกว่าที่คิด
เมื่อมองแวบแรก ทั้งสองแนวทาง — World Models และ VLA — ดูเหมือนจะสวนทางกันอย่างสิ้นเชิง World models เน้นการสร้างสภาพแวดล้อมทางกายภาพจำลองในรูปแบบดิจิทัล ขณะที่ VLA ให้ความสำคัญกับการเรียนรู้จากการรับรู้สู่การกระทำ (perception-to-action) แบบ end-to-end
อย่างไรก็ตาม การตรวจสอบอย่างใกล้ชิดพบว่าทั้งสองแนวทาง โดยพื้นฐานแล้วคือการนำวิศวกรรมของรูปแบบเดียวกันมาใช้ นั่นคือ โครงข่ายประสาทเทียมร่วมกับการเรียนรู้แบบเสริมกำลัง (reinforcement learning)
ความแตกต่างอยู่ที่จุดเน้นเป็นหลัก — world models เน้นไปที่การสร้างสภาพแวดล้อมขึ้นมาใหม่ที่ชัดเจน ขณะที่ VLA เน้นการสร้างการกระทำ — แต่กลไกพื้นฐานนั้นมีความคล้ายคลึงกันอย่างน่าทึ่ง

กรณีศึกษาการใช้งานจริง: โมเดลการขับขี่ VLA ของ Li Auto
ในบรรดาผู้ผลิตรถยนต์ Li Auto ได้รับการยอมรับอย่างกว้างขวางว่าเป็นรายแรกที่ใช้งานโมเดลการขับขี่ที่ใช้พื้นฐานจาก VLA ในวงกว้าง นับตั้งแต่การเปิดตัวอย่างเต็มรูปแบบครั้งแรก ระบบได้ผ่านการพัฒนามาแล้วหลายรุ่น โดยมีการอัปเดตล่าสุดส่งผ่านทาง OTA 8.1
จากข้อมูลการขับขี่จริง โมเดลการขับขี่ VLA แสดงให้เห็นถึงการควบคุมการเคลื่อนที่ที่ราบรื่นกว่าและตรรกะการขับขี่ที่เหมือนมนุษย์มากขึ้น การปรับปรุงนี้มาจากความก้าวหน้าทางเทคนิคหลายประการ:
- ความสามารถในการปรับขนาด (Scalability): พารามิเตอร์ของโมเดลที่เปิดใช้งานเพิ่มขึ้นเกือบเท่าตัวเป็นประมาณ 4 พันล้านพารามิเตอร์
- ประสิทธิภาพ (Performance): ความถี่ในการส่งออกเส้นทางการขับขี่เพิ่มขึ้นเป็น 10 Hz ซึ่งช่วยลดความล่าช้าได้อย่างมาก
- การใช้เหตุผล (Reasoning): การใช้เหตุผลเชิงพื้นที่แบบ 3D ที่แข็งแกร่งขึ้นในสถานการณ์ “การเจรจา” ทางจราจร

เหนือกว่าการช่วยขับขี่: สู่ AI Agents
แอปพลิเคชันที่ก้าวหน้ายิ่งขึ้นเน้นย้ำถึงศักยภาพระยะยาวของ VLA ในสภาพแวดล้อมกึ่งปิด เช่น นิคมอุตสาหกรรม ระบบสามารถอนุมานความตั้งใจของผู้ใช้ได้โดยไม่ต้องมีการป้อนข้อมูลนำทางที่ชัดเจน โดยอาศัยการให้เหตุผลเชิงความหมาย (semantic reasoning) และความจำระยะยาว
ความสามารถเหล่านี้ชี้ให้เห็นถึงการที่ VLA วิวัฒนาการไปสู่การเป็น AI agent มากกว่าจะเป็นเพียงฟังก์ชันการขับขี่ที่จำกัดความหมายไว้อย่างแคบๆ — ซึ่งสามารถเรียนรู้ จดจำ และปรับเปลี่ยนกลยุทธ์ตามเงื่อนไขที่เปลี่ยนแปลงไปได้

การหลอมรวม ไม่ใช่การแทนที่
ผู้สังเกตการณ์ในอุตสาหกรรมต่างให้ความเห็นมากขึ้นว่า อนาคตของระบบช่วยขับขี่อาจไม่ได้ขึ้นอยู่กับการแทนที่สถาปัตยกรรมหนึ่งด้วยอีกสถาปัตยกรรมหนึ่ง แต่ขึ้นอยู่กับการเพิ่มประสิทธิภาพอย่างลึกซึ้งของเฟรมเวิร์กที่มีอยู่เดิม
VLA และ world models ดูเหมือนจะหลอมรวมเข้าหาเป้าหมายร่วมกัน: ปัญญาประดิษฐ์สำหรับการขับขี่ที่สามารถขยายขนาดและครอบคลุมได้ทั่วไป การถกเถียงกำลังค่อยๆ เปลี่ยนจากการตั้งคำถามว่า “สถาปัตยกรรมใดจะเป็นผู้ชนะ” ไปสู่ความเร็วที่ประสิทธิภาพในโลกแห่งความเป็นจริงจะสามารถพัฒนาได้ภายใต้ข้อจำกัดในทางปฏิบัติ
