Published on:
Apple พรีวิว Vision Pro Persona รุ่นถัดไปและสถาปัตยกรรมชิป M5 ในการสนทนาทางเทคนิคที่หาได้ยาก
Apple ได้เผยรายละเอียดที่เจาะลึกอย่างไม่เคยมีมาก่อนเกี่ยวกับอนาคตของ Vision Pro โดยเปิดเผยการอัปเดตครั้งใหญ่ในระบบ Persona, บทบาทของชิป M5 ที่กำลังจะมาถึง และทิศทางในวงกว้างของบริษัทในด้านการคำนวณเชิงพื้นที่ (spatial computing) และ AI บนอุปกรณ์
ข้อมูลเชิงลึกเหล่านี้มาจากการแลกเปลี่ยนทางเทคนิคที่หาได้ยากระหว่างสื่อและผู้นำคนสำคัญสองคนจากทีม Vision Pro ซึ่งช่วยให้เห็นภาพที่ชัดเจนขึ้นว่า Apple กำลังพัฒนา Vision Pro ให้เป็นแพลตฟอร์มการคำนวณเชิงพื้นที่ในระยะยาวอย่างไร

Persona ก้าวกระโดดครั้งสำคัญด้วย 3D Gaussian Splatting
หลังจากการเปิดตัว visionOS 2.0 ผู้ใช้สังเกตเห็นการปรับปรุงที่สำคัญในด้านความสมจริงของ Persona หัวใจสำคัญของการอัปเกรดนี้คือเทคนิคการเรนเดอร์ที่ค่อนข้างใหม่ที่เรียกว่า 3D Gaussian Splatting (3DGS)
ซึ่งแตกต่างจากกราฟิกคอมพิวเตอร์แบบดั้งเดิมที่พึ่งพาการสร้างเมช (meshes) ด้วยตนเอง 3DGS ทำงานโดยการเรียนรู้รูปทรงเรขาคณิตโดยตรงจากภาพที่จับได้ ระบบจะบันทึกวิดีโอจากหลายมุมและอนุมานโครงสร้างของใบหน้าในรูปแบบของกลุ่มองค์ประกอบ Gaussian เชิงปริมาตร—จุดรูปทรงวงรีที่มีตำแหน่ง ขนาด และความโปร่งใส
Apple ยืนยันว่าตอนนี้ Persona ใช้ แนวทางแบบ Gaussian ล้วนๆ โดยไม่มีโครงสร้างเมชแบบไฮบริด ช่วยให้การเปลี่ยนสีเป็นธรรมชาติอย่างมากและมีรายละเอียดพื้นผิวที่เมชแบบเดิมเลียนแบบได้ยาก

จากอวตาร FaceTime สู่ตัวตนดิจิทัล
วิสัยทัศน์ระยะยาวของ Apple สำหรับ Persona นั้นครอบคลุมไปไกลกว่าการวิดีโอคอลแบบธรรมดา Persona กำลังถูกพัฒนาให้เป็น ตัวแทนดิจิทัลของตัวตน (digital representation of identity) ซึ่งรวมเข้ากับสภาพแวดล้อมสามมิติโดยตรง
บริษัทยังได้เน้นย้ำถึง HUGS (Human Gaussian Splatting) ซึ่งเป็นโปรเจกต์โอเพนซอร์สที่ขยายเทคนิคนี้ไปยังอวตารแบบเต็มตัว ตัวแทนเหล่านี้สามารถติดตั้งการเคลื่อนไหวแบบโครงร่าง (skeletal animation) ได้ ช่วยให้เกิดการสื่อสารทางไกลที่สมจริง (immersive telepresence) ซึ่งผู้เข้าร่วมจะปรากฏตัวเป็นอวตารเชิงพื้นที่ขนาดเต็มตัวภายในสภาพแวดล้อมจริงของกันและกัน
ชิป M5: สถาปัตยกรรม GPU ใหม่ที่สร้างขึ้นเพื่อ AI + กราฟิก
ชิป M5 มอบประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญที่สุดผ่านการเปลี่ยนแปลงทางสถาปัตยกรรมมากกว่าการเพิ่มขนาดเพียงอย่างเดียว เป็นครั้งแรกที่คอร์ GPU แต่ละคอร์มี Neural Accelerator เฉพาะตัว
ตัวเร่งความเร็วระดับ GPU เหล่านี้ถูกออกแบบมาโดยเฉพาะสำหรับเวิร์กโหลด AI-graphics fusion เช่น:
- การลดสัญญาณรบกวนด้วย AI (AI denoising)
- วิดีโอความละเอียดสูงพิเศษ (Video super-resolution)
- การสร้างเฟรม (Frame generation)
- เอฟเฟกต์การเรนเดอร์ขั้นสูง
ก่อนหน้านี้ ข้อมูลต้องถูกเคลื่อนย้ายซ้ำแล้วซ้ำเล่าระหว่าง GPU และ NPU แต่ด้วย M5 การดำเนินการเหล่านี้สามารถทำได้เสร็จสิ้นภายใน GPU ทั้งหมด ช่วยลดความหน่วงและเพิ่มประสิทธิภาพสำหรับงานเชิงพื้นที่แบบเรียลไทม์

ทำไม Vision Pro จึงได้รับประโยชน์สูงสุดจาก M5
แม้ว่าประสิทธิภาพที่เพิ่มขึ้นบนแล็ปท็อปทั่วไปอาจจะไม่เด่นชัดนัก แต่ Vision Pro เป็นผู้ได้รับประโยชน์หลักจากสถาปัตยกรรม M5 ในฐานะชุดหูฟังแบบ Video See-Through (VST) เครื่องต้องรันงานที่ใช้ AI อย่างหนักหน่วงอย่างต่อเนื่อง ได้แก่:
- SLAM (Simultaneous Localization and Mapping)
- การทำความเข้าใจสภาพแวดล้อม (Environmental understanding)
- การลดสัญญาณรบกวนพาสทรูด้วย AI (AI-based passthrough denoising)
- การเรนเดอร์ Persona
เวิร์กโหลดเกือบทั้งหมดเหล่านี้สอดคล้องกับพอดิบพอดีกับการออกแบบ GPU ที่เสริมพลังด้วย AI ของ M5 เพื่อให้มั่นใจว่าจะได้รับประสบการณ์เชิงพื้นที่ที่ราบรื่นและมีความเที่ยงตรงสูง

ปรัชญาด้าน AI ในวงกว้างของ Apple
Apple ย้ำว่ากลยุทธ์ของบริษัทมุ่งเน้นไปที่ ความฉลาดที่เน้นอุปกรณ์เป็นศูนย์กลาง (device-centric intelligence)—การสร้างโมเดลโลกส่วนบุคคลที่คงอยู่ถาวร ซึ่งผสมผสานอินพุตภาพ ข้อมูลการเคลื่อนไหว และความเข้าใจเชิงพื้นที่
โปรเจกต์ต่างๆ เช่น FastVLM ซึ่งเป็นโมเดลภาษา-ภาพ (vision-language model) แบบโอเพนซอร์ส เป็นตัวอย่างของทิศทางนี้ โดยให้การอนุมานที่รวดเร็วและใช้พลังงานต่ำสำหรับความฉลาดที่รับรู้บริบทแบบเรียลไทม์ สิ่งนี้ก่อให้เกิดวงจรปิด: โลกแห่งความเป็นจริงจะถูกทำให้เป็นเวกเตอร์ (vectorized) ตีความโดย AI และฉายกลับเข้าไปในประสบการณ์เชิงพื้นที่ที่สมจริง
เทคโนโลยี การรับรู้ และอนาคต
แผนงาน Vision Pro ของ Apple บ่งบอกถึงความทะเยอทะยานที่ลึกซึ้งยิ่งขึ้น: การเปลี่ยนโฉมวิธีที่มนุษย์รับรู้และโต้ตอบกับความเป็นจริงผ่านการคำนวณ ด้วยการผสมผสาน AI เชิงพื้นที่ การแทนตัวตนทางดิจิทัลที่สมจริง และซิลิคอนที่สร้างขึ้นเพื่อจุดประสงค์นี้โดยเฉพาะ Apple กำลังวางตำแหน่ง Vision Pro ให้เป็นมากกว่าชุดหูฟัง—แต่เป็นการทดลองว่าระบบดิจิทัลจะสามารถเพิ่มพูนการรับรู้ของมนุษย์ได้อย่างไร
