Published on:

Apple พรีวิว Vision Pro Persona รุ่นถัดไปและสถาปัตยกรรมชิป M5 ในการสนทนาทางเทคนิคที่หาได้ยาก

Apple ได้เผยรายละเอียดที่เจาะลึกอย่างไม่เคยมีมาก่อนเกี่ยวกับอนาคตของ Vision Pro โดยเปิดเผยการอัปเดตครั้งใหญ่ในระบบ Persona, บทบาทของชิป M5 ที่กำลังจะมาถึง และทิศทางในวงกว้างของบริษัทในด้านการคำนวณเชิงพื้นที่ (spatial computing) และ AI บนอุปกรณ์

ข้อมูลเชิงลึกเหล่านี้มาจากการแลกเปลี่ยนทางเทคนิคที่หาได้ยากระหว่างสื่อและผู้นำคนสำคัญสองคนจากทีม Vision Pro ซึ่งช่วยให้เห็นภาพที่ชัดเจนขึ้นว่า Apple กำลังพัฒนา Vision Pro ให้เป็นแพลตฟอร์มการคำนวณเชิงพื้นที่ในระยะยาวอย่างไร

Apple Vision Pro technical roadmap overview

Persona ก้าวกระโดดครั้งสำคัญด้วย 3D Gaussian Splatting

หลังจากการเปิดตัว visionOS 2.0 ผู้ใช้สังเกตเห็นการปรับปรุงที่สำคัญในด้านความสมจริงของ Persona หัวใจสำคัญของการอัปเกรดนี้คือเทคนิคการเรนเดอร์ที่ค่อนข้างใหม่ที่เรียกว่า 3D Gaussian Splatting (3DGS)

ซึ่งแตกต่างจากกราฟิกคอมพิวเตอร์แบบดั้งเดิมที่พึ่งพาการสร้างเมช (meshes) ด้วยตนเอง 3DGS ทำงานโดยการเรียนรู้รูปทรงเรขาคณิตโดยตรงจากภาพที่จับได้ ระบบจะบันทึกวิดีโอจากหลายมุมและอนุมานโครงสร้างของใบหน้าในรูปแบบของกลุ่มองค์ประกอบ Gaussian เชิงปริมาตร—จุดรูปทรงวงรีที่มีตำแหน่ง ขนาด และความโปร่งใส

Apple ยืนยันว่าตอนนี้ Persona ใช้ แนวทางแบบ Gaussian ล้วนๆ โดยไม่มีโครงสร้างเมชแบบไฮบริด ช่วยให้การเปลี่ยนสีเป็นธรรมชาติอย่างมากและมีรายละเอียดพื้นผิวที่เมชแบบเดิมเลียนแบบได้ยาก

3D Gaussian Splatting vs traditional mesh rendering

จากอวตาร FaceTime สู่ตัวตนดิจิทัล

วิสัยทัศน์ระยะยาวของ Apple สำหรับ Persona นั้นครอบคลุมไปไกลกว่าการวิดีโอคอลแบบธรรมดา Persona กำลังถูกพัฒนาให้เป็น ตัวแทนดิจิทัลของตัวตน (digital representation of identity) ซึ่งรวมเข้ากับสภาพแวดล้อมสามมิติโดยตรง

บริษัทยังได้เน้นย้ำถึง HUGS (Human Gaussian Splatting) ซึ่งเป็นโปรเจกต์โอเพนซอร์สที่ขยายเทคนิคนี้ไปยังอวตารแบบเต็มตัว ตัวแทนเหล่านี้สามารถติดตั้งการเคลื่อนไหวแบบโครงร่าง (skeletal animation) ได้ ช่วยให้เกิดการสื่อสารทางไกลที่สมจริง (immersive telepresence) ซึ่งผู้เข้าร่วมจะปรากฏตัวเป็นอวตารเชิงพื้นที่ขนาดเต็มตัวภายในสภาพแวดล้อมจริงของกันและกัน

ชิป M5: สถาปัตยกรรม GPU ใหม่ที่สร้างขึ้นเพื่อ AI + กราฟิก

ชิป M5 มอบประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญที่สุดผ่านการเปลี่ยนแปลงทางสถาปัตยกรรมมากกว่าการเพิ่มขนาดเพียงอย่างเดียว เป็นครั้งแรกที่คอร์ GPU แต่ละคอร์มี Neural Accelerator เฉพาะตัว

ตัวเร่งความเร็วระดับ GPU เหล่านี้ถูกออกแบบมาโดยเฉพาะสำหรับเวิร์กโหลด AI-graphics fusion เช่น:

  • การลดสัญญาณรบกวนด้วย AI (AI denoising)
  • วิดีโอความละเอียดสูงพิเศษ (Video super-resolution)
  • การสร้างเฟรม (Frame generation)
  • เอฟเฟกต์การเรนเดอร์ขั้นสูง

ก่อนหน้านี้ ข้อมูลต้องถูกเคลื่อนย้ายซ้ำแล้วซ้ำเล่าระหว่าง GPU และ NPU แต่ด้วย M5 การดำเนินการเหล่านี้สามารถทำได้เสร็จสิ้นภายใน GPU ทั้งหมด ช่วยลดความหน่วงและเพิ่มประสิทธิภาพสำหรับงานเชิงพื้นที่แบบเรียลไทม์

Apple M5 Chip GPU core with Neural Accelerator

ทำไม Vision Pro จึงได้รับประโยชน์สูงสุดจาก M5

แม้ว่าประสิทธิภาพที่เพิ่มขึ้นบนแล็ปท็อปทั่วไปอาจจะไม่เด่นชัดนัก แต่ Vision Pro เป็นผู้ได้รับประโยชน์หลักจากสถาปัตยกรรม M5 ในฐานะชุดหูฟังแบบ Video See-Through (VST) เครื่องต้องรันงานที่ใช้ AI อย่างหนักหน่วงอย่างต่อเนื่อง ได้แก่:

  • SLAM (Simultaneous Localization and Mapping)
  • การทำความเข้าใจสภาพแวดล้อม (Environmental understanding)
  • การลดสัญญาณรบกวนพาสทรูด้วย AI (AI-based passthrough denoising)
  • การเรนเดอร์ Persona

เวิร์กโหลดเกือบทั้งหมดเหล่านี้สอดคล้องกับพอดิบพอดีกับการออกแบบ GPU ที่เสริมพลังด้วย AI ของ M5 เพื่อให้มั่นใจว่าจะได้รับประสบการณ์เชิงพื้นที่ที่ราบรื่นและมีความเที่ยงตรงสูง

Vision Pro sensor and AI workload integration

ปรัชญาด้าน AI ในวงกว้างของ Apple

Apple ย้ำว่ากลยุทธ์ของบริษัทมุ่งเน้นไปที่ ความฉลาดที่เน้นอุปกรณ์เป็นศูนย์กลาง (device-centric intelligence)—การสร้างโมเดลโลกส่วนบุคคลที่คงอยู่ถาวร ซึ่งผสมผสานอินพุตภาพ ข้อมูลการเคลื่อนไหว และความเข้าใจเชิงพื้นที่

โปรเจกต์ต่างๆ เช่น FastVLM ซึ่งเป็นโมเดลภาษา-ภาพ (vision-language model) แบบโอเพนซอร์ส เป็นตัวอย่างของทิศทางนี้ โดยให้การอนุมานที่รวดเร็วและใช้พลังงานต่ำสำหรับความฉลาดที่รับรู้บริบทแบบเรียลไทม์ สิ่งนี้ก่อให้เกิดวงจรปิด: โลกแห่งความเป็นจริงจะถูกทำให้เป็นเวกเตอร์ (vectorized) ตีความโดย AI และฉายกลับเข้าไปในประสบการณ์เชิงพื้นที่ที่สมจริง

เทคโนโลยี การรับรู้ และอนาคต

แผนงาน Vision Pro ของ Apple บ่งบอกถึงความทะเยอทะยานที่ลึกซึ้งยิ่งขึ้น: การเปลี่ยนโฉมวิธีที่มนุษย์รับรู้และโต้ตอบกับความเป็นจริงผ่านการคำนวณ ด้วยการผสมผสาน AI เชิงพื้นที่ การแทนตัวตนทางดิจิทัลที่สมจริง และซิลิคอนที่สร้างขึ้นเพื่อจุดประสงค์นี้โดยเฉพาะ Apple กำลังวางตำแหน่ง Vision Pro ให้เป็นมากกว่าชุดหูฟัง—แต่เป็นการทดลองว่าระบบดิจิทัลจะสามารถเพิ่มพูนการรับรู้ของมนุษย์ได้อย่างไร

The future of spatial computing and human perception