Published on:

एप्पल ने एक दुर्लभ तकनीकी चर्चा में अगली पीढ़ी के विज़न प्रो पर्सोना और एम5 चिप आर्किटेक्चर का पूर्वावलोकन किया

Apple ने Vision Pro के भविष्य के बारे में असामान्य रूप से विस्तृत जानकारी दी है, जिसमें इसके Persona सिस्टम में बड़े अपडेट, आने वाले M5 चिप की भूमिका, और स्थानिक कंप्यूटिंग (spatial computing) और ऑन-डिवाइस AI में कंपनी की व्यापक दिशा का खुलासा किया गया है।

ये जानकारियाँ मीडिया और Vision Pro टीम के दो प्रमुख लीडरों के बीच एक दुर्लभ तकनीकी आदान-प्रदान से आई हैं, जो इस बात की स्पष्ट तस्वीर पेश करती हैं कि Apple कैसे Vision Pro को एक दीर्घकालिक स्थानिक कंप्यूटिंग प्लेटफॉर्म के रूप में विकसित कर रहा है।

Apple Vision Pro technical roadmap overview

3D Gaussian Splatting के साथ Persona ने ली एक बड़ी छलांग

visionOS 2.0 के रिलीज़ होने के बाद, उपयोगकर्ताओं ने Persona की वास्तविकता में महत्वपूर्ण सुधार देखा है। इस अपग्रेड के मूल में एक अपेक्षाकृत नई रेंडरिंग तकनीक है जिसे 3D Gaussian Splatting (3DGS) के रूप में जाना जाता है।

पारंपरिक कंप्यूटर ग्राफिक्स के विपरीत, जो मैन्युअल रूप से निर्मित मेश (meshes) पर निर्भर करते हैं, 3DGS सीधे कैप्चर की गई छवियों से ज्योमेट्री सीखकर काम करता है। सिस्टम कई कोणों से वीडियो रिकॉर्ड करता है और चेहरे की संरचना को वॉल्यूमेट्रिक गॉसियन तत्वों के संग्रह के रूप में अनुमानित करता है—जो स्थिति, स्केल और पारदर्शिता के साथ दीर्घवृत्ताभ (ellipsoid) के आकार के बिंदु होते हैं।

Apple ने पुष्टि की है कि Persona अब विशुद्ध रूप से गॉसियन-आधारित दृष्टिकोण का उपयोग करता है, बिना हाइब्रिड मेश ज्योमेट्री के, जो अत्यधिक प्राकृतिक रंग परिवर्तन और सतह के विवरण की अनुमति देता है जिसे मेश के साथ दोहराना मुश्किल होता है।

3D Gaussian Splatting vs traditional mesh rendering

FaceTime अवतार से डिजिटल पहचान तक

Persona के लिए Apple का दीर्घकालिक दृष्टिकोण साधारण वीडियो कॉल से परे है। Persona को पहचान के डिजिटल प्रतिनिधित्व के रूप में विकसित किया जा रहा है, जो सीधे त्रि-आयामी वातावरण में एकीकृत है।

कंपनी ने HUGS (Human Gaussian Splatting) पर भी प्रकाश डाला, जो एक ओपन-सोर्स प्रोजेक्ट है जो इस तकनीक को पूर्ण-शरीर अवतारों तक विस्तारित करता है। इन प्रस्तुतियों को कंकाल एनिमेशन (skeletal animation) के साथ जोड़ा जा सकता है, जो इमर्सिव टेलीप्रेजेंस को सक्षम बनाता है जहाँ प्रतिभागी एक-दूसरे के वास्तविक वातावरण के भीतर पूर्ण-स्तरीय स्थानिक अवतार के रूप में दिखाई देते हैं।

M5 चिप: AI + ग्राफिक्स के लिए निर्मित एक नया GPU आर्किटेक्चर

M5 चिप केवल रॉ स्केलिंग के बजाय आर्किटेक्चरल परिवर्तनों के माध्यम से अपना सबसे सार्थक लाभ प्रदान करता है। पहली बार, प्रत्येक GPU कोर में एक समर्पित Neural Accelerator शामिल है।

ये GPU-स्तर के एक्सेलेरेटर विशेष रूप से AI-ग्राफिक्स फ्यूजन वर्कलोड के लिए डिज़ाइन किए गए हैं, जैसे:

  • AI डिनोइजिंग
  • वीडियो सुपर-रेज़ोल्यूशन
  • फ्रेम जनरेशन
  • उन्नत रेंडरिंग प्रभाव

पहले, डेटा को GPU और NPU के बीच बार-बार स्थानांतरित करना पड़ता था। M5 के साथ, इन ऑपरेशनों को पूरी तरह से GPU के भीतर पूरा किया जा सकता है, जिससे लेटेंसी कम होती है और रीयल-टाइम स्थानिक कार्यों के लिए दक्षता में सुधार होता है।

Apple M5 Chip GPU core with Neural Accelerator

क्यों Vision Pro को M5 से सबसे अधिक लाभ होता है

जबकि मानक लैपटॉप पर लाभ सूक्ष्म हो सकते हैं, Vision Pro M5 आर्किटेक्चर का प्राथमिक लाभार्थी है। वीडियो सी-थ्रू (VST) हेडसेट के रूप में, यह लगातार AI-गहन कार्यों को चलाता है जिनमें शामिल हैं:

  • SLAM (Simultaneous Localization and Mapping)
  • पर्यावरणीय समझ (Environmental understanding)
  • AI-आधारित पासथ्रू डिनोइजिंग
  • Persona रेंडरिंग

इनमें से लगभग सभी वर्कलोड M5 के AI-संवर्धित GPU डिज़ाइन के साथ सटीक रूप से संरेखित होते हैं, जो एक सहज और उच्च-सटीकता वाला स्थानिक अनुभव सुनिश्चित करते हैं।

Vision Pro sensor and AI workload integration

Apple का व्यापक AI दर्शन

Apple ने दोहराया कि इसकी रणनीति डिवाइस-केंद्रित इंटेलिजेंस पर केंद्रित है—स्थायी, व्यक्तिगत विश्व मॉडल का निर्माण करना जो विज़ुअल इनपुट, मोशन डेटा और स्थानिक समझ को जोड़ते हैं।

FastVLM जैसे प्रोजेक्ट, जो एक ओपन-सोर्स विजन-लैंग्वेज मॉडल है, इस दिशा का उदाहरण देते हैं, जो रीयल-टाइम, संदर्भ-जागरूक इंटेलिजेंस के लिए तेज़, कम-शक्ति वाला अनुमान प्रदान करते हैं। यह एक क्लोज्ड लूप बनाता है: वास्तविक दुनिया को वेक्टराइज़ किया जाता है, AI द्वारा व्याख्या की जाती है, और वापस इमर्सिव स्थानिक अनुभवों में प्रोजेक्ट किया जाता है।

तकनीक, धारणा और भविष्य

Apple का Vision Pro रोडमैप एक गहरी महत्वाकांक्षा का संकेत देता है: गणना के माध्यम से यह नया आकार देना कि मनुष्य वास्तविकता को कैसे देखते हैं और उसके साथ कैसे बातचीत करते हैं। स्थानिक AI, यथार्थवादी डिजिटल अवतार और उद्देश्य-निर्मित सिलिकॉन को जोड़कर, Apple Vision Pro को एक हेडसेट से कहीं अधिक के रूप में स्थापित कर रहा है—यह एक प्रयोग है कि कैसे डिजिटल सिस्टम स्वयं मानवीय धारणा को बढ़ा सकते हैं।

The future of spatial computing and human perception