Published on:

Apple、異例の技術解説で次世代Vision ProペルソナとM5チップアーキテクチャをプレビュー

AppleはVision Proの将来について、異例なほど詳細な見通しを公開しました。Personaシステムの主要なアップデート、次期M5チップの役割、そして空間コンピューティングとオンデバイスAIにおける同社の広範な方向性が明らかになりました。

この知見は、メディアとVision Proチームの2人の主要リーダーとの間で行われた珍しい技術交流から得られたもので、AppleがVision Proを長期的な空間コンピューティングプラットフォームへとどのように進化させているか、より明確な全体像を提示しています。

Apple Vision Pro technical roadmap overview

3DガウススプラッティングによりPersonaが飛躍的に進化

visionOS 2.0のリリース以降、ユーザーはPersonaのリアリズムが大幅に向上したことに気づいています。このアップグレードの中核にあるのは、**3Dガウススプラッティング(3DGS)**として知られる比較的新しいレンダリング手法です。

手動で構築されたメッシュに依存する従来のコンピュータグラフィックスとは異なり、3DGSはキャプチャされた画像から直接ジオメトリを学習することで機能します。システムは複数の角度からビデオを記録し、顔の構造を、位置、スケール、透明度を持つ楕円形の点である「ボリュメトリック・ガウス要素」の集合として推論します。

Appleは、Personaが現在、ハイブリッドメッシュジオメトリを使用しない純粋なガウスベースのアプローチを採用していることを認めました。これにより、メッシュでは再現が困難だった、非常に自然な色の遷移や表面のディテールが可能になります。

3D Gaussian Splatting vs traditional mesh rendering

FaceTimeのアバターからデジタルアイデンティティへ

AppleのPersonaに対する長期的なビジョンは、単なるビデオ通話を超えています。Personaは、三次元環境に直接統合されたアイデンティティのデジタル表現として開発されています。

同社はまた、この技術をフルボディのアバターに拡張するオープンソースプロジェクトである**HUGS (Human Gaussian Splatting)**についても強調しました。これらの表現はスケルタルアニメーションでリギングすることができ、参加者がお互いの現実環境の中で等身大の空間アバターとして現れる、没入感のあるテレプレゼンスを可能にします。

M5チップ:AIとグラフィックスのために構築された新しいGPUアーキテクチャ

M5チップは、単なるスケーリングではなく、アーキテクチャの変更を通じて最も意味のある利益をもたらします。初めて、各GPUコアに専用の**ニューラルアクセラレータ(Neural Accelerator)**が搭載されました。

これらのGPUレベルのアクセラレータは、以下のようなAIとグラフィックスの融合ワークロード向けに特別に設計されています:

  • AIデノイジング
  • ビデオ超解像
  • フレーム生成
  • 高度なレンダリングエフェクト

従来、データはGPUとNPUの間を繰り返し移動する必要がありました。M5では、これらの操作を完全にGPU内で完結できるため、遅延が短縮され、リアルタイムの空間タスクの効率が向上します。

Apple M5 Chip GPU core with Neural Accelerator

Vision ProがM5から最大の恩恵を受ける理由

標準的なラップトップでの向上はわずかかもしれませんが、Vision ProはM5アーキテクチャの主要な受益者です。ビデオシースルー(VST)ヘッドセットとして、以下のようなAI集約型のタスクを継続的に実行します:

  • SLAM(自己位置推定と環境地図作成の同時実行)
  • 環境理解
  • AIベースのパススルー・デノイジング
  • Personaレンダリング

これらのワークロードのほぼすべてがM5のAI強化GPU設計と正確に一致しており、シームレスで高忠実な空間体験を保証します。

Vision Pro sensor and AI workload integration

Appleの広範なAI哲学

Appleは、視覚入力、モーションデータ、空間理解を組み合わせた、持続的でパーソナルなワールドモデルを構築するデバイス中心のインテリジェンスに戦略の焦点を当てていることを再確認しました。

オープンソースの視覚言語モデルであるFastVLMなどのプロジェクトはこの方向性を例証しており、リアルタイムでコンテキストを認識するインテリジェンスのために、高速で低電力な推論を提供します。これにより、現実世界がベクトル化され、AIによって解釈され、没入感のある空間体験へと投影されるというクローズドループが形成されます。

テクノロジー、知覚、そして未来

AppleのVision Proロードマップは、計算を通じて人間がいかに現実を認識し、相互作用するかを再構築するという、より深い野心を予感させます。空間AI、リアルなデジタル・エンボディメント、そして専用設計のシリコンを組み合わせることで、AppleはVision Proを単なるヘッドセット以上のもの、つまりデジタルシステムがいかに人間の知覚そのものを拡張できるかという実験として位置づけています。

The future of spatial computing and human perception