Published on:

VLAアーキテクチャがインテリジェント・ドライビングにおいて勢いを増し、業界の議論は「アーキテクチャ戦争」から能力の融合へと移行

中国のインテリジェント車両業界における急速な発展のペースは、コア技術の捉え方を変えつつあります。かつて「次世代のスター」と表現されたフレームワークが、1年足らずで一部の批評家から「簡略化されたアーキテクチャ」というレッテルを貼られるようになりました。そのフレームワークこそが、現在、支援運転および自動運転の分野で最も議論されているアプローチの一つである**VLA(Vision-Language-Action)**です。

VLA Architecture concept visualization

ロボット工学から自動車へ

VLAの概念が公の場で議論されるようになったのは、DeepMindがロボット制御用のRT-2モデルをリリースした2023年7月のことでした。それからわずか数か月のうちに、初期の自動運転開発者たちは、生の知覚を運転操作に直接マッピングできる可能性に惹かれ、元々身体化された知能(エンボディド・インテリジェンス)向けに設計されたVLAの概念を自動車ドメインに適合させました。

2025年までに、VLAの原理に基づいた複数の支援運転システムが実際の導入段階に入りました。それ以来、VLAは唯一ではありませんが、主流の技術ルートの一つとなっています。

DeepMind RT-2 robotics to automotive transition

ワールドモデルとVLA:見かけほど違いはない

一見すると、ワールドモデルとVLAという2つのアプローチは根本的に対立しているように見えます。ワールドモデルは物理環境のデジタルレプリカの再構築を強調し、一方でVLAは知覚からアクションへのエンドツーエンドの学習を重視します。

しかし、詳しく調べると、両者は本質的に同じパラダイム、すなわちニューラルネットワークと強化学習の組み合わせをエンジニアリングとして実装したものであることがわかります。

違いは重点の置き方にあります。ワールドモデルは明示的な環境再構築に焦点を当て、VLAはアクションの生成を重視していますが、基礎となるメカニズムは驚くほど似ています。

Comparison between World Models and VLA paradigms

実践的な導入:理想汽車(Li Auto)のVLAドライバーモデル

自動車メーカーの中でも、理想汽車(Li Auto)はVLAベースのドライバーモデルを大規模に導入した最初のメーカーとして広く認識されています。最初の本格的な展開以来、システムはすでに何度も反復されており、最近のアップデートはOTA 8.1を通じて提供されました。

実際の走行データによると、VLAドライバーモデルはよりスムーズなモーションコントロールと、より人間に近い運転ロジックを示しています。この改善は、いくつかの技術的な飛躍によるものです:

  • 拡張性(Scalability): 有効化されたモデルパラメータが約40億へと、ほぼ倍増。
  • パフォーマンス: 軌道出力周波数が10 Hzに向上し、遅延が大幅に減少。
  • 推論: 交通の「交渉」シナリオにおける3D空間推論能力の強化。

Li Auto OTA 8.1 driver model interface

運転支援を超えて:AIエージェントへ

より高度なアプリケーションは、VLA의長期的な可能性を浮き彫りにしています。工業団地などの半閉鎖環境では、システムは明示的なナビゲーション入力がなくても、意味論的な推論と長期記憶に頼ってユーザーの意図を推論することができます。

これらの機能は、VLAが単なる狭義の運転機能ではなく、変化する状況に基づいて戦略を学習、記憶、適応させることができるAIエージェントへと進化することを示唆しています。

VLA AI Agent intent inference logic

置換ではなく融合

業界のオブザーバーたちは、支援運転の未来は一つのアーキテクチャを別のものに置き換えることではなく、既存のフレームワークの深い最適化にかかっていると主張することが増えています。

VLAとワールドモデルは、運転のための拡張可能で汎用的な知能という共通の目標に向かって収束しつつあるようです。議論は徐々に「どちらのアーキテクチャが勝つか」から、現実的な制約の下でいかに迅速に実世界のパフォーマンスを向上させられるかへと移り変わっています。

Capability convergence in intelligent vehicle industry