VLAと世界モデルを統合、銀河通用が新たな基盤モデル「LDA」を発表
銀河通用ロボットが、VLA(視覚言語行動モデル)と世界モデルを潜在空間で統合する新たな基盤モデル「LDA」を発表。多様なデータを統一的に活用し、具身知能の発展を加速させる技術として注目される。
元Microsoftリサーチャーが語る、具身知能の未来
「銀河通用に参加して以来、食事と睡眠以外はずっと仕事ですね」と語るのは、同社の共同創業者兼大モデル責任者、張直政博士。Microsoft ResearchでシニアリサーチャーとしてCopilotなどの大規模モデル開発に携わってきた彼は、2023年に銀河通用に参画し、具身知能——つまりAIに物理的な世界で行動させる技術——の開発を主導している。
彼が去就を決断した際、Microsoft Research Asiaの院長から「給料が払えなくなるかもしれないスタートアップに、本当に考え抜いたのか」と問われたという。張博士は「一つのことが十分に意義があり、かつ自分に主要な責任があるならば、そのことを心配する必要はありません」と答えたという。その言葉通り、銀河通用は現在、具身知能分野のトッププレーヤーへと成長を遂げている。
VLAと世界モデルの対立を超える統合アプローチ
張博士らが今回発表したのは「LDA(Latent Dynamics Action)」と呼ばれる新しい基盤モデルだ。これは、業界で独立した技術ルートとして捉えられがちな「VLA(視覚言語行動モデル)」と「世界モデル」を、統一された潜在空間で統合する画期的なアプローチである。
従来、VLAモデルは直接的なポリシー(行動方針)の学習に重点を置き、世界モデルは環境の状態遷移予測に特化していた。これに対しLDAは、「何をすべきか」というポリシー学習と「環境がどう変化するか」という状態予測を、統一的な潜在空間内で協調して学習させる。これにより、両者を相互に向上させることを目指す。
「業界はLDAを具身知能大モデルの基盤フレームワークとして活用し、様々なタイプのデータを組み合わせて段階的にスケールアップしていくことができるでしょう」と張博士は語る。この研究成果は、ロボット工学のトップカンファレンス「RSS」で最高評価を獲得しており、コードはオープンソース化されている。
非具身世界モデルとの決定的な違い
LDAと、例えばFei-Fei Li氏やLeCun氏が研究する「世界モデル」の違いは何か。張博士によれば、彼らの世界モデルは主に「世界はどのように表現・予測・生成されるべきか」という基礎的な問題に焦点を当てており、ポリシー学習はその下流タスクに過ぎないという。
一方、LDAはさらに一歩進んで、問題を具身知能に特化させる。「世界の変化がアクション生成にどう直接役立ち、また全スペクトラムの具身データを活用して大規模学習を行うか」に重点を置いている。例えばテニスの場面では、環境変化を無差別に予測するのではなく、タスク目標(ボールを打つ)に基づいて、ボールの軌道や相手選手の位置など、ポリシーに関連する情報だけを選択的に予測・処理する点が異なる。
4つのタスクを1つのモデルで学習させる統一フレームワーク
LDAの核心は、前向力学(与えられた行動による次の状態予測)、逆向力学(目標状態に到達するための行動推定)、ポリシー学習、視覚予測という4つのタスクを、統一潜在空間内で1つの学習フレームワークに統合したことにある。
張博士は「4つのタスクを統合しても、計算コストが単純に4倍になるわけではありません」と説明する。初期段階では学習すべき目標が増えるためコストは上昇するが、モデルの基礎能力が確立されれば、新しいスキルを学習する限界コストは著しく低下するという。「前期のより多くの投資を通じて、後期のより大規模なスキルの低コストで迅速な学習を実現する」というのが、彼らが基盤モデルの研究開発を堅持する核心的な論理だ。
「データの壁」を乗り越える鍵
LDAが具身知能の分野で重要なのは、データの多様性とばらつきを統一的に活用できる点にある。虚実融合(シミュレーションと現実のデータ)、人機協調(人間とロボットの協働データ)、品質のばらつき、アクションラベルの有無といった、従来は別々に扱われがちだった多様なデータを、統一的な枠組みで効果的に学習に取り込める。
これは、具身知能が直面する「データの壁」——つまり、良質で大量の実世界データをいかに集めるかという課題——に対する有力な解決策となり得る。LDAのような基盤モデルが成熟すれば、特定のタスクに特化したデータを少量用意するだけで、ロボットが新しいスキルを習得できる可能性が広がる。
張直政博士は「AIが永遠にコンピューターの中に閉じ込められているのは真のAGIではない」と語る。LDAは、AIをデジタル世界から物理世界へと解き放つための、重要な一歩となるかもしれない。
よくある質問
- LDAとは何ですか?
- LDA(Latent Dynamics Action)は、中国のロボット企業銀河通用が開発した新しい基盤モデルです。従来別々に研究されてきたVLA(視覚言語行動モデル)と世界モデルを統一的な潜在空間で統合し、「何をすべきか」と「環境がどう変化するか」を同時に学習させることを目指す技術です。多様なデータを統一的に活用できる点が特徴です。
- 他の世界モデル研究とLDAの違いは?
- 最大の違いは「具身知能」への特化です。例えばFei-Fei Li氏らの研究が「世界の表現と予測」そのものに焦点を当てるのに対し、LDAは「予測した世界の変化をどうアクション生成に活かすか」に重点を置いています。つまり、ロボットが物理的に行動するための実用性をより重視したアプローチと言えます。
- 銀河通用是一家怎様的公司?
- 銀河通用(GalaxyBot)は、ヒューマノイドロボットと具身知能の開発に特化した中国のテクノロジースタートアップです。王鶴氏と張直政博士らによって設立され、AIを物理世界で行動させる技術の研究開発を進めています。張博士は元Microsoft Researchのシニアリサーチャーで、2025年には「北京市労働模範」の称号も受賞しています。
コメント