LDAとは何ですか？

LDA（Latent Dynamics Action）は、中国のロボット企業銀河通用が開発した新しい基盤モデルです。従来別々に研究されてきたVLA（視覚言語行動モデル）と世界モデルを統一的な潜在空間で統合し、「何をすべきか」と「環境がどう変化するか」を同時に学習させることを目指す技術です。多様なデータを統一的に活用できる点が特徴です。

他の世界モデル研究とLDAの違いは？

最大の違いは「具身知能」への特化です。例えばFei-Fei Li氏らの研究が「世界の表現と予測」そのものに焦点を当てるのに対し、LDAは「予測した世界の変化をどうアクション生成に活かすか」に重点を置いています。つまり、ロボットが物理的に行動するための実用性をより重視したアプローチと言えます。

銀河通用是一家怎様的公司？

銀河通用（GalaxyBot）は、ヒューマノイドロボットと具身知能の開発に特化した中国のテクノロジースタートアップです。王鶴氏と張直政博士らによって設立され、AIを物理世界で行動させる技術の研究開発を進めています。張博士は元Microsoft Researchのシニアリサーチャーで、2025年には「北京市労働模範」の称号も受賞しています。

VLAと世界モデルを統合、銀河通用が新たな基盤モデル「LDA」を発表

銀河通用ロボットが、VLA（視覚言語行動モデル）と世界モデルを潜在空間で統合する新たな基盤モデル「LDA」を発表。多様なデータを統一的に活用し、具身知能の発展を加速させる技術として注目される。

2026年5月19日 5分で読める SINGULISM 編集チームが確認・編集

AI ロボティクス具身知能基盤モデル银河通用

VLAと世界モデルを統合、銀河通用が新たな基盤モデル「LDA」を発表 — Photo by Gabriele Malaspina on Unsplash

元Microsoftリサーチャーが語る、具身知能の未来

「銀河通用に参加して以来、食事と睡眠以外はずっと仕事ですね」と語るのは、同社の共同創業者兼大モデル責任者、張直政博士。Microsoft ResearchでシニアリサーチャーとしてCopilotなどの大規模モデル開発に携わってきた彼は、2023年に銀河通用に参画し、具身知能——つまりAIに物理的な世界で行動させる技術——の開発を主導している。

彼が去就を決断した際、Microsoft Research Asiaの院長から「給料が払えなくなるかもしれないスタートアップに、本当に考え抜いたのか」と問われたという。張博士は「一つのことが十分に意義があり、かつ自分に主要な責任があるならば、そのことを心配する必要はありません」と答えたという。その言葉通り、銀河通用は現在、具身知能分野のトッププレーヤーへと成長を遂げている。

VLAと世界モデルの対立を超える統合アプローチ

張博士らが今回発表したのは「LDA（Latent Dynamics Action）」と呼ばれる新しい基盤モデルだ。これは、業界で独立した技術ルートとして捉えられがちな「VLA（視覚言語行動モデル）」と「世界モデル」を、統一された潜在空間で統合する画期的なアプローチである。

従来、VLAモデルは直接的なポリシー（行動方針）の学習に重点を置き、世界モデルは環境の状態遷移予測に特化していた。これに対しLDAは、「何をすべきか」というポリシー学習と「環境がどう変化するか」という状態予測を、統一的な潜在空間内で協調して学習させる。これにより、両者を相互に向上させることを目指す。

「業界はLDAを具身知能大モデルの基盤フレームワークとして活用し、様々なタイプのデータを組み合わせて段階的にスケールアップしていくことができるでしょう」と張博士は語る。この研究成果は、ロボット工学のトップカンファレンス「RSS」で最高評価を獲得しており、コードはオープンソース化されている。

非具身世界モデルとの決定的な違い

LDAと、例えばFei-Fei Li氏やLeCun氏が研究する「世界モデル」の違いは何か。張博士によれば、彼らの世界モデルは主に「世界はどのように表現・予測・生成されるべきか」という基礎的な問題に焦点を当てており、ポリシー学習はその下流タスクに過ぎないという。

一方、LDAはさらに一歩進んで、問題を具身知能に特化させる。「世界の変化がアクション生成にどう直接役立ち、また全スペクトラムの具身データを活用して大規模学習を行うか」に重点を置いている。例えばテニスの場面では、環境変化を無差別に予測するのではなく、タスク目標（ボールを打つ）に基づいて、ボールの軌道や相手選手の位置など、ポリシーに関連する情報だけを選択的に予測・処理する点が異なる。

4つのタスクを1つのモデルで学習させる統一フレームワーク

LDAの核心は、前向力学（与えられた行動による次の状態予測）、逆向力学（目標状態に到達するための行動推定）、ポリシー学習、視覚予測という4つのタスクを、統一潜在空間内で1つの学習フレームワークに統合したことにある。

張博士は「4つのタスクを統合しても、計算コストが単純に4倍になるわけではありません」と説明する。初期段階では学習すべき目標が増えるためコストは上昇するが、モデルの基礎能力が確立されれば、新しいスキルを学習する限界コストは著しく低下するという。「前期のより多くの投資を通じて、後期のより大規模なスキルの低コストで迅速な学習を実現する」というのが、彼らが基盤モデルの研究開発を堅持する核心的な論理だ。

「データの壁」を乗り越える鍵

LDAが具身知能の分野で重要なのは、データの多様性とばらつきを統一的に活用できる点にある。虚実融合（シミュレーションと現実のデータ）、人機協調（人間とロボットの協働データ）、品質のばらつき、アクションラベルの有無といった、従来は別々に扱われがちだった多様なデータを、統一的な枠組みで効果的に学習に取り込める。

これは、具身知能が直面する「データの壁」——つまり、良質で大量の実世界データをいかに集めるかという課題——に対する有力な解決策となり得る。LDAのような基盤モデルが成熟すれば、特定のタスクに特化したデータを少量用意するだけで、ロボットが新しいスキルを習得できる可能性が広がる。

張直政博士は「AIが永遠にコンピューターの中に閉じ込められているのは真のAGIではない」と語る。LDAは、AIをデジタル世界から物理世界へと解き放つための、重要な一歩となるかもしれない。

よくある質問

LDAとは何ですか？: LDA（Latent Dynamics Action）は、中国のロボット企業銀河通用が開発した新しい基盤モデルです。従来別々に研究されてきたVLA（視覚言語行動モデル）と世界モデルを統一的な潜在空間で統合し、「何をすべきか」と「環境がどう変化するか」を同時に学習させることを目指す技術です。多様なデータを統一的に活用できる点が特徴です。
他の世界モデル研究とLDAの違いは？: 最大の違いは「具身知能」への特化です。例えばFei-Fei Li氏らの研究が「世界の表現と予測」そのものに焦点を当てるのに対し、LDAは「予測した世界の変化をどうアクション生成に活かすか」に重点を置いています。つまり、ロボットが物理的に行動するための実用性をより重視したアプローチと言えます。
銀河通用是一家怎様的公司？: 銀河通用（GalaxyBot）は、ヒューマノイドロボットと具身知能の開発に特化した中国のテクノロジースタートアップです。王鶴氏と張直政博士らによって設立され、AIを物理世界で行動させる技術の研究開発を進めています。張博士は元Microsoft Researchのシニアリサーチャーで、2025年には「北京市労働模範」の称号も受賞しています。

出典: 钛媒体

SINGULISM 編集チーム — SINGULISM 編集チームが確認・編集

最終更新日: 2026年5月19日

本サイトでは、事実誤認や不正確な情報が見つかった場合、速やかに訂正記事を掲載します。訂正のご依頼はお問い合わせフォームよりご連絡ください。