AI

τ0-WM:最大規模のオープンソース具現化世界モデルが登場

上海創智学院とAgibotの研究チームが、世界最大規模のオープンソース具現化世界モデル「τ0-WM」を発表。50億パラメータ、約30,000時間の事前学習データ(うち17,800時間は実機遠隔操作データ)を活用。テスト時計算によりロボットが行動前に複数の候補を評価・修正できる。

10分で読める SINGULISM 編集チームが確認・編集

τ0-WM:最大規模のオープンソース具現化世界モデルが登場
Photo by Aideal Hwa on Unsplash

具現化インテリジェンス(Embodied Intelligence)が注目されてから約2年。「実機データは高価すぎて事前学習には使えない」という業界の常識を覆す成果が、中国から発表された。上海創智学院の准教授であり、Agibotのチーフサイエンティストを務める羅剣嵐氏の研究チームが、世界最大規模のオープンソース事前学習済み具現化世界モデル「τ0-World Model(τ0-WM)」を公開したのだ。 最大の特徴は、そのデータ規模にある。τ0-WM全体のパラメータ数は50億(5B)に達し、事前学習データの総量は約30,000時間。このうち、実機遠隔操作データが17,800時間を占めており、これはほぼ1台のロボットが2年間、1日24時間休みなく人間から遠隔操作され続けたのと同等のボリュームだ。 これまで多くのチームは、実機データはスケーリングが難しく、最終的な微調整段階でのみ使用するのが定石と考えていた。しかし、τ0-WMはその前提を打ち破り、実機データを事前学習の主力として活用。その結果、現在公開されている事前学習済み具現化世界モデルの中で最大のデータセットを実現した。 τ0-WMは、他の世界モデルと同様に未来の映像予測や動作生成が可能であるだけでなく、より重要な点として、テスト時計算(Test-Time Computation)を組み合わせている。これによりロボットは、実際に動作する前に複数の候補動作を内部的にシミュレーションし、最適なものを選び出すことができる。品質が不十分と判断された場合は、シミュレータを呼び出して修正を加えてから実行する。 この手法に基づき、τ0-WMは4つの長時間・精密操作タスク(Toolbox、School Bag、Badminton、Faucet)において、平均成功率が比較対象のπ0.5とFast-WAMを上回った。羅剣嵐チームがこれまで事後学習(後訓練)に継続的に投資してきたノウハウが、ここで結実した形だ。

17,800時間の実機データを投入

τ0-WMの事前学習データは全体で約30,000時間。その内訳は大きく3種類に分かれる。 第1のカテゴリーは、実機遠隔操作データで総量17,800時間。二腕ロボットと多視点カメラで収集され、アクション空間と実際のデプロイメント環境が完全に一致する「最も高価な」データだ。実機収集は人的資源とハードウェア資源を大量に消費するため、事前学習段階にここまで多くの実機データを投入した例はこれまでなかった。このデータセットが最も核となるアクション監視信号を提供し、τ0-WMの大規模事前学習を支えている。 第2のカテゴリーは、6,500時間のUMI(Universal Manipulation Interface)データ。UMIは特定のロボットプラットフォームに依存しないデータ収集方式で、実機遠隔操作に比べてカバーする物体の種類や操作シーンがはるかに豊富だ。ただし、アクション空間が実際のロボットデプロイメント時のものと完全には一致しないため、τ0-WMにおいては「行動の多様性」を補う役割を担う。正確さはやや劣るものの、モデルに多くの操作方法、物体、ロングテールのシーンを経験させる効果がある。 第3のカテゴリーは、3,000時間の人間の一人称視点(エゴセントリック)データ。収集コストは最も低く、カバー範囲は最も広い。多くのロングテールのインタラクション行動や、ロボットが専用に収集するのが難しい実際のシーンが含まれている。ただし、このデータにはロボットのアクションラベルが付いていない。そのため、モデルはビデオ分岐の学習のみに参加し、アクションの予測には直接関与しない。物体の動き方や人間と環境のインタラクション、シーン状態の変化を学習するのに役立つ。 このように、τ0-WMは3種類の異なるデータを、モダリティ固有の監視マスクを通じて単一のシステムに統合している。アクションラベルがあるデータはビデオとアクションを同時に学習させ、アクションラベルがないデータはビデオ分岐のみを学習させる。この設計により、データの品質と量のバランスを最適化している。

「遅い思考」でロボットの行動を最適化

ここ数年、ロボットの知覚と制御を実現する主流のパラダイムは、反応型のエンドツーエンド戦略だった。ニューラルネットワークが映像を認識し、即座に動作を出力する。この人間の「条件反射」に似た方法は、把持や設定などの標準的なタスクでは非常に成功している。 しかし、接触が密接で時間的に長い複雑な操作、あるいは著しい遮蔽がある状況では、「場面を見てすぐ動作を出力する」だけでは回復不能なミスを引き起こしやすい。一歩間違えれば、その後の全てが連鎖的に失敗する。 τ0-WMは、ロボットが行動する前にまず頭の中で「想像」するアプローチを採用する。もし自分がある動作を実行したら、未来に何が起きるか、環境はどう変化するか。そして、単に「一回だけ考える」のではなく、テスト時計算(Test-Time Computation)を導入することで、実際に実行する前に内部の「仮想サンドボックス」で複数回並行して想像し、繰り返し比較し、能動的にエラーを修正する余裕を持たせる。 これは、ロボットに「遅い思考」を学ばせる試みとも言える。映像を見ただけで即座に動くのではなく、人間のように、まず頭の中でどのルートがより信頼できるかを検討してから、実際の行動を決定するのだ。

3段階のパイプライン:提案、推演、評価

τ0-WMのオンライン推論は3つのステップに分かれる。 第1ステップ:提案 まず、ビデオアクションモデル(VAM)が、現在の多視点観測、言語指示、ロボットの状態に基づき、一度に複数の候補アクションをサンプリングし、同時に対応するぼやけた未来の映像を生成する。これはロボットが頭の中で複数の可能な方法を素早く思い浮かべるプロセスに相当する。 第2ステップ:推演(シミュレーション) 次に、アクション条件付きビデオシミュレータが、各候補アクションに対応する多視点の未来の映像をさらに生成する。実際のロボット操作では正面視点がアームや物体に遮られることが多いため、モデルは側面や上面など他の視点における未来の状態を「想像補完」し、動作の結果を正確に判断する必要がある。 第3ステップ:評価と修正 最後に、システムはまずRCS(再ノイズ除去一貫性スコア)でアクションにスコアを付ける。候補アクションに再びノイズを加え、モデルに戻して再ノイズ除去し、再構成誤差を観察する。誤差が小さいほど、そのアクションがモデルの学習時に学んだ高品質なアクション分布に近く、信頼性が高いと判断される。 最適なアクションのスコアが依然として十分でない場合、第2層のメカニズムであるLAR(低品質アクション修正)が作動する。システムはすべての候補アクションをビデオシミュレータに送り、対応する未来の状態とタスクの進捗を予測。「タスク推進効果が最も良い」未来の映像を選び出し、VAMにその「最適な未来」に基づいてアクションを再生成させる。 最終的に、モデルはこの3段階のパイプラインに基づいて最良のアクションを出力する。注目すべきは、多くの世界モデルが学習時に未来を予測しても、デプロイ時には推論速度を優先して未来予測モジュールを削除してしまう傾向がある中、τ0-WMは推論段階でも「明示的な未来想像」を堅持している点だ。これらの未来の映像は、後続のアクションのスコアリング、選別、修正に実際に活用されており、「未来を想像する」ことは単なる学習テクニックではなく、ロボットの意思決定の一部として組み込まれている。

2つの共有ビデオ拡散バックボーン

この3段階パイプラインの裏側で、τ0-WMは主に2つの共有ビデオ拡散バックボーンコンポーネントによって駆動される。アクション提案を担当するVAMと、サンドボックス推演を担当するアクション条件付きビデオシミュレータだ。VAMはWan2.2-5Bビデオ生成モデルに基づき、未来のビデオ潜在表現とアクションチャンクを同時に出力する。ビデオシミュレータは未来の状態とタスクの進捗の評価を専門に担当する。 これらのコンポーネントは学習段階において、3種類の異なるソースのデータを統一的に処理する。アクションラベルがあるデータはビデオとアクションの両方を学習させ、アクションラベルがないデータはビデオ分岐のみを学習させる。この柔軟な設計により、異なる性質のデータを最大限に活用することが可能になっている。

事前学習と事後学習の融合

羅剣嵐チームがこれまで事後学習(後訓練)に継続的に投資してきたことは、十分な規模の実機データを蓄積するだけでなく、これらのデータを大規模な事前学習に活用する経験を積むことにも繋がった。事前学習と事後学習という2つの路線が、ついに一致したと言える。 この成果は、具現化インテリジェンス分野におけるデータスケーリングの可能性を大きく広げるものだ。従来は高価で量を集めにくいと考えられていた実機データを、あえて事前学習の中心に拠えることで、モデルの汎化性能と信頼性を大幅に向上させられることを示した。 τ0-WMはオープンソースで公開されており、世界中の研究者や開発者がこの世界最大規模の事前学習済み具現化世界モデルを利用できる。ロボット工学やAI研究のコミュニティにとって、新たなベンチマークとなることは間違いない。テスト時計算による複数候補のシミュレーションと修正というアプローチは、今後のロボット制御のパラダイムに一石を投じる可能性を秘めている。

よくある質問

τ0-WMとは具体的にどのようなモデルですか?
上海創智学院とAgibotの研究チームが開発した、世界最大規模のオープンソース具現化世界モデルです。50億パラメータを持ち、約30,000時間の事前学習データ(うち17,800時間は実機遠隔操作データ)で学習されています。ロボットが行動前に複数の候補をシミュレーションし、最適な動作を選択できるテスト時計算機能が特徴です。
従来のロボット制御とどう違うのですか?
従来は映像を見て即座に動作を出力する反応型のエンドツーエンド戦略が主流でしたが、τ0-WMは「遅い思考」を導入しています。行動前に内部の仮想サンドボックスで複数の候補動作を並列シミュレーションし、品質を評価・修正してから実際の動作を行います。これにより長時間の精密操作タスクでの成功率が向上します。
τ0-WMはどこで利用できますか?
研究チームによるとオープンソースで公開されています。具体的な入手方法については、量子位(中国のテックメディア)の記事や研究チームの発表を参照してください。モデルの重みやコードがGitHubなどで公開されている可能性があります。
出典: 量子位

コメント

← トップへ戻る