AI

Sim2Realに代わるReal2Sim、NVIDIAと李飛飛が新システム

NVIDIA GEARと李飛飛チームが共同開発したSimFoundryは、現実の動画1本からロボットシミュレーション環境を自動生成する。物体交換やタスク自動生成により、ほぼ無限の訓練データを生み出せる点が革新的だ。

11分で読める SINGULISM 編集チームが確認・編集

Sim2Realに代わるReal2Sim、NVIDIAと李飛飛が新システム
Photo by Aideal Hwa on Unsplash

PUBLISHED: 2026-07-05T06:59:11.000Z

ロボット工学の分野で、Sim2Real(シミュレーションから現実への転移)に代わるアプローチとしてReal2Sim(現実からシミュレーションへの変換)が注目を集めている。

最近、NVIDIA GEARがスタンフォード大学の李飛飛教授チーム、ジョージア工科大学、UT Austin、トロント大学などの研究機関と共同で、新しいReal2Simシステム「SimFoundry」を発表した。量子位が報じている。

SimFoundryは、現実世界の動画1本のみから、ロボットのインタラクション、訓練、評価が可能なシミュレーション環境を自動生成するシステムである。単なる3Dシーンの再構築に留まらず、物体の機能とアフォーダンス(行為可能性)を保持したまま、物体の自動交換、シーンレイアウトの調整、さらには新しい操作タスクの生成まで実現する。これにより、1本の現実動画から1つのシミュレーションシーンを得るだけでなく、ほぼ無限のデータ生成空間へ自動拡張できる点が最大の特徴である。

SimFoundryは、シミュレーション内でロボットを訓練するだけでなく、異なるロボット戦略の現実における実際のパフォーマンスを高い信頼性で予測できる。さらに、SimFoundryが生成したデータで訓練された戦略をゼロショットで実ロボットに展開し、マルチステップ操作、両腕協調、関節物体操作など複数のタスクで現実世界への移行を実現している。

Real2Simが注目される背景

従来のSim2Realアプローチは、シミュレーション環境で訓練したロボットを現実世界に転移する手法である。しかし、シミュレーション環境の構築自体に多くの手作業によるモデリングが必要であり、現実世界の複雑な幾何形状や物理特性を完全に再現することは難しい。そのため、シミュレーションで高いパフォーマンスを示した戦略が現実世界で期待通りに動作しないという問題が常に付きまとってきた。

一方、Real2Simはこの問題を逆方向から解決しようとするものだ。現実世界のデータを基にシミュレーション環境を構築するため、シミュレーションのリアリティが格段に向上する。量子位の記事によれば、現実のデータ収集はコストが高く時間がかかるが、一度シミュレーション環境を構築すれば、自動データ生成技術を活用して極めて低い人的コストで多様で高品質な訓練データを大量に合成できる。

既存のReal2Sim手法には課題があった。3Dシーンの再構築は得意だが訓練データを生成できないもの、戦略評価はできるが大量の手動設定に依存するものなど、単一の要素しか解決できない手法が大半だった。SimFoundryは、シーン構築、データ生成、戦略評価、戦略訓練を1つの完全なパイプラインとして統合した点が革新的である。

三つの核心機能

SimFoundryのシステムは主に三つの核心機能を実行する。

第一に、インタラクション可能でシミュレーション可能なデジタルツイン(Digital Twin)の自動再構築である。現実シーンを正確に複製した仮想環境を自動的に生成する。

第二に、物体、シーン、タスクの三つのレベルでのデジタルカズン(Digital Cousins)の自動拡張による継続的な訓練データ生成である。デジタルカズンとは、シーンの機能とインタラクション方法を維持しつつ、物体、レイアウト、タスクに妥当な変更を加えたものを指す。これにより、単一のシーンから多様なバリエーションを自動生成できる。

第三に、これらのシミュレーション環境を活用し、戦略評価と戦略訓練を同時に実行する。現実世界からシミュレーション、そして再び現実世界へ戻る完全なクローズドループを形成する。

パイプラインの三つの段階

SimFoundryのプロセスは三つの段階で構成される。

第一段階は抽出(Extraction)である。システムに通常のRGB動画を入力すると、まず深度推定を用いて3D点群を復元する。次に視覚言語モデル(VLM)やSAM 3などのセグメンテーションモデルによって、シーン内の物体を一つずつ認識・セグメンテーションする。物体を抽出するたびに画像修復(Inpainting)を用いてその物体を画面から除去し、次のターゲットを探し続けてシーン全体の解析が完了するまで繰り返す。

第二段階は生成(Generation)である。抽出された物体ごとに、SimFoundryは2D-to-3Dモデルを用いて3Dメッシュを生成する。FoundationPoseなどのモデルと組み合わせて実際の位置姿勢を復元し、引き出しや戸などの関節物体については関節構造を自動的に導出する。同時に、質量、摩擦力などの物理特性をさらに補完し、衝突モデルを生成して貫通問題を修正する。最終的にIsaacLabなどの物理エンジンで直接実行可能なシミュレーションシーンをエクスポートし、デジタルツインの構築を完了する。

第三段階は拡張(Augmentation)である。これがSimFoundryの中核的な革新である。デジタルツインを基に、システムはさらにデジタルカズンを自動生成する。主に三つの次元で拡張される。一つ目は物体の外観や幾何形状を変更するが機能は維持する(Object Cousins)。二つ目は物体のレイアウトを調整したり新しい物体を追加して新たなシーンを生成する(Scene Cousins)。三つ目はシーン内の物体とそのアフォーダンスに基づき、新しいロボット操作タスクを自動導出する(Task Cousins)。

つまり、1本の現実動画からデジタルツインを再構築できるだけでなく、同じ動作意味論を保った新しい物体、シーン、タスクを大量に自動拡張し、ロボットにほぼ無限の訓練データを提供できる。

実験結果が示す有効性

研究では2つのロボットプラットフォーム、7種類の典型的な操作タスクで実験を行い、Real-to-Sim戦略評価とSim-to-Real戦略訓練という二つの中核能力を検証した。

戦略評価の実験結果によると、SimFoundryにおけるロボットのパフォーマンスは現実世界と非常に一致しており、平均ピアソン相関係数は0.911、平均最大ランク違反(MMRV)はわずか0.018であった。これは従来の最先端評価フレームワークPolaRiSと比較して大幅な改善である。研究者がシミュレーション内で戦略の実ロボットにおけるパフォーマンスを比較的精度高く予測でき、高コストな実機テストを繰り返す必要がないことを示している。

さらに注目すべきは、論文が提唱するデジタルカズンの効果である。デジタルツインのみを使用した訓練と比較して、Object、Scene、Task各カズンを導入した場合、現実世界におけるロボットの平均タスク成功率がそれぞれ17パーセント、21パーセント、40パーセント向上した。

同時に、SimFoundryが自動生成したデータのみで訓練された戦略でも、ゼロショットで実ロボットに展開でき、複数の操作タスクでほぼ満点に近い成功率を達成した。これらの結果は、Real2Simアプローチの有効性とSimFoundryの実用性を強く裏付けるものだ。

研究体制と今後の展望

SimFoundryの著者陣は、NVIDIA GEAR、ジョージア工科大学、スタンフォード大学、UT Austin、トロント大学などの主要研究者がほぼ集まっている。第一著者のNadun Ranawaka Arachchige氏はジョージア工科大学出身で、現在NVIDIA GEARでインターン中であり、師事しているのは徐丹飛氏である。NVIDIA GEARはエンボディードAI(身体性AI)の研究において世界をリードする研究グループである。

Real2Simアプローチは、ロボット工学におけるデータ効率と訓練のスケーラビリティに変革をもたらす可能性がある。従来のSim2Realが抱えていたシミュレーションと現実のギャップ問題に対し、現実データを起点としたシミュレーション構築という逆転の発想でアプローチするSimFoundryは、ロボット戦略の開発サイクルを大幅に短縮する可能性を秘めている。

ただし、量子位の記事でも指摘されている通り、SimFoundryが生成するデジタルカズンの品質が常に現実世界の物理的制約と整合するかどうかは、さらなる検証が必要である。また、シミュレーション環境の構築にはそれなりの計算リソースが必要であり、このコストをどの程度削減できるかも実用化における重要な要素となる。

編集部の見解

SimFoundryは、ロボット工学におけるSim2Realパラダイムに根本的な疑問を投げかける。シミュレーション環境を現実データから自動構築するReal2Simのアプローチは、ロボット開発のコスト構造を大きく変える可能性がある。特に、物体交換やタスク自動生成による「デジタルカズン」の自動拡張は、従来の手動によるシミュレーション構築の非効率性を打破する手段として有効である。 長期的視点で見れば、SimFoundryが示したReal2Simの方向性は、ロボットのみならず自動運転やドローン制御など、現実世界とのインタラクションを必要とするあらゆるAIシステムの開発手法に影響を与える可能性がある。現実データからシミュレーションを構築し、それを自動拡張して訓練データを生成するサイクルは、データ効率の飛躍的な向上をもたらす。 一方で、SimFoundryの評価手法が現実世界のパフォーマンスと高い相関を示したとはいえ、シミュレーションが現実を完全に代替できるわけではない。特に予期せぬ物理的相互作用やセンサノイズなど、シミュレーションでモデル化が困難な要素をどう扱うかが、今後の課題である。

参考

  • 量子位 — 2026-07-05T06:59:11.000Z公開

よくある質問

SimFoundryは従来のSim2Realと何が違うのか
従来のSim2Realはシミュレーション環境で訓練した戦略を現実世界に適用する。SimFoundryは逆に、現実世界の動画からシミュレーション環境を自動構築し、その環境で訓練を行うReal2Simアプローチを採用する。これにより、シミュレーションと現実のギャップを低減できる。
デジタルカズンとは何か
デジタルカズンは、現実シーンを正確に複製したデジタルツインとは異なり、シーンの機能とインタラクション方法を維持しつつ、物体の外観、レイアウト、タスクに妥当な変更を加えたシミュレーション環境である。これにより多様な訓練データを自動生成できる。
SimFoundryはどの程度のコスト削減効果があるか
具体的なコスト削減率は論文に明示されていないが、手作業によるシミュレーションシーン構築を自動化し、1本の動画からほぼ無限の訓練データを生成できる点で、従来手法と比較して大幅なコスト削減が期待される。 ## 参考 - [量子位「李飛飛署名具身新論文:Sim2Real烧不起,Real2Sim量大管飽」](https://www.qbitai.com/2026/07/443066.html) — 2026-07-05公開
出典: 量子位

コメント

← トップへ戻る