AI

VASTのProject Eden、世界モデルに「セーブデータ」を実現

VASTが発表したProject Edenは、世界モデルに状態の永続化とマルチエージェント並行をもたらし、動画生成を超えた真のインタラクティブ環境を構築する。

13分で読める SINGULISM 編集チームが確認・編集

VASTのProject Eden、世界モデルに「セーブデータ」を実現
Photo by Elijah Mears on Unsplash

過去1年で、「世界モデル」はAI業界で最もホットなキーワードの一つとなった。ますます多くの機関が、自社モデルが世界をシミュレートできると主張し始めている。ユーザーが一文を入力すれば、モデルが連続的な動画を生成し、特定のアクションやカメラアングルを与えると、画面内の人間やシーン、物体も追従する動きを見せる。多くの人にとって、AIはある種の世界創造能力を獲得したかのように見える。

しかし、よく考えてみると、一見連続した動画を生成することと、世界を構築することは本当に同義だろうか。

世界モデルの限界と課題

現在多くのいわゆる「世界モデル」は、本質的には依然としてビデオ予測器に近い。これらは、過去のフレームに基づいて次のフレームを推測し、入力されたアクションに基づいて短い視覚結果を生成することに長けているが、世界の状態そのものは独立して維持されていない。言い換えれば、モデルが見ているのはピクセルの列に過ぎず、長期間存在し、複数のユーザーが同時に入り込み、アクションによって継続的に変化させられるような「世界」ではない。

これが根本的な限界を生んでいる。物体がフレーム外に移動した場合、モデル内部ではその物体はまだ存在しているのだろうか? ユーザーが振り返って戻ってきたとき、シーンは一貫性を保てるだろうか? 複数のプレイヤーが異なる視点から同じ空間に入ったとき、彼らが見ているものは本当に同じ世界なのだろうか……これらの問題が解決されない限り、これらのいわゆる世界モデルは、「世界に見える動画」でしかなく、真の世界とは言えない。

現在、「世界モデル」と広く呼ばれている技術的アプローチは、大まかに二つのカテゴリに分類できる。第一のカテゴリは、アクション条件付き動画生成だ。そのようなモデルは通常、テキスト、画像、アクション指令、またはカメラ軌道に基づいて連続的な動画を生成する。利点は視覚効果が直感的で、生成結果がユーザーに理解されやすく、ある程度のインタラクション感を素早く示せることにある。しかし問題は、そのようなモデルの本質は依然として2Dピクセル軌道の予測にある。世界で何が起き、物体がどこにあり、状態がどう変化するか、という情報は往々にして直近の数フレームの画面に暗黙的に圧縮されている。物体がカメラの視界から外れると、モデルにはそれを保存する独立した「世界状態」がない。カメラが再度戻ってきたとき、モデルは過去のコンテキストに基づいてこの物体を再生成、あるいは再「想像」するほかない。これも、多くの動画生成モデルが短時間では連続して見えるものの、時間が長くなったり視点が変わったり、複雑なインタラクションが導入されると、物体の消失、構造の変形、論理的一貫性の欠如などの問題が発生しやすい理由である。

第二のカテゴリは、静的3Dシーン生成だ。そのようなモデルは、遊覧可能な三次元空間を生成できる。単眼動画生成に比べ、確かに「空間」そのものに近い。しかし、静的な空間だけで、時間的次元、物理的ロジック、状態遷移メカニズムがなければ、真の世界モデルとは言い難い。真に有用な世界とは、見えるだけでなく、変更可能で、持続的に動作し、複数のユーザーまたはエージェントが同時に入り込めるものである。

Project Edenの独自アーキテクチャ

そこで、VASTは世界モデルについて明確な判断を下している。一つの合格した汎用世界モデルは、少なくとも二つの核となる問題を同時に解決できなければならない。第一は、世界の現在の客観的状態は何か。第二は、その状態がアクション、時間、インタラクションによってどう継続的に進化するか。この二つを同時に備えて初めて、世界モデルは「コンテンツを生成する段階」から「インタラクティブな環境を生成する段階」へと進むことができる。

Project Edenのアーキテクチャ:三層解離

Project Edenの最も重要なアーキテクチャ的選択は、基底の状態推論と視覚呈現をネイティブに分離したことにある。従来の動画生成モデルでは、状態と画面は高度に結合していた。モデルが見たのはピクセルであり、予測するのもピクセルだった。世界に何があり、物体がどう変化し、ユーザーのアクションが何を引き起こすか、といった情報は動画フレーム列に暗黙含まれていた。Project Edenのアプローチは異なる。空間、イベント、視点、視覚的外観をすべてピクセル履歴に詰め込むのではなく、「世界そのもの」と「世界の見え方」を分離した。

第一層は構造化状態層であり、このシステムの真の基盤である。この層は、時間軸を超えて持続的に存在し、アクションによって更新可能で、任意のカメラ位置から問い合わせ可能なグローバルな構造化表現を形成する。巨大な4D点群(これは許容できない計算コストをもたらす)ではなく、効率性と意味的豊かさを兼ね備えたコンパクトな暗黙的表現である。この層は「世界に何があり、何が起きたか」に応答する。世界の客観的基底であり、あらゆる観察者の視点から独立して存在する。

第二層は条件インターフェース層であり、状態とレンダリングの間の変換ハブとなる。この層の機能は、基底のグローバル世界状態を、特定のカメラ位置と観察視点に従い、生成タスクに適した局所的条件拘束(意味情報、幾何手がかり、局所的イベント変化などの中間表現を含む)に変換することである。すべての視点のレンダリングは同じ基底状態から条件を抽出する。これにより物理的メカニズムから、複数視点間の一貫性が保証される。異なるプレイヤーが見ているのは、それぞれ独立したピクセル履歴ではなく、同じ世界の異なる窓となる。

第三層は生成的レンダリング層であり、基底状態と中間拘束の二重のガイドのもと、精緻な視覚画面の生成を担う。最上位のレンダリングモデルは、画面構造を推測する責務を負う必要がなくなる。構造情報は基底状態によって提供されるからだ。レンダラーは、与えられた構造拘束のもとで、テクスチャ、ライティング、材質、および高周波の局所的動的ディテールを補完し、高忠実度の視覚画面を生成する、自らの真に得意な部分に集中できる。

この三層アーキテクチャは、世界モデルの基本的な組織方法を変える。状態は画面に依存するのではなく、安定した、問い合わせ可能で、進化可能な基盤として独立して存在する。レンダリングもすべての論理的推論を担うのではなく、現在の状態、視点、アクション条件に基づいて必要に応じて画面を生成する。したがって、Project Edenは従来の動画生成パスで次のフレームを予測し続けるのではなく、問題を書き換えた。まず世界の次の瞬間の状態を推論し、次にその状態からユーザーが今この瞬間に見る画面を生成する。前者はビデオの続編生成に近く、後者こそが真の世界シミュレーションに近い。

三つの革新しい能力

アーキテクチャの違いは、究極的には能力の境界における本質的差異として現れる。Project Edenの三層解離アーキテクチャは、従来の動画生成方式では到達し得なかった一連のシステムレベル能力を自然と解放する。

環境の長距離永続化

環境の長距離永続化は、その中で最も直感的かつ破壊的な能力の一つだ。Project Edenでは、物体がカメラの視界から外れても、世界から消えることを意味しない。物体は基底状態に依然として存在し、世界のロジックに従い動作し続ける。ユーザーが振り返り、去り、再び戻ったとき、システムが照会するのは同じ基底世界状態だ(例えば、プレイヤーが離れ、振り返れば、あの木はまだそこにいる)。過去の動画フレームに基づいて類似の画面を再生成するのではない。これは以下のことを意味する、世界は真の意味での長距離記憶を持つことができることだ。ユーザーはもはや一回限りの生成動画を視聴するのではなく、持続的に存在する環境に入り込むことになる。

シーンの自由な再利用と確定的制御

シーンの自由な再利用と確定的制御は、第二の核となる能力だ。従来の動画生成は一回限りのタイムラインだ。一度生成されれば、歴史は固定され、後戻りや分岐はできない。しかし解離アーキテクチャでは、基底状態は読み書き可能で、介入可能だ。ユーザーがシーン中で行った破壊、建造、変更は、基底状態に書き込まれる。その後同じシーンに入ってきた他のユーザーは、完全に一致する世界状態を見ることになる。もはや毎回新しい動画を生成するのではなく、すべての人が同じ持続的に進化する世界を共有する。例えば、あるユーザーがシーン中の特定の物体を壊し、建築物を移動させ、あるエリアの状態を変えた場合、これらの変化は世界に実際に残る。その後同じシーンに他のユーザーが入っても、一貫した結果が見える。これにより、生成コンテンツは一回限りの動画から、再利用可能で、編集可能で、持続的に運営可能なインタラクティブ空間へと変わる。

ネイティブなマルチエージェント並行

第三は、ネイティブなマルチプレイヤーおよびマルチエージェントの並行インタラクションだ。従来の動画世界モデルにとって、マルチプレイヤーは非常に困難な課題だった。各プレイヤーが独自の視点、アクション、画面履歴を持つため、各プレイヤーごとに独立した動画コンテキストに依存して生成する場合、計算コストと一貫性の維持は急速に制御不能になる。解離アーキテクチャでは、基底状態は一つだけ存在し、すべてのエージェントで共有される。レンダリング層は各自の位置と視点に基づいて独立して画面を生成し、計算コストは指数関数的から線形に変わる。N人のプレイヤーが同時にオンラインにいる場合、システムは1つの基底状態とN本のレンダリングを維持するだけであり、N個の完全に独立した生成システムを維持するのではない。これは単なる性能最適化ではなく、商業的に大規模に展開するための前提条件となる。

データ構築の戦略的意義

Project Edenの背後にあるデータ構築ロジックも、同様に深く探究する価値がある。VASTは、独自の分層式データパイプラインを提案したとされる。世界モデルのトレーニングには、単なる動画データだけでなく、空間構造、物理的インタラクション、状態変化を含む高品質な3Dデータが不可欠だ。このデータパイプラインは、生の映像データから構造化された世界状態表現を抽出し、三層アーキテクチャに適合した形でデータを前処理する。これにより、モデルが世界の客観的状態を学習し、維持する能力を向上させる。

従来の動画データセットは、主にピクセルレベルの時間的連続性を捉えることに焦点を当てていた。しかし、Project Edenが目指すような永続的でインタラクティブな世界を構築するには、物体間の関係、環境の物理的法則、アクションの結果といった、より深い意味情報がデータに必要となる。VASTのアプローチは、これらの複雑な情報を効率的に抽出し、モデルに供給するためのインフラを提供することで、世界モデルの実用化を加速させる可能性がある。

まとめと展望

VASTが発表したProject Edenは、世界モデルの概念を大きく進化させるものだ。従来の動画生成モデルが抱えていた根本的な限界、すなわち世界状態の非永続性とマルチユーザー環境への対応困難を、三層アーキテクチャという技術的革新で解決しようとしている。状態とレンダリングの分離により、世界は「見える」だけの動画から、「存在し、変化し、共有できる」インタラクティブな空間へと変わる。

この技術が成熟すれば、ゲーム、シミュレーション、教育、バーチュアルツインなど、幅広い分野に応用される可能性がある。例えば、複数のプレイヤーが同じ仮想世界で長期にわたりインタラクションできるゲームや、現実世界の環境をデジタル上で忠実に再現したシミュレーション基盤などが考えられる。ただし、これはまだ研究開発の初期段階にあり、計算コスト、データ要件、リアルタイム性能といった課題は残されている。

Project Edenは、世界モデルが「生成AI」から「シミュレーションAI」へと進化するための重要な一歩を示している。今後の展開が注目される。

よくある質問

Project Edenの三層アーキテクチャとは何ですか?
Project Edenは、状態推論、条件インターフェース、生成的レンダリングの三層を分離したアーキテクチャです。これにより、世界の状態が画面から独立して維持され、永続的な環境やマルチエージェント対応が可能になります。
従来の動画生成モデルと何が違うのですか?
従来モデルはピクセル列を予測する「動画予測器」に近く、物体がカメラから外れると存在が失われます。Project Edenは世界状態を独立管理するため、物体が画面外にあっても存在し続け、複数ユーザーが同じ世界を共有できます。
この技術の応用例はどのようなものですか?
長期的なインタラクションが可能なゲームやシミュレーション、複数ユーザーが共同作業できるバーチュアル環境、物理的に正確なデジタルツインなどが考えられます。ただし、実用化にはさらなる研究が必要です。
出典: 虎嗅网

コメント

← トップへ戻る