AIエージェントに身体を与えるJiuwen Symbiosis、オープンソース公開
openJiuwenコミュニティがPhysical AI向けアーキテクチャ「Jiuwen Symbiosis」をオープンソース公開。AIエージェントに現実世界での知覚と行動をもたらす設計思想を解説する。
openJiuwenコミュニティは6月13日、Physical AI向けアーキテクチャ「Jiuwen Symbiosis」をオープンソースで公開した。AIエージェントに現実世界での知覚と行動の基盤を与える設計が注目を集めている。コードはGitcodeで公開されている。
AI業界は現在、一つの根本的な課題に直面している。大規模言語モデル(LLM)はコード生成や数学的推論、高度な対話をこなす一方で、自分でコップ一杯の水を注ぐといった物理的な動作ができない。この矛盾こそが、「AIには身体がない」という限界を象徴している。
Moravecのパラドックスが示すもの
ロボット学者Hans Moravecが1988年に提唱したMoravecのパラドックスは、この状況を鋭く描写している。コンピュータにとってチェスや高等数学の解決は容易だが、人間の乳児でもできる「歩く」「掴む」「障害物回避」「バランス維持」といった動作は驚くほど困難である。
その理由は、これらの能力が論理的推論の産物ではなく、数百万年の進化によって形成された身体知能に根ざしているからだ。現在の大規模言語モデルは「水槽の中の脳」と揶揄される。IQは高いが実体がなく、現実世界の摩擦力、重力、空間幾何学を本質的に理解していない。
Physical AIの進化史
openJiuwenチームは、知能が物理世界で動作する進化を3段階に整理している。
1.0段階は手動タスクである。人間の理解に依存し、極めて原子的な制御操作を行う。ロボットアームの個別動作などが該当する。
2.0段階は仮想環境訓練(Sim2Real)だ。HabitatやAI2-THORなどのシミュレーション環境で学習し、空間概念を獲得し始める。複数のモデルを併用し、脳が指示を分析してタスクを実行する方式へと進化した。
しかし、この段階では複数の問題が顕在化している。
現在のVLAモデルが抱える5つの課題
第一に、跨本体環境汎化能力の欠如である。モデルが一度訓練されると、そのスキルセットは固定化される。ロボットに「引き出しを開けて内部の物体を掴む」という新タスクを学習させるには、データの再収集とモデルの再訓練が必要となる。Vision-Language-Action(VLA)モデルは組み合わせ汎化能力を欠いており、「引き出しを開ける」と「掴む」をゼロショットで結合できない。
第二に、長距離複合タスク能力の不足が挙げられる。短距離の原子的操作(「赤いブロックを掴む」など)は得意だが、「材料棚からトレイを取り出し、装置を迂回して機械にセットし、確認ボタンを押して元の位置に戻る」といった複合タスクでは、単一のVLAモデルではタスク分解、サブタスク編成、異常復帰が困難になる。
第三に、故障特定の難しさがある。現在のモデルは視覚、言語理解、物理推論、動作生成を全て一つのTransformerに圧縮している。実行時の失敗(掴みのずれ、衝突など)が発生した場合、その原因が知覚の誤認識、言語の曖昧さ、物理推論の誤り、制御軌道の発散のいずれに起因するのかを特定できない。
第四に、成功率の低さと安定性の悪さが問題だ。エンドツーエンドの基礎モデルは典型的なブラックボックス構造であり、関節位置や姿勢などの低レベル動作指令を直接出力する。大モデルが認知判断と運動制御の両方を担うため、実現難易度が高く、モデルの安定性も損なわれる。
3.0段階として、openJiuwenチームはJiuwen Symbiosisが目指す「共生時代」を位置づける。仮想と現実の境界を曖昧にし、Agentが物理法則を真に理解し、ハードウェアの低レベルトポロジを直接制御するAction系列を出力することを目指す。
Agent時代の到来とPhysical AIの必要性
2023年以降、AgentはAI分野で最も注目される方向性の一つとなった。Tool Calling、Function Calling、MCP、Browser Agent、Computer Use Agentなどが登場し、Agentは世界を操作する能力を獲得し始めている。しかし、これらのAgentが操作する対象は依然としてデジタル世界に限られる。
openJiuwenチームは、Agentが現実世界に進出する段階に来ていると見る。Physical AI Agentのモードは従来のAgentと本質的に異なる。従来のAgentはテキスト入出力を基本とするが、Physical AI Agentは現実環境とのインタラクションとフィードバックを必要とする。
チームはさらに、人間がタスクを実行する過程では観察やフィードバックが絶え間ないリアルタイムシステムであると指摘する。理論上は「センサーからVLM、LLM、Planner、ROS」のパイプラインは美しく見えるが、実際の実行ではJSONベースの複雑な積み重ねになりがちで、システムが複雑になるほどAgentの思考プロセスが不透明になる。
Jiuwen Symbiosisの設計思想:透明な状況認識
Jiuwen Symbiosisの設計思想は「Agentの思考プロセスは観察可能で、デバッグ可能で、協調可能であるべきだ」という点に集約される。チームはAgentの内部状態を明示的に公開し、ブラックボックスの中に隠さないアプローチを採用した。
認知層と実行層は共有Workspaceを通じて協調し、複雑なタスク実行を解決する。認知の正確性と迅速な応答を保証しつつ、跨本体適応を大幅に簡略化する。このコア骨格は「状況認識ループ(Situation Awareness Loop)」と呼称される。
このループに基づき、チームは安全計画、状態認識、観測フィードバック、空間記憶といった重要な技術モジュールを追加している。
5つの機能モジュールの詳細
マルチモーダル知覚(Multimodal Perception)では、Physical AI Agentに世界を能動的に知覚させる。理解を判断から分離し、Actionを実行する前にシーンを十分に理解し、構造化された世界状態(検出対象、対象姿勢、信頼度など)を生成する。
安全計画(Safe Planning)では、プロンプトによるタスク命令と構造化された世界状態に基づいてタスク計画を行う。関連するSkillのパラメータに動的に値を割り当て、物理的実現可能性、安全性、制約を検証し、実行不可能な計画を拒否する。
物理実行(Physical Action)では、Skillの提案に従い、関連するAction Toolの原子的能力を呼び出す。最終的には移動、掴み、設定、インタラクションといった連続的で制御可能な物理運動を実行する。
状態観察(Observation)では、物理動作実行後の現実世界の状態を収集し、構造的に抽出する。視覚などのセンサーを通じて実行結果を取得し、物体の姿勢、環境変化、インタラクション効果といった重要情報を認識する。出力された構造化された世界観測状態は、その後のフィードバック偏差計算に客観的根拠を提供する。
観測フィードバック(Feedback)では、観測結果に基づいてクローズドループ修正機構を構築する。実行偏差、異常状態、成功・失敗の判定を推論・計画モジュールにフィードバックする。動作パラメータのリアルタイム調整、計画シーケンスの動的最適化、異常シーンの自律復旧を実現し、同時にインタラクションデータを蓄積する。
編集部の見解
短期的影響について
Jiuwen Symbiosisのオープンソース公開は、Physical AIの分野に一つの設計指針を提供するものと評価できる。特に、認知層と実行層を分離し、Agentの内部状態を透明化する設計は、ロボティクスにおけるデバッグ容易性と信頼性の向上に寄与する可能性がある。3〜6ヶ月のスパンでは、同様の課題に直面する研究機関やスタートアップがJiuwen Symbiosisのアーキテクチャを参照・採用する動きが広がると見られる。
長期的視点について
1〜3年のスパンで考えると、認知と実行の分離、明確な状況認識ループという設計思想が、Physical AIの標準アーキテクチャとして定着する可能性がある。特に、ブラックボックス化されたVLAモデルの限界が認識されるにつれ、モジュール分割と透明性を重視するアプローチへのシフトが加速するだろう。製造業や物流分野での応用が先行し、その後サービスロボティクスへと波及すると想定される。
編集部からの問い
Jiuwen Symbiosisが掲げる透明性の高い設計は、実際の産業用ロボット制御においてどの程度の性能差を生むのか。ブラックボックス型のエンドツーエンドモデルと比較した場合のトレードオフ、特にレイテンシとタスク成功率のデータが待たれる。また、共有Workspaceによる認知・実行連携の設計が、複数ロボット間の協調動作に応用可能かどうかも、今後の検証課題と言えそうだ。
参考
- 量子位「Agent终于長出了身体:Jiuwen Symbiosis背後的思考与実践」 — 2026-06-13公開
よくある質問
- Jiuwen Symbiosisとは何か
- openJiuwenコミュニティが開発したPhysical AI向けアーキテクチャ。AIエージェントに現実世界での知覚と行動をもたらすための設計で、認知層と実行層が共有Workspaceを通じて協調する「状況認識ループ」を中核に持つ。オープンソースで公開されている。
- Physical AIとはどのような概念か
- デジタル世界だけでなく、現実の物理世界で動作する人工知能の総称。従来のAIがテキストや画像の処理に特化していたのに対し、Physical AIはロボットなどを通じて物理的な動作、知覚、インタラクションを行う。Jiuwen Symbiosisはこのための基盤アーキテクチャを提供する。
- VLAモデルとJiuwen Symbiosisの違いは何か
- VLA(Vision-Language-Action)モデルは視覚、言語、動作生成を一つのブラックボックスに統合するのに対し、Jiuwen Symbiosisは認知層と実行層を分離し、Agentの内部状態を明示的に公開する。これにより故障原因の特定やデバッグが容易になり、跨本体適応も簡略化される。
コメント