ByteDanceがGUI操作を可能にするマルチモーダルAIエージェントを公開
ByteDanceがGitHubでマルチモーダルAIエージェント「UI-TARS Desktop」を公開。GUI操作やブラウザ制御が可能なデスクトップアプリケーションで、画期的な機能を備えている。
ByteDanceがマルチモーダルAIエージェントスタックを公開
ByteDanceが、GitHub上でマルチモーダルAIエージェントのスタック「TARS」を公開し、注目を集めている。このスタックは現在、「Agent TARS」と「UI-TARS-desktop」という2つのプロジェクトで構成されており、特に後者はネイティブなGUIエージェント機能を備えたデスクトップアプリケーションとして提供されている。
画期的な「UI-TARS Desktop」の主な機能
UI-TARS Desktopは、UI-TARSモデルに基づくデスクトップアプリケーションだ。その最大の特徴は、ローカルおよびリモートのコンピュータ、そしてブラウザを操作するオペレーター機能を備えている点にある。具体的には、2025年6月にリリースされたv0.2.0では、リモートコンピュータオペレーターとリモートブラウザオペレーターという2つの強力な機能が追加された。設定不要でクリックするだけで、任意のコンピュータやブラウザをリモート制御できるという。
さらに、2025年4月にリリースされたv0.1.0では、エージェントUIが刷新され、コンピュータ操作体験の向上、新しいブラウザ操作機能の導入、そして高性能なUI-TARS-1.5モデルへの対応が実現された。これにより、より精密な制御が可能になったとされている。
汎用マルチモーダルエージェント「Agent TARS」
もう一方のプロジェクトである「Agent TARS」は、汎用的なマルチモーダルAIエージェントスタックだ。ターミナル、コンピュータ、ブラウザ、そしてプロダクトに、GUIエージェントとビジョンの力をもたらすことを目的としている。主にCLIとWeb UIを通じて利用され、最先端のマルチモーダルLLMと様々な実世界のMCPツールとのシームレスな統合によって、人間に近いタスク完了を実現するワークフローの提供を目指している。
2025年11月にリリースされたCLI v0.3.0では、複数ツールのストリーミングサポートや、ツール呼び出しのタイミング統計、データフロー追跡のためのEvent Stream Viewerなど、開発者にとって有用な機能が追加された。
開発者コミュニティへの影響と今後の展望
ByteDanceによるこのプロジェクトの公開は、GUI自動化とマルチモーダルAIの融合という、現在のテクノロジー業界における重要なトレンドを象徴している。特に、デスクトップ環境におけるAIエージェントの実用化に向けた具体的な実装をオープンソースとして提供した意義は大きい。
UI-TARS SDKのようなクロスプラットフォームツールキットも提供されており、開発者が独自のGUI自動化エージェントを構築する際の基盤として活用できる。これらのプロジェクトが、今後どのようなアプリケーションやサービスを生み出すのか、その動向から目が離せない。
よくある質問
- UI-TARS Desktopは無料で使えますか?
- はい、プロジェクトの発表によると、リモートコンピュータオペレーターとリモートブラウザオペレーターの機能は完全に無料で提供されています。特別な設定も必要なく、クリックするだけで利用を開始できるとのことです。
- Agent TARSとUI-TARS Desktopの違いは何ですか?
- Agent TARSは、ターミナルやWeb UIを通じて利用できる汎用的なマルチモーダルAIエージェントのスタックです。一方、UI-TARS Desktopは、UI-TARSモデルに基づいた専用のデスクトップアプリケーションで、特にローカルやリモートのコンピュータ、ブラウザをグラフィカルに操作するための機能に特化しています。
- このプロジェクトはどのような開発者に役立ちますか?
- GUIの自動化テスト、ブラウザベースのタスク自動化、あるいはより高度なコンピュータ操作をAIに委任するシステムの構築に関心がある開発者に特に有益です。提供されているSDKを使えば、独自のエージェントを開発する際の出発点としても活用できます。
コメント