開発

ByteDanceがGUI操作を可能にするマルチモーダルAIエージェントを公開

ByteDanceがGitHubでマルチモーダルAIエージェント「UI-TARS Desktop」を公開。GUI操作やブラウザ制御が可能なデスクトップアプリケーションで、画期的な機能を備えている。

4分で読める SINGULISM 編集チームが確認・編集

ByteDanceがGUI操作を可能にするマルチモーダルAIエージェントを公開
Photo by Team Nocoloco on Unsplash

ByteDanceがマルチモーダルAIエージェントスタックを公開

ByteDanceが、GitHub上でマルチモーダルAIエージェントのスタック「TARS」を公開し、注目を集めている。このスタックは現在、「Agent TARS」と「UI-TARS-desktop」という2つのプロジェクトで構成されており、特に後者はネイティブなGUIエージェント機能を備えたデスクトップアプリケーションとして提供されている。

画期的な「UI-TARS Desktop」の主な機能

UI-TARS Desktopは、UI-TARSモデルに基づくデスクトップアプリケーションだ。その最大の特徴は、ローカルおよびリモートのコンピュータ、そしてブラウザを操作するオペレーター機能を備えている点にある。具体的には、2025年6月にリリースされたv0.2.0では、リモートコンピュータオペレーターとリモートブラウザオペレーターという2つの強力な機能が追加された。設定不要でクリックするだけで、任意のコンピュータやブラウザをリモート制御できるという。

さらに、2025年4月にリリースされたv0.1.0では、エージェントUIが刷新され、コンピュータ操作体験の向上、新しいブラウザ操作機能の導入、そして高性能なUI-TARS-1.5モデルへの対応が実現された。これにより、より精密な制御が可能になったとされている。

汎用マルチモーダルエージェント「Agent TARS」

もう一方のプロジェクトである「Agent TARS」は、汎用的なマルチモーダルAIエージェントスタックだ。ターミナル、コンピュータ、ブラウザ、そしてプロダクトに、GUIエージェントとビジョンの力をもたらすことを目的としている。主にCLIとWeb UIを通じて利用され、最先端のマルチモーダルLLMと様々な実世界のMCPツールとのシームレスな統合によって、人間に近いタスク完了を実現するワークフローの提供を目指している。

2025年11月にリリースされたCLI v0.3.0では、複数ツールのストリーミングサポートや、ツール呼び出しのタイミング統計、データフロー追跡のためのEvent Stream Viewerなど、開発者にとって有用な機能が追加された。

開発者コミュニティへの影響と今後の展望

ByteDanceによるこのプロジェクトの公開は、GUI自動化とマルチモーダルAIの融合という、現在のテクノロジー業界における重要なトレンドを象徴している。特に、デスクトップ環境におけるAIエージェントの実用化に向けた具体的な実装をオープンソースとして提供した意義は大きい。

UI-TARS SDKのようなクロスプラットフォームツールキットも提供されており、開発者が独自のGUI自動化エージェントを構築する際の基盤として活用できる。これらのプロジェクトが、今後どのようなアプリケーションやサービスを生み出すのか、その動向から目が離せない。

よくある質問

UI-TARS Desktopは無料で使えますか?
はい、プロジェクトの発表によると、リモートコンピュータオペレーターとリモートブラウザオペレーターの機能は完全に無料で提供されています。特別な設定も必要なく、クリックするだけで利用を開始できるとのことです。
Agent TARSとUI-TARS Desktopの違いは何ですか?
Agent TARSは、ターミナルやWeb UIを通じて利用できる汎用的なマルチモーダルAIエージェントのスタックです。一方、UI-TARS Desktopは、UI-TARSモデルに基づいた専用のデスクトップアプリケーションで、特にローカルやリモートのコンピュータ、ブラウザをグラフィカルに操作するための機能に特化しています。
このプロジェクトはどのような開発者に役立ちますか?
GUIの自動化テスト、ブラウザベースのタスク自動化、あるいはより高度なコンピュータ操作をAIに委任するシステムの構築に関心がある開発者に特に有益です。提供されているSDKを使えば、独自のエージェントを開発する際の出発点としても活用できます。
出典: GitHub Trending

コメント

← トップへ戻る