Microsoft Research、AIモデルが長時間タスク処理に課題か
Microsoft Researchの研究者が、最新のAIモデルでも長時間のワークフロー処理でエラーが発生することを明らかにした。52の専門ドメインをテストした結果、Pythonプログラミングのみが基準を満たした。
Microsoft ResearchがAIの長時間タスク処理能力を検証
マイクロソフトの研究部門であるMicrosoft Researchは、大規模言語モデル(LLM)やAIエージェントが、複数ステップにわたる長時間のワークフロー処理において、重大なエラーを引き起こすことを明らかにした。同社の研究者らは、企業が自動化ワークフローにAIを導入する際には、細心の注意を払うべきだと指摘している。
DELEGATE-52ベンチマークで52ドメインをテスト
研究チームは、LLMが長時間の知識労働タスクをどのように処理するかを検証するため、「DELEGATE-52」というベンチマークを設計した。これは、プログラミングや結晶学、音楽記譜法など、52の専門職ドメインにわたる多段階ワークフローをシミュレーションするものだ。
例えば、会計ドメインでは、非営利団体の会計台帳を表す初期ドキュメントを、LLMにカテゴリー別に分割し、時系列で再統合するよう依頼する。これは、単なる表計算よりも高度な処理能力が求められる課題だ。
フロンティアモデルでも平均25%のコンテンツ損失
テストの結果、現在のLLMはドキュメント編集において重大なエラーを導入することが判明した。フロンティアモデルと呼ばれるGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でさえ、20回の委任インタラクションを経るうちに、平均してドキュメント内容の25%を失うという結果だった。全モデルの平均劣化率は50%に達したという。
研究チームは、特定の作業ドメインで「ready」と見なされる基準を、20回のインタラクション後に98%以上の精度と設定した。しかし、テストされた52ドメインのうち、この基準を満たしたのはPythonプログラミングのみだった。他のすべてのドメインでは、LLMは基準を大きく下回った。
自然言語タスクで特に性能低下
LLMはプログラミングタスクでは比較的良好な性能を示したが、自然言語を扱うタスクでは特に性能が低下することが示された。研究論文は「LLMs Corrupt Your Documents When You Delegate(委任するとLLMはドキュメントを破損させる)」というタイトルで、プレプリントとして公開されている。
この研究結果は、AIエージェントが自律的に複雑な業務を処理するという従来の期待に疑問を投げかけるものだ。AnthropicがClaude Coworkで「目標を与えると、コンピューターやローカルファイル、アプリケーションを操作して完成品を返す」と謳ったり、マイクロソフト自身がMicrosoft 365 Copilotで「作業データやウェブにわたる複雑な多段階リサーチに対応」と宣伝したりしているのとは対照的な結果と言える。
業界への影響と今後の課題
この発見は、AIを活用した自動化ワークフローの導入を進める企業にとって重要な警告となる。研究者らは、長時間の委任タスクにおいてAIモデルの性能が著しく低下することを示しており、人間の監視や介入の必要性を強調している。
今後の課題として、LLMの長期記憶やコンテキスト維持能力の向上、エラー検出と回復メカニズムの強化が挙げられる。AIエージェントが実務環境で信頼性を高めるためには、これらの技術的課題を克服する必要があるだろう。
よくある質問
- この研究でテストされたAIモデルは具体的に何か?
- 研究では、フロンティアモデルとしてGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4がテストされました。これらの最新モデルでも、長時間のワークフロー処理では平均25%のドキュメント内容損失が発生しました。
- なぜPythonプログラミングだけが基準を満たしたのか?
- Pythonプログラミングは構造化されたコード生成タスクであり、自然言語処理よりもLLMが得意とする分野です。他のドメインでは、曖昧さや複雑な文脈理解が求められるため、性能が低下したと考えられます。
- この研究結果はAIの実用化にどのような影響を与えるか?
- AIエージェントを長時間の自律タスクに使用する際の人間監視の必要性を示唆しています。企業はAIを完全に自動化するのではなく、チェックポイントを設けるなど、段階的な導入を検討すべきでしょう。
コメント