AnthropicがClaude Computer Useを発表し、コンピューターエージェント(Computer Use Agent)の第一歩を踏み出してから、OpenAIも立て続けにOperatorをリリースし、強化学習(RL)アルゴリズムを用いてコンピューターエージェントの能力を新たな高みへと押し上げ、世界中で大きな注目を集めています。
業界では、コンピューターエージェントの性能を飛躍的に向上させるには、膨大な軌跡データや複雑な強化学習が必要だと広く認識されています。これは、大量の手動軌跡アノテーションと、エージェントの学習と最適化をサポートするための大規模な仮想環境の構築を意味する可能性があります。
しかし、上海交通大学とSIIによる最新の研究は、常識を覆す答えを示しました。わずか312の人間がアノテーションした軌跡を使用し、Claude 3.7 Sonnetを用いてより豊富な行動決定を合成することで、モデルの性能を241%も向上させ、さらにはClaude 3.7 Sonnet extended thinkingモードをも凌駕し、Windowsシステムにおけるオープンソースコンピューターエージェントの次世代SOTAとなりました。
論文タイトル:Efficient Agent Training for Computer Use
論文URL:https://arxiv.org/abs/2505.13909
コードURL:https://github.com/GAIR-NLP/PC-Agent-E
モデルURL:https://huggingface.co/henryhe0123/PC-Agent-E
データURL:https://huggingface.co/datasets/henryhe0123/PC-Agent-E
この発見は、現在の大規模モデルがコンピューターを使ってタスクを完了する基本的な能力をすでに備えているという重要なシグナルを送っています。その性能のボトルネックは、主に長期的推論(long-horizon planning)能力の活性化にあり、この能力はごく少量の高品質な軌跡を使用することで著しく向上させることができます。
PC Agent-E:ごく少量の軌跡で強力なコンピューターエージェントを訓練する方法とは?
データはどこから?人間が提供する生の操作軌跡
大規模な手動アノテーションや複雑な自動合成に頼る従来の方式とは異なり、このチームの方法はわずか312の実際の人間操作軌跡で済みます。これらの軌跡は、チームが開発したツールPC Trackerによって収集され、たった2人の著者が1日かけて自身のコンピューターを操作するだけで、生の軌跡データの収集が完了しました。各軌跡には、タスクの説明、スクリーンショット、キーボードとマウスの操作が含まれており、データの正確性が保証されています。
312の軌跡の異なるソフトウェアでの分布
思考チェーン補完:「行動」に「思考」の裏付けを
人間はそれぞれの行動を実行する際、しばしば一定の理由や「思考プロセス」を持っています。しかし、収集された生の軌跡データには、この「思考チェーン」が欠落しています。そこで、チームは人間の行動に対して「思考チェーン補完」(Thought Completion)を行い、各行動ステップの背後にある思考ロジック(ReActパラダイムに準拠)を追加しました。この時点のデータはエージェントの訓練に十分でしたが、チームはこれに留まらず、次の重要なステップで軌跡の品質をさらに大幅に向上させました。
軌跡ブースト:AIが「アイデアを広げる」手助けを
次に、チームは重要な革新点として「軌跡ブースト(Trajectory Boost)」を提案しました。これが、ごく少量の軌跡でClaude 3.7 Sonnet(thinking)を超えるモデルを実現する鍵です。
その核心的な観察は、各コンピュータータスクは複数の経路で完了できるという点です。つまり、人間が取った行動以外にも、軌跡の各ステップには複数の「妥当な行動決定」が存在します。この軌跡内在の多様性を捉えるため、チームは最先端モデルであるClaude 3.7 Sonnetを利用し、軌跡の各ステップに対してより多くの行動決定を合成しました。チームは、軌跡の各ステップに記録されたデータが「環境スナップショット」として、人間またはエージェントに意思決定情報を提供するのに十分であることに注目しました。そこで、これらのスナップショットをClaude 3.7 Sonnetに提供し、思考プロセスを含む複数の行動決定をサンプリングしました。このプロセスは、軌跡データの多様性を大幅に豊かにしました。
思考チェーン補完と軌跡ブースト
モデル訓練:少量のデータでも強力なモデルを訓練可能
最終的に、チームはオープンソースモデルQwen2.5-VL-72Bをベースに訓練を行い、PC Agent-Eエージェントを得ました。PC Agent-Eは、ネイティブエージェントモデル(native agent model)として、複雑なワークフロー設計に依存することなく、エンドツーエンドのタスク実行を実現できます。驚くべきことに、わずか312の人間がアノテーションした軌跡を使用するだけで、モデルの性能は訓練前の241%に達し、極めて高いサンプル効率を示しました。
チームはWindowsAgentArena-V2で評価を行いました。これは、元のWindowsAgentArenaに存在した問題を改善した新バージョンです。実験結果によると、PC Agent-Eの性能は、データ合成に使用されたClaude 3.7 Sonnetが「extended thinking」モードを有効にしていなかったにもかかわらず、そのモードのClaude 3.7 Sonnetをも上回りました。これは、PC Agent-Eが現在のWindowsシステムにおけるオープンソースコンピューターエージェントの次世代SOTAであることを示しています!同時に、PC Agent-EはOSWorldにおいても優れたクロスプラットフォーム汎化性能を発揮しました。
WindowsAgentArena-V2における異なるコンピューターエージェントの評価結果
軌跡ブースト方法の強力な検証
本論文の重要な革新の一つである軌跡ブースト方法は、人間の軌跡の各ステップに9つの合成行動決定を補完しました。この方法の効果をさらに検証するために、チームは訓練時に使用する合成行動の数を調整し、モデルの性能への影響を観察しました。
図に示すように、合成行動の数が増加するにつれて、モデルの性能は著しく向上し、良好な拡張傾向を示しました。人間軌跡のみで訓練した場合(性能向上はわずか15%)と比較して、PC Agent-Eは合成行動を導入することで141%もの性能飛躍を達成し、軌跡ブースト方法がエージェントの能力突破に不可欠な役割を果たすことを十分に証明しました。
訓練データ中の行動決定の拡張倍数に応じたモデル能力の変化
結論と展望
実験結果は、少量の高品質な軌跡でも、エージェントの強力な長期的推論(long-horizon planning)能力を活性化するのに十分であるという重要な見解を力強く証明しました。膨大な人間によるアノテーションなしに、現在の最先端(SOTA)のコンピューターエージェントを訓練することができます。
現在、最先端のコンピューターエージェントであっても、その能力は人間と比較して依然として顕著な隔たりがあります。このような状況下で、プレトレーニングおよび教師ありファインチューニングの段階で一定の人間的認知を導入することは、その後の強化学習のための強固な基盤を築く上で依然として必要なステップです。
チームの方法は、人間がアノテーションする軌跡が必然的に限られている状況において、軌跡の品質を向上させることで効率的な性能向上を実現できるという新たな考え方を提供します。これはデータ要件を低減するだけでなく、将来的に、より知的で自律的なデジタルエージェントを構築するための道を切り開くものです。PC Agent-Eは単なる始まりに過ぎません。真にデジタル世界を理解し、自由に操作できるインテリジェントエージェントへの道は、まだ続いています。
© THE END
転載については、本公式アカウントにご連絡の上、許可を得てください。
投稿または取材依頼:liyazhou@jiqizhixin.com