Microsoftは公式ウェブサイトで、ブラウザ上のウェブタスクに特化したエージェント「Magentic-UI」をオープンソース化しました。
Magentic-UIは、Microsoftが以前にオープンソース化した「Magentic-One」をベースに開発されており、人間と機械が協調して制御する方法をサポートし、エージェントの実行効率と精度を向上させます。
GAIAテストデータによると、補助情報を持つシミュレートされたユーザーを伴う場合、Magentic-UIのタスク完了率は自律モードの30.3%から51.9%に向上し、精度は71%向上しました。さらに、Magentic-UIはタスク実行時、シミュレートされたユーザーに助けを求めるのはわずか10%のケースで、1タスクあたりの平均支援回数は1.1回でした。
オープンソースアドレス:https://github.com/microsoft/magentic-ui
Magentic-UI:人間中心
Magentic-UIの最大のハイライトの一つは、人間中心であることです。従来のAgentが完全な自動化を追求するのとは異なり、Magentic-UIはタスク実行のあらゆる段階に人間を深く統合します。
従来のAgentは、タスクの自律的な完了を目標とすることが多く、機械の独立性と自動化の度合いを重視します。ユーザーはAgentの具体的な操作プロセスや意思決定の根拠を十分に理解できない可能性があり、問題が発生した場合でも迅速に介入して修正することが困難でした。
一方、Magentic-UIは人間と機械の協調モデルを採用し、タスク実行における人間の役割と価値を十分に考慮しています。ユーザーと密接に連携してタスクを完了することで、ユーザーはAgentの行動をリアルタイムで把握し、必要に応じて調整や指示を行うことができます。
計画段階では、Magentic-UIはユーザーと共同で計画を立てます。事前に設定されたプログラムやアルゴリズムに直接従ってタスク計画を策定するのではなく、まずユーザーとコミュニケーションを取り、ユーザーのニーズと期待を理解します。その後、段階的な初期計画を生成し、ユーザーが計画エディタを介して、またはテキストフィードバックを提供することで、この計画を直接修正できるようにします。
ユーザーは自身の経験やタスクの理解に基づいて、計画のステップを追加、削除、順序変更したり、さらには一部のステップを書き直したりすることで、計画が実際のニーズにより適合するようにできます。この共同計画アプローチにより、ユーザーは自身の専門知識と経験をタスク計画に組み込むことができ、タスク完了の品質と効率が向上します。
タスク実行プロセスにおいても、Magentic-UIはユーザーとの共同実行を重視しています。どのボタンをクリックするか、何を入力するか、どのウェブページにアクセスするかなど、次に実行する具体的な行動をリアルタイムでユーザーに表示します。同時に、観察されたウェブページの情報もリアルタイムでユーザーにフィードバックします。
ユーザーはいつでもAgentの操作を一時停止し、自然言語でAgentにフィードバックを提供し、問題点を指摘したり、提案したり、修正したりできます。さらには、ブラウザの操作を直接引き継ぎ、特定のステップを自分で完了させてから、制御をAgentに返還することも可能です。この共同実行方式により、ユーザーはAgentが実行中に遭遇する可能性のある問題をタイムリーに発見・解決でき、Agentの誤操作によるタスク失敗や望ましくない結果を防ぐことができます。
Magentic-UIには、独自の「行動保護」メカニズムも備わっています。これは、不可逆的な操作を実行する前にユーザーの許可を求めるものです。これらの操作には、タブを閉じる、副作用のあるボタンをクリックする、フォームを送信するなどが含まれる場合があります。
ユーザーは自身の判断に基づいて、Agentがこれらの操作を実行することを許可するかどうかを決定でき、Agentの盲目的な操作によるリスクを回避できます。Magentic-UIはサンドボックス技術も採用しており、ブラウザやコード実行環境などのツールを隔離された環境で実行することで、操作のセキュリティをさらに確保し、Agentがもたらす可能性のあるセキュリティ脅威を防ぎます。
Magentic-UIフレームワークの簡単な紹介
ユーザーがMagentic-UIに自動化タスクリクエストを送信すると、システムはまずユーザーの入力を受け取ります。これは、単純なテキストコマンドの場合もあれば、画像が添付された複雑な要求の場合もあります。Magentic-UIのコアコンポーネントであるオーケストレーターは、ユーザーの入力に基づいて、背後にある大規模言語モデル(LLM)の能力を活用し、段階的な初期計画を生成します。この計画には、タスクを完了するために必要なすべてのステップが詳細にリストされており、訪問する必要があるウェブページ、実行する必要がある操作、および呼び出す可能性のあるその他のツールが含まれます。
初期計画が生成された後、Magentic-UIはすぐに実行を開始せず、重要な共同計画段階に入ります。この段階では、ユーザーは直感的な計画編集インターフェースを通じて、Magentic-UIが生成した計画を直接修正できます。ユーザーは計画のステップを追加、削除、順序変更したり、さらには一部のステップを完全に書き直したりできます。
Magentic-UIは、ユーザーの修正提案にリアルタイムでフィードバックを提供し、ユーザーのフィードバックに基づいて計画を調整します。このプロセスにより、ユーザーは自身の専門知識と期待をタスク計画に統合することができ、タスク完了の精度と効率が向上します。
ユーザーによって確認または修正された計画は、実行段階に送られます。Magentic-UIの実行プロセスは非常に透明性が高く、協調的です。システムは、ボタンをクリックする、検索語を入力する、特定のウェブページにアクセスするなど、次に実行する具体的な行動をリアルタイムでユーザーに表示します。
同時に、Magentic-UIは観察されたウェブページの情報もリアルタイムでユーザーにフィードバックします。ユーザーはMagentic-UIの操作をいつでも一時停止し、自然言語でフィードバックを提供し、問題点を指摘したり、提案したりできます。もしユーザーが特定のステップを手動で操作する必要があると判断した場合、ブラウザの操作を直接引き継ぎ、そのステップを完了させてから、Magentic-UIに制御を戻すことも可能です。
Magentic-UIのもう一つの重要な特徴は、自己計画学習です。タスク完了後、ユーザーからのフィードバックとタスク実行プロセスから学習し、段階的な計画を保存して計画ライブラリを形成することができます。
今後のタスクにおいて、ユーザーが以前と類似したタスクを入力した場合、Magentic-UIは対応する計画を迅速に検索・呼び出し、タスク実行効率を大幅に向上させることができます。また、ユーザーは保存された計画をいつでも表示・変更し、必要に応じて調整・最適化することで、さまざまなタスクシナリオに適切に対応できます。
現在、Magentic-UIはGithubで4000以上のスターを獲得しており、MITライセンスの下での商用利用をサポートしています。
本記事の素材はMicrosoftから提供されています。著作権侵害があった場合はご連絡ください。
終わり
画像をタップして今すぐ登録👇️