微軟在官網上開源了一個專用於瀏覽器網路任務的代理程式——Magentic-UI。
Magentic-UI 是基於微軟先前開源的 Magentic-One 基礎上開發而成,並支援人機協同的控制方法,以提升智慧代理的執行效率和準確度。
根據 GAIA 測試數據顯示,當配備具有輔助資訊的模擬使用者時,Magentic-UI 的任務完成率從自主模式下的 30.3% 提升至 51.9%,準確度提高了 71%。此外,Magentic-UI 在執行任務時僅在 10% 的情況下向模擬使用者尋求幫助,且平均每次任務僅需幫助 1.1 次。
開源位址:https://github.com/microsoft/magentic-ui
Magentic-UI 以人為本
Magentic-UI 最大亮點之一便是以人類為中心,與傳統代理程式的不同在於其將人類深度融入到任務執行的各個環節,而不是單純追求完全自動化。
傳統代理程式往往以實現任務的自主完成為目標,強調的是機器的獨立性和自動化程度,使用者可能對代理程式的具體操作過程和決策依據不夠了解,甚至在出現問題時難以及時干預和糾正。
而 Magentic-UI 則採用了人機協作的模式,充分考慮了人類在任務執行中的作用和價值,透過與使用者緊密協作來完成任務,讓使用者能夠即時掌控代理程式的行為,並根據需要進行調整和指導。
在規劃階段,Magentic-UI 會與使用者進行協同規劃,不會直接按照預設的程式或演算法來制定任務計畫,而是先與使用者溝通交流,了解使用者的需求和期望,然後生成一個初步的分步計畫,並允許使用者透過計畫編輯器或提供文字回饋的方式直接修改這個計畫。
使用者可以根據自己的經驗和對任務的理解,對計畫中的步驟進行新增、刪除、調整順序等操作,甚至可以重新撰寫某些步驟,以確保計畫更符合實際需求。這種協同規劃的方式,使得使用者能夠將自己的專業知識和經驗融入到任務計畫中,從而提高任務完成的品質和效率。
在任務執行過程中,Magentic-UI 也強調與使用者的協同執行。它會即時向使用者展示自己即將採取的具體行動,比如要點擊哪個按鈕、輸入什麼內容、訪問哪個網頁等,同時也會將觀察到的網頁資訊即時回饋給使用者。
使用者可以隨時暫停代理程式的操作,透過自然語言向代理程式提供回饋,指出問題、提出建議或進行糾正,甚至可以直接接管瀏覽器的操作,親自完成某些步驟,然後再將控制權交還給 Magentic-UI。這種協同執行的方式,讓使用者能夠及時發現並解決代理程式在執行過程中可能出現的問題,避免了因代理程式的錯誤操作而導致任務失敗或產生不良後果。
Magentic-UI 還具有獨特的「行動保護」機制,即在執行一些可能不可逆的操作之前,會徵求使用者的許可。這些操作可能包括關閉分頁、點擊有副作用的按鈕、提交表單等。
使用者可以根據自己的判斷,決定是否允許代理程式執行這些操作,從而避免了因代理程式的盲目操作而帶來的風險。Magentic-UI 還採用了沙盒技術,將瀏覽器和程式執行器等工具運行在隔離的環境中,進一步確保了操作的安全性,防止了代理程式可能帶來的安全威脅。
Magentic-UI 框架簡單介紹
當使用者向 Magentic-UI 提出一個自動化任務請求時,系統首先會接收使用者的輸入,這可以是簡單的文字指令,也可以是附帶圖像的複雜需求。Magentic-UI 的核心組件協調器,會根據使用者的輸入,利用其背後的大型語言模型(LLM)能力,生成一個初步的分步計畫。這個計畫詳細列出了完成任務所需的各個步驟,包括需要訪問的網頁、需要執行的操作以及可能需要呼叫的其他工具。
生成初步計畫後,Magentic-UI 並不會直接開始執行,而是進入一個關鍵的協同規劃階段。在這個階段,使用者可以透過一個直觀的計畫編輯介面,直接對 Magentic-UI 生成的計畫進行修改。使用者可以新增、刪除或調整計畫中的步驟,甚至可以完全重新撰寫某些步驟。
Magentic-UI 會即時回饋使用者的修改建議,並根據使用者的回饋調整計畫。這一過程確保了使用者能夠將自己的專業知識和期望融入到任務計畫中,從而提高任務完成的準確性和效率。
經過使用者確認或修改後的計畫會被發送到執行階段。Magentic-UI 的執行過程是高度透明和協作式的。系統會即時向使用者展示它即將採取的具體行動,例如,點擊按鈕、輸入搜尋詞或訪問特定網頁。
同時,Magentic-UI 也會將它在網頁上觀察到的資訊即時回饋給使用者。使用者可以隨時暫停 Magentic-UI 的操作,並透過自然語言提供回饋,指出問題或提出建議。如果使用者認為某個步驟需要親自操作,他們甚至可以直接接管瀏覽器的操作,完成特定步驟後再將控制權交還給 Magentic-UI。
Magentic-UI 的另一個重要特性是自我計畫學習。在完成任務後,它可以從使用者的回饋和任務執行過程中學習並保存分步計畫,形成一個計畫庫。
在未來的任務中,當使用者輸入與之前相似的任務時,Magentic-UI 可以快速檢索並呼叫相應的計畫,從而大大提高任務執行的效率。並且,使用者可以隨時查看和修改保存的計畫,根據需要進行調整和優化,以便更好地應對不同的任務場景。
目前,Magentic-UI 在 Github 上獲得超過 4000 顆星,並支援 MIT 許可證商用。
本文素材來源微軟,如有侵權請聯繫刪除。
結束
點擊圖片立即報名👇️