微軟 Fara-7B 電腦操作模型,開啟端側智能代理新時代

微軟發布全新 70 億參數的 Fara-7B 模型,這是一款專為電腦操作設計的智能代理,它透過純視覺感知與合成資料訓練,在端側實現超越更大模型的高效能與安全性。

圖片

與傳統的聊天機器人不同,電腦使用代理(CUA)不僅要理解語言,還要像人類一樣操作滑鼠、鍵盤,在複雜的網頁環境中完成任務。

Fara-7B 以 70 億參數的輕量級身軀,不僅在性能上足以對標甚至超越那些依賴龐大運算資源的複雜系統,更重要的是,它讓這種強大的能力可以直接運行在用戶的本地裝置上。

這種端側部署的能力直接解決了雲端模型面臨的三大學痛點:回應延遲、隱私外洩風險以及高昂的推理成本。

Fara-7B 的出現,不僅僅是一個新模型的發布,更是微軟在探索小型語言模型(SLMs)潛力過程中的一個重要里程碑,它向我們展示了只要有高品質的資料和精巧的設計,小模型也能處理極其複雜的現實任務。

純視覺感知重構人機互動邏輯

Fara-7B 的核心設計理念是模仿人類的互動方式。

在過去的許多嘗試中,電腦代理往往依賴網頁背後的程式碼結構,例如無障礙樹(Accessibility Trees)或 HTML DOM 結構,來理解螢幕上的內容。

這種方式雖然能獲取結構化資料,但往往受限於網頁程式碼的規範程度,且與人類真實的視覺體驗存在巨大差異。

Fara-7B 摒棄了這些輔助手段,它完全依賴視覺感知。

模型接收的輸入就是螢幕截圖,就像人的眼睛看到的一樣。它不需要解析程式碼,而是直接透過分析像素資訊來預測操作。

這種工作模式要求模型具備極強的視覺-語言對齊能力。

Fara-7B 基於 Qwen2.5-VL-7B 建構,這使得它天生具備處理長達 128k token 上下文的能力,並且在視覺定位方面表現優異。

在執行任務時,Fara-7B 會將目前的用戶指令、歷史操作記錄以及最近的三張螢幕截圖作為輸入上下文。

透過處理這些資訊,模型會輸出一個包含推理過程的思考鏈,隨後呼叫具體的工具函數。

這些工具包括標準的 Playwright 滑鼠鍵盤操作,如在特定座標點擊、輸入文字,也包括瀏覽器層面的巨集操作,如搜尋或存取特定網址。

這種觀察-思考-行動的閉環,使得 Fara-7B 能夠以最直觀的方式與數位世界互動。

不依賴底層程式碼的另一個巨大優勢在於通用性。

無論網頁的底層技術如何更新換代,只要它在螢幕上呈現的視覺元素符合人類的認知習慣,Fara-7B 就能理解並進行操作。

這種設計大大降低了模型對特定網頁架構的依賴,使其在面對未曾見過的網站時,也能展現出良好的適應性。

為了實現這一點,微軟的研究團隊並沒有採用強化學習來暴力試錯,而是完全依靠監督微調(SFT),這背後依靠的是一條設計精妙的資料生成流水線。

依靠合成資料突破訓練瓶頸

訓練一個能操作電腦的 AI,最大的攔路虎是資料。

與文字生成不同,電腦操作的資料收集極其困難。一個簡單的訂機票任務,可能包含幾十個步驟,每一步都需要精確的點擊座標和邏輯判斷。

如果完全依賴人工標註,成本將是天文數字,且難以保證資料的一致性和規模。

Fara-7B 的成功,很大程度上歸功於微軟建構的一套基於 Magentic-One 框架的合成資料生成系統。

圖片

這套系統巧妙地避開了人工標註的陷阱,透過多智能體協作,自動化地生成了海量高品質的訓練資料。

這個資料工廠的運作流程分為三個嚴密的階段。首先是任務提案階段,系統需要生成多樣化的任務指令。

為了避免任務過於單一,研究人員使用了公共網頁索引作為種子,涵蓋了購物、旅遊、餐廳預訂等多個領域。

系統會根據網頁內容反向生成特定的任務目標,例如根據一個電影院的頁面,生成預訂兩張《唐頓莊園》大結局門票的具體指令。

這種從真實環境出發生成任務的方式,確保了訓練資料的分布與現實世界的高度一致。此外,系統還會隨機抽取 URL 來生成探索性任務,進一步拓寬了模型的技能邊界。

接下來的任務求解階段是整個流水線的核心。

這裡引入了 Magentic-One 多智能體框架,由一個指揮官代理(Orchestrator)和一個衝浪者代理(WebSurfer)配合完成。

指揮官負責制定計劃並監控進度,衝浪者則負責執行具體的瀏覽器操作並反饋結果。如果任務需要用戶輸入,系統甚至會呼叫一個用戶模擬器代理來提供必要資訊。

這種分工明確的協作機制,能夠模擬出極其複雜的多輪互動過程,並將這些過程記錄下來,形成包含觀察、思考、行動完整鏈路的軌跡。

最後也是最關鍵的一步是軌跡驗證。

並不是所有自動生成的軌跡都是完美的,為了確保 Fara-7B 學到的是正確的操作邏輯,所有軌跡必須經過三個驗證代理的嚴格審查。

一致性驗證器檢查操作是否偏離了用戶意圖,規則驗證器根據預設標準給任務完成度打分,多模態驗證器則透過分析最終的螢幕截圖來確認任務是否真正完成。

只有透過這三重考驗的軌跡,才會被納入訓練集。

最終,Fara-7B 在 14.5 萬條經過嚴格篩選的軌跡上完成了訓練,這些軌跡包含了超過 100 萬個操作步驟,涵蓋了極其廣泛的網站類型和任務難度。

性能測評與成本效率的雙重飛躍

評估一個電腦代理的能力遠比評估聊天機器人複雜。

網際網路是一個動態變化的環境,不同的時間、地點,甚至網站的反爬蟲機制都會影響測試結果。

為了客觀衡量 Fara-7B 的實力,微軟不僅使用了 WebVoyager、Online-Mind2Web 和 DeepShop 等現有的權威基準,還專門開發了一個名為 WebTailBench 的新基準測試。

這個新基準專注於那些在傳統測試中被忽略但對用戶極具價值長尾任務,比如複雜的求職申請、跨平台比價以及不動產搜尋等。

測試結果令人印象深刻。

圖片

在 BrowserBase 提供的標準化測試環境中,Fara-7B 的表現不僅超越了同樣體量的端側模型 UI-TARS-1.5-7B,甚至在某些指標上擊敗了基於 GPT-4o 配合 Set-Of-Marks (SoM) 提示工程建構的龐大智能體系統。

資料顯示,在 WebVoyager 測試中,Fara-7B 達到了 73.5% 的任務成功率,而 OpenAI 的 computer-use-preview 版本為 70.9%,GPT-4o (SoM) 僅為 65.1%。

在微軟自研的 WebTailBench 這一涵蓋更複雜現實任務的測試中,Fara-7B 同樣以 38.4% 的成功率領跑,遠超 UI-TARS 的 19.5%。

更值得關注的是效率與成本的平衡。

對於端側模型而言,不僅要做對,還要做得快、做得省。

圖片

在同等推理價格(每百萬 token 0.2 美元)下,Fara-7B 展現出了驚人的效率優勢。

它完成一個任務平均僅需約 16 個步驟,而基於相同底座的 UI-TARS 模型則需要約 41 個步驟。

這意味著 Fara-7B 的思維更加敏捷,操作更加精準,不僅節省了用戶的等待時間,也大幅降低了運算資源的消耗。

這種在準確率和成本之間取得的新的平衡,打破了以往智能越高、成本越高的固有認知,證明了針對特定領域進行深度優化的精簡模型完全可以挑戰通用大模型的統治地位。

Fara-7B 在準確率與成本座標系中的位置,它處於一條新的帕雷托前沿上,意味著在同等成本下它提供了最高的準確率,或者在同等準確率下它消耗的成本最低。

這種極致的效能比,是讓智能代理從實驗室走向千家萬戶的關鍵門票。

安全機制構筑信任基石

讓 AI 操控滑鼠和鍵盤,直接涉及到現實世界的後果,如資金交易、資訊發送等,因此安全性是 Fara-7B 設計中不可妥協的底線。

微軟在訓練過程中引入了關鍵點(Critical Points)的概念。

這是一種內建的安全煞車機制。模型被訓練去識別那些涉及敏感操作的時刻,比如點擊支付按鈕、發送包含個人資訊的電子郵件或確認預訂。

當 Fara-7B 識別到這些關鍵點時,它不會擅自行動,而是必須暫停下來,向用戶匯報目前情況並請求明確的批准。這種人在迴路的设计,確保了最終的控制權始終掌握在用戶手中。

除了主動的詢問機制,Fara-7B 還經過了嚴格的紅隊測試和拒絕能力訓練。

微軟建構了一個包含 111 個高風險任務的測試集 WebTailBench-Refusals,涵蓋了內容傷害、越獄攻擊、甚至提示注入等多種潛在風險。

測試顯示,Fara-7B 對有害任務的拒絕率高達 82%。這得益於訓練資料中混合了大量的公共安全資料和內部生成的對抗性樣本,教會了模型什麼該做、什麼絕對不能做。

在部署層面,微軟強烈建議在沙盒環境中運行 Fara-7B。

這種隔離機制保證了即使模型出現意外行為,其影響範圍也被限制在可控的安全區域內。

透明度也是安全的一環,Fara-7B 的所有操作步驟、推理過程都是可審計的日誌,用戶可以隨時查看模型到底做了什麼。

這種全方位的安全策略,旨在解決用戶對 AI 代理失控的擔憂,為大規模應用鋪平道路。

無論是自動化日常瑣事,如填寫表單、查詢資訊,還是開發更專業的垂直領域應用,Fara-7B 都提供了一個強大的基座。

透過 Magentic-UI 這一研究原型介面,用戶可以直觀地看到 Fara-7B 如何感知網頁、如何思考以及如何一步步完成任務。

雖然目前的版本在處理極度複雜的任務或面對非常規指令時仍有局限,也會出現幻覺或操作失誤,但這正是開源社群介入的最佳時機。

隨著多模態基礎模型的持續演進,以及強化學習在真實和模擬環境中的應用,端側代理的能力將得到進一步飛躍。

參考資料:

https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

https://huggingface.co/microsoft/Fara-7B

https://github.com/microsoft/fara

主標籤:Fara-7B

次標籤:電腦操作代理端側部署合成資料訓練純視覺感知


上一篇:推理加速175%!SparseDiT提出「時空雙重稀疏化」新範式,重塑DiT效率

下一篇:【CMU 博士論文】《生成式機器人:用於人機協同創作的自監督學習》

分享短網址