機器之心報導
編輯:Panda
谷歌的 Computer Use 模型來了!
今天凌晨,谷歌 DeepMind 重磅發布了基於 Gemini 2.5 的電腦使用模型 Gemini 2.5 Computer Use。
考慮到前些天谷歌才剛剛發布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來說,與 OpenAI 的 Computer-Using Agent (CUA) 類似,DeepMind 的這個模型可讓 AI 直接控制用戶的瀏覽器 — 在視覺理解和推理能力的基礎上,該模型可以幫助用戶在瀏覽器中執行點擊、捲動和輸入等操作。
先來看兩個官方演示。
提示詞:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.
提示詞:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.
可以看到,不管是收集網路資訊與執行動作,還是整理雜亂筆記,Gemini 2.5 Computer Use 都非常準確地完成了任務,同時速度也相當快。
在相關基準上,Gemini 2.5 Computer Use 的性能表現也達到了 SOTA 水準:
同時,其速度表現也優於其它幾個相比較的模型:
目前,開發者已可以透過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用戶也可以在 Browserbase 託管的演示環境中試用(最多僅支持 5 分鐘的流程,且不支援用戶中途接管):https://gemini.browserbase.com/
機器之心使用該演示環境做了幾次嘗試。整體來看,Gemini 2.5 Computer Use 在完成簡單任務時準確度較高,但稍微複雜一點的任務就容易失敗。
比如在執行「在維基百科上找到 John Wick 頁面」這樣的簡單任務時,該模型的表現非常成功。
但只要稍微複雜一點,該模型就失敗了,比如「在維基百科上找到 John Wick 頁面,並總結其資訊,給出中文版。」另外,我們讓其「打開諾貝爾獎官方網站,給出今年諾貝爾將宣布的時間表」的任務以及以下任務均未能成功完成。
提示詞:瀏覽 jiqizhixin.com,找到近半年關於 Gemini 的報導,並整理成一份 Markdown 檔案,並進行總結。
此外,DeepMind 也已經發布了 Gemini 2.5 Computer Use 系統卡:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Use 的工作原理
該模型的核心能力是透過 Gemini API 中新增的 computer_use 工具實現的,開發者使用時需在一個迴圈流程(loop)中執行。
其輸入應包括:
- 用戶請求;
- 目前環境的截圖;
- 最近執行動作的歷史紀錄。
另外,輸入中還可以指定是否從預設支持的 UI 動作中排除特定功能以及添加自訂函數。
模型分析這些輸入後,會生成回應,通常是一個代表 UI 動作的函數呼叫(如點擊或輸入)。在某些操作(如購買行為)中,模型還會請求用戶確認。用戶端隨後會執行這些動作。
動作執行完成後,系統會將最新截圖與目前 URL 作為函數回應返回給模型,重新啟動迴圈。
這一迭代過程會持續進行,直到任務完成、出現錯誤,或因安全機制或用戶決定而終止。
谷歌表示,目前 Gemini 2.5 Computer Use 模型主要針對網頁瀏覽器優化,但在行動端 UI 控制方面也展現出強勁潛力。不過它暫未針對桌面作業系統級控制進行優化。
安全機制設計
谷歌還在部落格中分享了他們對該模型的安全機制設計。
谷歌表示:「負責任地建構智慧體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智慧體帶來了特有的風險,包括用戶惡意使用、模型意外行為、以及網頁環境下的提示詞注入與詐騙。因此,我們在設計中高度重視安全防護。」
在 Gemini 2.5 Computer Use 模型中,谷歌直接在訓練階段融入安全機制,以應對三類主要風險(詳見系統卡)。
此外,谷歌還為開發者提供安全控制選項,防止模型自動執行潛在的高風險或有害操作,例如:
- 損害系統完整性;
- 危及安全;
- 繞過驗證碼;
- 控制醫療設備。
谷歌實施的控制手段包括:
- 逐步安全服務(Per-step Safety Service):在推理階段,由獨立安全服務評估每個模型擬執行的動作。
- 系統指令(System Instructions):開發者可設定在特定高風險操作前,智慧體必須拒絕或請求用戶確認。
結語
谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調入局,不僅在多個基準測試上展示了領先的性能,也讓 AI 智慧體領域的競爭正式進入了白熱化階段。
從 OpenAI 到 Anthropic,再到如今的谷歌,科技巨頭們正競相定義我們與電腦互動的未來。儘管目前模型在面對複雜現實任務時仍顯稚嫩,但這恰恰是技術黎明前的真實寫照。今天我們看到的不僅是一個新模型,更是一個清晰的訊號:鍵盤和滑鼠的主導地位正受到挑戰,一個透過自然語言直接驅動數位世界的時代,正加速向我們駛來。
參考連結
https://blog.google/technology/google-deepmind/gemini-computer-use-model/