谷歌加入 CUA 戰場，發布 Gemini 2.5 Computer Use：讓 AI 直接操作瀏覽器

機器之心報導

編輯：Panda

谷歌的 Computer Use 模型來了！

今天凌晨，谷歌 DeepMind 重磅發布了基於 Gemini 2.5 的電腦使用模型 Gemini 2.5 Computer Use。

考慮到前些天谷歌才剛剛發布了 Chrome DevTools (MCP)，Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來說，與 OpenAI 的 Computer-Using Agent (CUA) 類似，DeepMind 的這個模型可讓 AI 直接控制用戶的瀏覽器 — 在視覺理解和推理能力的基礎上，該模型可以幫助用戶在瀏覽器中執行點擊、捲動和輸入等操作。

先來看兩個官方演示。

提示詞：From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示詞：My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到，不管是收集網路資訊與執行動作，還是整理雜亂筆記，Gemini 2.5 Computer Use 都非常準確地完成了任務，同時速度也相當快。

在相關基準上，Gemini 2.5 Computer Use 的性能表現也達到了 SOTA 水準：

同時，其速度表現也優於其它幾個相比較的模型：

目前，開發者已可以透過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用戶也可以在 Browserbase 託管的演示環境中試用（最多僅支持 5 分鐘的流程，且不支援用戶中途接管）：https://gemini.browserbase.com/

機器之心使用該演示環境做了幾次嘗試。整體來看，Gemini 2.5 Computer Use 在完成簡單任務時準確度較高，但稍微複雜一點的任務就容易失敗。

比如在執行「在維基百科上找到 John Wick 頁面」這樣的簡單任務時，該模型的表現非常成功。

但只要稍微複雜一點，該模型就失敗了，比如「在維基百科上找到 John Wick 頁面，並總結其資訊，給出中文版。」另外，我們讓其「打開諾貝爾獎官方網站，給出今年諾貝爾將宣布的時間表」的任務以及以下任務均未能成功完成。

提示詞：瀏覽 jiqizhixin.com，找到近半年關於 Gemini 的報導，並整理成一份 Markdown 檔案，並進行總結。

此外，DeepMind 也已經發布了 Gemini 2.5 Computer Use 系統卡：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

該模型的核心能力是透過 Gemini API 中新增的 computer_use 工具實現的，開發者使用時需在一個迴圈流程（loop）中執行。

其輸入應包括：

用戶請求；
目前環境的截圖；
最近執行動作的歷史紀錄。

另外，輸入中還可以指定是否從預設支持的 UI 動作中排除特定功能以及添加自訂函數。

Gemini 2.5 Computer Use 模型工作流程

模型分析這些輸入後，會生成回應，通常是一個代表 UI 動作的函數呼叫（如點擊或輸入）。在某些操作（如購買行為）中，模型還會請求用戶確認。用戶端隨後會執行這些動作。

動作執行完成後，系統會將最新截圖與目前 URL 作為函數回應返回給模型，重新啟動迴圈。

這一迭代過程會持續進行，直到任務完成、出現錯誤，或因安全機制或用戶決定而終止。

谷歌表示，目前 Gemini 2.5 Computer Use 模型主要針對網頁瀏覽器優化，但在行動端 UI 控制方面也展現出強勁潛力。不過它暫未針對桌面作業系統級控制進行優化。

安全機制設計

谷歌還在部落格中分享了他們對該模型的安全機制設計。

谷歌表示：「負責任地建構智慧體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智慧體帶來了特有的風險，包括用戶惡意使用、模型意外行為、以及網頁環境下的提示詞注入與詐騙。因此，我們在設計中高度重視安全防護。」

在 Gemini 2.5 Computer Use 模型中，谷歌直接在訓練階段融入安全機制，以應對三類主要風險（詳見系統卡）。

此外，谷歌還為開發者提供安全控制選項，防止模型自動執行潛在的高風險或有害操作，例如：

損害系統完整性；
危及安全；
繞過驗證碼；
控制醫療設備。

谷歌實施的控制手段包括：

逐步安全服務（Per-step Safety Service）：在推理階段，由獨立安全服務評估每個模型擬執行的動作。
系統指令（System Instructions）：開發者可設定在特定高風險操作前，智慧體必須拒絕或請求用戶確認。

結語

谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調入局，不僅在多個基準測試上展示了領先的性能，也讓 AI 智慧體領域的競爭正式進入了白熱化階段。

從 OpenAI 到 Anthropic，再到如今的谷歌，科技巨頭們正競相定義我們與電腦互動的未來。儘管目前模型在面對複雜現實任務時仍顯稚嫩，但這恰恰是技術黎明前的真實寫照。今天我們看到的不僅是一個新模型，更是一個清晰的訊號：鍵盤和滑鼠的主導地位正受到挑戰，一個透過自然語言直接驅動數位世界的時代，正加速向我們駛來。

參考連結

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

谷歌加入 CUA 戰場，發布 Gemini 2.5 Computer Use：讓 AI 直接操作瀏覽器

Gemini 2.5 Computer Use 的工作原理

安全機制設計

結語

參考連結

分享短網址