通常情況下,在 I/O 大會前的幾周裡,外界不會聽到太多 I/O 大會的消息,因為谷歌一般會把最好的模型留到 I/O 大會上發布。但在 Gemini 時代,谷歌很可能會在三月的某個周二突然發布出他們最強的人工智慧模型,或者提前一周宣布像 AlphaEvolve 這樣的酷炫突破。
因為大模型時代,盡快將最好的模型和產品送到用戶手中,是企業技術能力的展現。
北京時間 5 月 21 日凌晨一點,隨著多個產品在 2025 谷歌 I/O 大會上發布,現場響起了一波又一波熱烈的掌聲。
在本場發布會上,作為主題演講嘉賓,谷歌首席執行官桑達爾·皮查伊在一個多小時的時間裡緊鑼密鼓地介紹著谷歌在 AI、移動作業系統、搜尋等領域的眾多更新,這一場發布會上初步統計,Gemini 被提及 95 次,人工智慧被提及 92 次。
以下是本場發布會的幾個重要更新,首先是模型層面。
為 Gemini 2.5 Pro 引入 Deep Think 推理模型和更好的 2.5 Flash
此次發布會的高潮部分,是谷歌宣布為 Gemini 2.5 Pro 引入 Deep Think 推理模型和更好的 2.5 Flash。
谷歌在大會上宣布,已開始為 Gemini 2.5 Pro 測試名為「深度思考」(Deep Think)的推理模型。 DeepMind 首席執行官 Demis Hassabis 表示,該模型採用「最前沿的研究成果」,使其具備在回應查詢前權衡多種假設的能力。
2.5 Pro Deep Think 在目前最難的數學基準測試之一——2025 USAMO 上取得了令人印象深刻的成績。它在 LiveCodeBench(一項針對競賽級編程的難度較高的基準測試)上也取得了領先,並在測試多模態推理的 MMMU 上獲得了 84.0% 的分數。」
不過谷歌表示,在廣泛發布前仍需進行更深入的安全評估並徵求專家意見,因此將率先通過 Gemini API 向可信測試者開放。
谷歌同時發布了性能更強的 Gemini 2.5 Flash 模型,該版本在速度與效率方面實現顯著最佳化:推理效率提升、令牌消耗減少,在多模態處理、程式碼生成及長文本理解等基準測試中均超越前代。
2.5 Flash 是谷歌最高效的主力模型,專為速度和低成本而設計——現在它在多個維度上都得到了提升。它在推理、多模態、程式碼和長上下文等關鍵基準上都得到了改進,同時效率進一步提升,在我們的評估中,使用的 token 減少了 20-30%。
正式版將於 6 月初推出,目前開發者可通過 Google AI Studio 預覽,企業用戶可通過 Vertex AI 體驗,普通用戶則可在 Gemini 應用中試用。
雖然 I/O 大會主要展示的是 2.5 Flash 的效能突破,但谷歌宣布將把該模型的「思考預算」(Thinking Budgets)概念引入更高階的 2.5 Pro 版本。這項功能允許用戶平衡 token 消耗與輸出精度 / 速度的關係。
此外,谷歌正將"航海家計畫"(Project Mariner)整合至 Gemini API 和 Vertex AI。該計畫基於 Gemini 開發,能通過瀏覽器導航完成用戶指定任務,預計今夏向開發者擴大開放。同時,谷歌還通過 Gemini API 為 2.5 Pro/Flash 模型推出文本轉語音功能預覽版,支持 24 種語言的兩種發音人聲。
值得一提的是,Gemini 2.5 系列引入了不少新功能。
首先是原生音訊輸出和 Live API 的改進。Live API 推出了音訊視頻輸入和原生音訊輸出對話的預覽版,因此您可以直接構建對話體驗,使用更自然、更具表現力的 Gemini。
它還允許用戶控制其語氣、口音和說話風格。例如,用戶可以讓模型在講故事時使用戲劇性的聲音。它還支持使用工具,以便能夠代表用戶進行搜尋。
現在,可以供用戶嘗試的一系列早期功能包括:
情感對話,模型可以檢測用戶聲音中的情感並做出適當的反應。
主動音訊,其中模型將忽略背景對話並知道何時做出回應。
在 Live API 中思考,其中模型利用 Gemini 的思考能力來支持更複雜的任務。
谷歌還將為 2.5 Pro 和 2.5 Flash 版本發布全新的文本轉語音功能預覽版。這些功能首次支持多揚聲器,能夠通過原生音訊輸出實現雙聲道文本轉語音。
與 Native Audio 對話一樣,文本轉語音功能富有表現力,能夠捕捉到非常細微的差別,例如低語。它支持超過 24 種語言,並可在多種語言之間無縫切換。
其次是電腦操作能力提升。谷歌正將 Project Mariner 的電腦操作能力引入 Gemini API 和 Vertex AI。支持多任務處理,最多可同時執行 10 個任務,並且新增 “Learn and Repeat” 功能,讓 AI 學會自動完成重複性任務。
第三是顯著增強了對安全威脅的防護,例如間接提示注入。這是指惡意指令被嵌入到 AI 模型檢索的數據中。谷歌 全新的安全方法 顯著提高了 Gemini 在工具使用過程中對間接提示注入攻擊的防護率,使 Gemini 2.5 成為我們迄今為止最安全的模型系列。
第四是增加三大實用功能,提升開發者體驗:
思維摘要功能升級。Gemini API 和 Vertex AI 現為 2.5 Pro/Flash 模型新增"思維摘要"功能,可將模型原始推理過程結構化輸出為帶標題、關鍵細節及操作說明(如工具調用時機)的清晰格式。該設計旨在幫助開發者更直觀地理解模型決策邏輯,提升交互可解釋性與調試效率。
思考預算機制擴展。繼 2.5 Flash 之後,思考預算功能現已覆蓋 2.5 Pro 模型,允許開發者通過調節令牌分配來平衡響應品質與延遲成本。用戶可自由控制模型思考深度,甚至完全關閉該功能。支持全量思考預算的 Gemini 2.5 Pro 正式版將於未來數周內發布。
Gemini SDK 兼容 MCP 工具。Gemini API 新增對 MCP 的原生 SDK 支持,簡化與開源工具集成。谷歌正探索部署 MCP 伺服器等託管方案,加速代理應用開發。團隊將持續最佳化模型性能與開發體驗,同時加強基礎研究以拓展 Gemini 能力邊界,更多更新即將推出。
關於谷歌 Gemini 的下一步,谷歌 DeepMind CEO 哈薩比斯表示,他們正努力將其最優秀 Gemini 模型擴展為一個「世界模型」,使其能像人類大腦一樣通過理解和模擬世界來制定計畫、想像新體驗。
AI Mode 是谷歌搜尋的未來
作為谷歌最核心的業務之一,谷歌搜尋的每次迭代都會引發行業關注。
谷歌表示, Gemini 模型正在幫助谷歌搜尋變得更加智能、代理化和個人化。
自去年推出以來,AI 概覽已覆蓋超過 15 億用戶,並覆蓋 200 個國家和地區。隨著人們使用 AI 概覽,谷歌發現他們對搜尋結果更加滿意,搜尋頻率也更高。在美國和印度等谷歌最大的市場,AI 概覽推動了查詢類型增長超過 10%,並且這種增長速度會隨著時間的推移而持續增長。
皮查伊稱,這是過去十年來搜尋領域最成功的產品之一。
如今,對於想要體驗端到端 AI 搜尋的用戶,谷歌推出了全新的 AI 模式。它徹底重塑了搜尋體驗。憑藉更先進的推理能力,用戶可以在 AI 模式下提出更長、更複雜的查詢。
事實上,早期測試人員提出的查詢長度是傳統搜尋長度的兩到三倍,並且用戶還可以通過後續問題進行更深入的探索。所有這些功能都可以在搜尋的新標籤頁中直接使用。
皮查伊稱:「我一直在頻繁使用 Google 搜尋,它徹底改變了我使用 Google 搜尋的方式。我很高興地告訴大家,AI 模式將於今天在美國面向所有用戶推出。借助我們最新的 Gemini 模型,我們的 AI 回應不僅達到了您對 Google 搜尋所期望的品質和準確性,而且是業內最快的。從本周開始,Gemini 2.5 也將在美國 Google 搜尋中推出。」
亮相視頻模型 Veo 3
在多模態方面,谷歌表示即將推出最新的先進視頻模型 Veo 3,它現已具備原生音訊生成功能。谷歌還將推出 Imagen 4,這是谷歌最新、功能最強大的圖像生成模型。這兩款模型均可在 Gemini 應用程式中使用,開啟一個全新的創意世界。
谷歌通過一款名為 Flow 的新工具將這些可能性帶給了電影製作人。用戶可以創建電影剪輯,並將短片擴展為更長的場景。
提示詞:一隻睿智的老貓頭鷹在高空翱翔,透過森林上方月光下的雲層窺視。這隻睿智的老貓頭鷹小心翼翼地繞著空地盤旋,環顧著森林的地面。片刻之後,牠俯衝到月光下的小路上,停在一隻獾旁邊。音訊: 翅膀拍打聲、鳥鳴聲、響亮而悅耳的風沙聲,以及斷斷續續的嗡嗡聲、樹枝在腳下折斷的聲音和呱呱的叫聲。這是一段輕快的管弦樂,木管樂器貫穿始終,節奏歡快樂觀,充滿天真無邪的好奇心。
一隻睿智的老貓頭鷹和一隻緊張的獾坐在月光下的林間小路上。「它們今天留下了一個一個'球’。它彈得比我跳得還高。」獾結結巴巴地說道,努力想理解這句話的意思「這是什麼魔法?」貓頭鷹若有所思地鳴叫著。音訊: 貓頭鷹的鳴叫聲,獾緊張的鳴叫聲,樹葉的沙沙聲,蟋蟀的鳴叫聲。
一隻睿智的老貓頭鷹飛出了畫框,一隻緊張的小獾朝另一個方向跑了出去。背景中,一隻松鼠匆匆而過,發出刮擦乾枯秋葉的沙沙聲。音訊: 鳥鳴聲、響亮的落沙沙聲,以及斷斷續續的嗡嗡聲、樹枝在腳下折斷的聲音,還有松鼠在乾枯的落葉間穿梭的聲音。遠處傳來貓頭鷹的鳴叫聲、獾緊張的鳴叫聲、樹葉的沙沙聲、蟋蟀的鳴叫聲,這些聲音充滿了天真好奇的氣息。
編碼助手 Jules 開始公測
在發布會上,谷歌宣布 Jules 正式進入公測階段,全球開發者可直接進行體驗。
Jules 是一款異步代理式編碼助手,可直接與開發者現有的程式碼庫集成。它會將開發者的程式碼庫克隆到安全的 Google Cloud 虛擬機 (VM) 中,了解項目的完整上下文,並執行以下任務:編寫測試、構建新功能、提供音訊更新日誌、bug 修复、改變依賴版本。
Jules 異步運行,讓開發者在它在後臺運行時能專注於其他任務。完成後,它會展示其計畫、推理過程以及所做更改的差異。Jules 默認為私有,它不會使用用戶的私有程式碼進行訓練,並且用戶的數據在執行環境中保持隔離。
Jules 使用 Gemini 2.5 Pro,使其能夠使用當今最先進的一些編碼推理技術。結合其雲虛擬機系統,它可以快速、精確地處理複雜的多文件更改和併發任務。
具體而言,Jules 能幹什麼?
適用於真實程式碼庫:Jules 無需沙盒。它能夠利用現有項目的完整上下文,智能地推斷變更。
並行執行:任務在雲虛擬機內部運行,實現併發執行。它可以同時處理多個請求。
可見的工作流程: Jules 在進行更改之前向您展示其計畫和理由。
GitHub 集成:Jules 可直接在用戶的 GitHub 工作流程中工作。無需上下文切換,也無需額外設置。
音訊摘要: Jules 提供最近提交的音訊變更日誌,將您的項目歷史記錄轉變為您可以收聽的上下文變更日誌。
Astra 項目,谷歌通用 AI 助手的雛形
去年的谷歌 I/O 開發者大會上,最有趣的演示之一是 Project Astra,它是多模態人工智慧的早期版本,可以實時識別周圍環境並以對話方式回答相關問題。雖然該演示讓我們得以一窺谷歌打造更強大人工智慧助手的計畫,但該公司謹慎地指出,我們看到的只是「研究預覽」。
然而,一年後,谷歌卻規劃了 Astra 項目的願景,希望未來能為 Gemini 的某個版本提供動力,使其成為一個「通用 AI 助手」。為了實現這一目標,Astra 項目進行了一些重要的升級。谷歌一直在升級 Astra 的內存——我們去年看到的版本每次只能「記憶」 30 秒——並增加了計算機控制功能,使 Astra 現在可以執行更複雜的任務。
這款多模態、全視角的機器人並非真正的消費級產品,除了一小部分測試人員之外,短期內不會向任何人開放。Astra 代表著 Google 對未來人工智慧如何為人類服務的最宏大、最狂野、最雄心勃勃的夢想。Google DeepMind 研究總監 Greg Wayne 表示,他認為 Astra 是「通用人工智慧助手的概念車」。
最終,Astra 中可用的功能會移植到 Gemini 和其他應用中。這其中已經包含了團隊在語音輸出、內存以及一些基本的計算機使用功能方面的工作。隨著這些功能逐漸成為主流,Astra 團隊找到了新的工作方向。
Project Aura 智能眼鏡又回來了
再看看硬件方面。谷歌智能眼鏡時代似乎又回來了。今天,谷歌和 Xreal 在大會上宣布建立戰略合作夥伴關係,共同開發一款名為 Project Aura 的全新 Android XR 設備。
這是自去年 12 月 Android XR 平臺發布以來,官方正式推出的第二款設備。第一款是 三星的 Project Moohan,但這是一款更類似於 Apple Vision Pro 的 XR 頭顯。而 Project Aura 則與 Xreal 的其他產品保持著密切聯繫。技術上準確的術語應該是「光學透視 XR」設備。更通俗地說,它是一副沈浸式智能眼鏡。
Xreal 的眼鏡,比如 Xreal One,就像在一副普通的太陽鏡裡嵌入了兩臺迷你電視,看起來略顯笨重。Xreal 之前的眼鏡可以連接手機或筆記本電腦,查看屏幕上的內容,無論是正在播放的節目,還是想在飛機上編輯的機密文件。它的優點在於,用戶可以調整不透明度來查看(或遮擋)周圍的世界。Project Aura 也秉持著同樣的理念。
但谷歌並沒有在發布會上透露出更多關於這款硬件的信息。Xreal 發言人 Ralph Jodice 表示,將在下個月的增強現實世界博覽會上放出更多信息。一些已知的信息顯示,它將內置 Gemini,並擁有更大的視野。在產品渲染圖中,我們可以看見鉸鏈和鼻梁架上的攝像頭,以及鏡腿上的麥克風和按鈕。
這暗示著與 Xreal 現有設備相比,硬件將迎來升級。Project Aura 將搭載針對 XR 優化的高通芯片組。與 Project Moohan 一樣,Project Aura 也希望開發者現在就開始構建應用程式和用例,以便在實際消費產品發布之前完成。說到這一點,谷歌和 Xreal 在一份新聞稿中表示,為頭顯開發的 Android XR 應用程式可以輕鬆移植到像 Project Aura 這樣的其他設備。
有趣的是,谷歌對下一個智能眼鏡時代的策略與其最初推出 Wear OS 時類似——谷歌提供平臺,第三方負責硬件。雖然細節很少,但這將是在 Android XR 平臺上推出的第二款官方設備。
聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
Jeff Dean:一年內 AI 將取代初級工程師,網友:「Altman只會畫餅,Jeff說的話才致命」
千份簡歷零 Offer,42歲PHP程式設計師靠開網約車維生:AI時代,中年危機正在上演?
爆冷!位元組Seed 在CCPC 決賽只做出了一道簽到題,而DeepSeek R1 直接掛零?
Borg 調度進化了!谷歌超強AI Agent 登場:能設計算法、提效系統,陶哲軒親自助攻,網友封神理工科扛把子!
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!