炸裂!谷歌I/O大會王者歸來:Gemini“世界模型”初現,搜尋“換腦”,一句話製作原聲電影

剛剛!谷歌舉行了I/O 2025 大會,最大的感受是谷歌重回AI領頭羊位置,谷歌正在以Gemini為核心打造真正的AI作業系統,”世界模型“初現。

本屆谷歌I/O大會一口氣更新和發布了巨量的技術。

首先需要明確的是,備受期待的Gemini 2.5 Ultra模型並未如期而至。我們得到的是一個標價250美元的“Ultra會員套餐”(Ultra Tier),而非我們翹首以盼的Ultra模型本身。但是,隨著Gemini 2.5 Pro “Deep Think”的推出,Pro模型迎來了一次重大革新,其實際能力已堪比Ultra級別。

那麼,具體有哪些新內容呢?(清單確實很長):

模型與代理工具

Gemini 2.5 Pro “Deep Think”:具備並行思考能力,專為複雜數學和編碼任務設計,並提供可配置的“思考預算”以增強控制力,把Gemini 2.5 Pro 推向極致,性能表現如下:

Gemini 2.5 Flash 5月20版:速度更快、更經濟,並新增了“思考摘要”功能,以提高透明度,性能已經無限接近Gemini 2.5 pro。

Gemini Diffusion:谷歌首次將擴散技術應用於文本生成,推出了實驗性模型Gemini Diffusion,速度比肩此前頂級模型快5倍。

Jules:對標OpenAI的Codex,非同步編碼代理,可在背景處理錯誤修復和功能原型開發,需要註冊等待才能使用。

多模態能力大爆發

Google Meet:新增即時翻譯功能。

Veo 3:影片生成能力大幅提升,生成具有4K逼真效果的影片,並支援原生音訊、對話和雜訊合成。

Imagen 4:對標並超越OpenAI gpt-4o的圖像生成能力,但是速度快了3倍,2K圖像模型,在排版和文本圖像生成方面更快、更準確。

Flow:全新的電影製作工具,與好萊塢導演共創“Flow”結合了Veo 3和Gemini的能力,可根據文本提示建構完整的電影場景。

Flow讓創作者能更直觀地“導演”AI:上傳自己的角色和場景素材,或用Imagen即時生成;透過精確的鏡頭指令,描述想要的畫面,Flow會自動生成剪輯片段並保持角色和場景的一致性。你可以無限迭代、調整鏡頭、延長或修剪片段,就像在傳統剪輯軟體中一樣。Flow的目標是讓電影製作進入一個全新的“流動”狀態,讓創意自然生長,將電影創作從“按部就班”變成“靈感迸發”。

谷歌搜尋徹底重塑:全新的“AI模式”(AI Mode)

更複雜的查詢:使用者現在可以提出比傳統搜尋長兩到三倍的複雜問題,比如“我有一張淺灰色的沙發,想找一塊能提亮房間的毛毯,家裡有4個活躍的孩子,經常有朋友來玩。”AI模式會動態生成圖文並茂的回應,包括連結、商家資訊和評分。

深度研究(Deep Search):對於需要更詳盡答案的問題,AI模式可以進行“深度搜尋”。它能同時發出數十甚至數百個查詢,整合來自全網、知識圖譜、購物圖譜和地圖社群的數據,在幾分鐘內生成一份專家級的、帶完整引用的報告,幫你省去大量研究時間。

複雜分析與視覺化:AI模式能幫你分析複雜數據並生成視覺化圖表。比如,你想了解使用“魚雷球棒”的著名棒球運動員的本賽季和上賽季的擊球率和上壘率,它能立刻生成表格,並根據後續問題生成圖表,就像擁有一個專屬的體育分析師!

搜尋即時互動(Search Live):Project Astra的即時能力也融入了搜尋!透過手機鏡頭,你可以和搜尋進行“視訊通話”,讓它看到你所看到的,即時給出幫助。無論是DIY家居維修、難題作業,還是學習新技能,它都能成為你的“遠端專家”。

代理購物(Agentic Checkout):AI模式還能幫你完成購物任務!它會瀏覽多個網站,分析數百個選項,幫你完成篩選、比價甚至直接連結到結帳頁面,幫你秒殺門票。未來,它還將支援餐廳預訂和本地服務預約。

谷歌加入AI眼鏡開發:AI不僅要改變數位世界,更要深刻影響物理世界。

沉浸式頭顯:與三星合作的Project Moohan是首款Android XR裝置。它能為你提供“無限螢幕”體驗,在XR版谷歌地圖中,你只需告訴Gemini想去哪裡,就能“瞬移”到世界任何角落;你還能在MLB應用程式中,像坐在體育場前排一樣觀看比賽,同時與Gemini討論球員數據,將於今年晚些時候上市。

輕量級眼鏡:谷歌展示了最新的Android XR眼鏡原型,輕巧便攜,可全天佩戴,整合了鏡頭、麥克風和揚聲器,可選的鏡片內顯示屏還能在你需要時私密地顯示資訊。這意味著你的AI助理將真正“看”和“聽”到你所看到和聽到的,提供即時的、上下文感知的幫助,就像戴上了“超能力眼鏡”!現場演示中,它能識別咖啡杯上的咖啡店名字,幫你導航,預約咖啡,甚至進行即時跨語言翻譯。谷歌宣布,Warby Parker和Gentle Monster將成為首批與Android XR合作的眼鏡品牌,未來你將能戴上符合自己風格的時尚AI眼鏡,開發者也將於今年晚些時候開始為眼鏡平台開發。

其他

Gemma 3n:一款超輕量級的多模態模型(支援文字、圖像、音訊、影片),專為智慧型手機和邊緣裝置打造。

Lyria RealTime:互動式音樂大語言模型,支援現場表演,並可透過API進行微調。

MedGemma & SignGemma:兩款開放的專業模型,分別用於醫學圖像分析和手語翻譯。

Agentic Colab:一款能夠自我修復程式碼並自動執行任務的筆記本環境。

Gemini Code Assist 2.5:免費的程式設計助理和程式碼審查代理,現已支援200萬token的上下文。

Firebase Studio:AI工作空間,可將Figma設計稿轉換為全棧應用程式,並自動設定後端。

Stitch:可根據描述或圖像生成UI設計和前端程式碼。

Google AI Studio升級:在編輯器中直接整合了Gemini 2.5 Pro、Imagen 4和Veo 3,並提供了GenAI SDK。

新的Gemini API功能:包括原生音訊輸出、即時API、非同步函式呼叫、電腦使用API、URL上下文及MCP支援。

Project Beam:Starline專案的繼任者,與惠普合作開發3D視訊通話硬體。

Project Astra升級:一款能看、能聽、能說的主動式多模態助理。

以上就是谷歌本次大會發布內容簡要總結。

寫在最後

首先,這清晰地表明了谷歌正如何傾盡全力發展其AI生態系統。如果說過去蘋果公司以其卓越協調的裝置生態系統著稱,那麼現在谷歌正透過AI將這一理念推向新的高度。具體而言:Gemini如今能在系統中主動工作。

此外,得益於其跨所有產品協調的原生語言模組,Gemini已更深層次地融入幾乎所有谷歌產品中。無論是谷歌手錶、XR眼鏡還是Pixel手機,Gemini都能完美適配,並根據裝置特性提供相應的擴展功能(例如XR裝置中的地圖疊加功能,效果驚豔!)。

因此,如果說蘋果過去透過iCloud實現了所有裝置的互聯互通,那麼現在的谷歌則更進一步。

發布會中,谷歌DeepMind CEO 諾獎得主Demis Hassabis 提到正在努力將Gemini擴展成為“世界模型”。他將其定義為“一個能夠透過模擬世界的各個方面來制定計畫和想像新體驗的模型,就像大腦一樣”。谷歌內部肯定已經在搞了,這是實現AGI的終極大招。

谷歌,王者歸來。

主標籤:人工智慧

次標籤:Google I/OXR眼鏡Google搜尋Gemini


上一篇:一作解讀!從idea視角,聊聊Qwen推出的新Scaling Law——Parallel Scaling

下一篇:谷歌AI核爆:升級全系模型,Gemini 2.5雙榜登頂!所有產品用AI重做,OpenAI如何接招?

分享短網址