炸裂！谷歌I/O大會王者歸來：Gemini“世界模型”初現，搜尋“換腦”，一句話製作原聲電影

剛剛！谷歌舉行了I/O 2025 大會，最大的感受是谷歌重回AI領頭羊位置，谷歌正在以Gemini為核心打造真正的AI作業系統，”世界模型“初現。

本屆谷歌I/O大會一口氣更新和發布了巨量的技術。

首先需要明確的是，備受期待的Gemini 2.5 Ultra模型並未如期而至。我們得到的是一個標價250美元的“Ultra會員套餐”（Ultra Tier），而非我們翹首以盼的Ultra模型本身。但是，隨著Gemini 2.5 Pro “Deep Think”的推出，Pro模型迎來了一次重大革新，其實際能力已堪比Ultra級別。

那麼，具體有哪些新內容呢？（清單確實很長）：

模型與代理工具

Gemini 2.5 Pro “Deep Think”：具備並行思考能力，專為複雜數學和編碼任務設計，並提供可配置的“思考預算”以增強控制力，把Gemini 2.5 Pro 推向極致，性能表現如下：

Gemini 2.5 Flash 5月20版：速度更快、更經濟，並新增了“思考摘要”功能，以提高透明度，性能已經無限接近Gemini 2.5 pro。

Gemini Diffusion：谷歌首次將擴散技術應用於文本生成，推出了實驗性模型Gemini Diffusion，速度比肩此前頂級模型快5倍。

Jules：對標OpenAI的Codex，非同步編碼代理，可在背景處理錯誤修復和功能原型開發，需要註冊等待才能使用。

多模態能力大爆發

Google Meet：新增即時翻譯功能。

Veo 3：影片生成能力大幅提升，生成具有4K逼真效果的影片，並支援原生音訊、對話和雜訊合成。

Imagen 4：對標並超越OpenAI gpt-4o的圖像生成能力，但是速度快了3倍，2K圖像模型，在排版和文本圖像生成方面更快、更準確。

Flow：全新的電影製作工具，與好萊塢導演共創“Flow”結合了Veo 3和Gemini的能力，可根據文本提示建構完整的電影場景。

Flow讓創作者能更直觀地“導演”AI：上傳自己的角色和場景素材，或用Imagen即時生成；透過精確的鏡頭指令，描述想要的畫面，Flow會自動生成剪輯片段並保持角色和場景的一致性。你可以無限迭代、調整鏡頭、延長或修剪片段，就像在傳統剪輯軟體中一樣。Flow的目標是讓電影製作進入一個全新的“流動”狀態，讓創意自然生長，將電影創作從“按部就班”變成“靈感迸發”。

谷歌搜尋徹底重塑：全新的“AI模式”（AI Mode）

更複雜的查詢：使用者現在可以提出比傳統搜尋長兩到三倍的複雜問題，比如“我有一張淺灰色的沙發，想找一塊能提亮房間的毛毯，家裡有4個活躍的孩子，經常有朋友來玩。”AI模式會動態生成圖文並茂的回應，包括連結、商家資訊和評分。

深度研究（Deep Search）：對於需要更詳盡答案的問題，AI模式可以進行“深度搜尋”。它能同時發出數十甚至數百個查詢，整合來自全網、知識圖譜、購物圖譜和地圖社群的數據，在幾分鐘內生成一份專家級的、帶完整引用的報告，幫你省去大量研究時間。

複雜分析與視覺化：AI模式能幫你分析複雜數據並生成視覺化圖表。比如，你想了解使用“魚雷球棒”的著名棒球運動員的本賽季和上賽季的擊球率和上壘率，它能立刻生成表格，並根據後續問題生成圖表，就像擁有一個專屬的體育分析師！

搜尋即時互動（Search Live）：Project Astra的即時能力也融入了搜尋！透過手機鏡頭，你可以和搜尋進行“視訊通話”，讓它看到你所看到的，即時給出幫助。無論是DIY家居維修、難題作業，還是學習新技能，它都能成為你的“遠端專家”。

代理購物（Agentic Checkout）：AI模式還能幫你完成購物任務！它會瀏覽多個網站，分析數百個選項，幫你完成篩選、比價甚至直接連結到結帳頁面，幫你秒殺門票。未來，它還將支援餐廳預訂和本地服務預約。

谷歌加入AI眼鏡開發：AI不僅要改變數位世界，更要深刻影響物理世界。

沉浸式頭顯：與三星合作的Project Moohan是首款Android XR裝置。它能為你提供“無限螢幕”體驗，在XR版谷歌地圖中，你只需告訴Gemini想去哪裡，就能“瞬移”到世界任何角落；你還能在MLB應用程式中，像坐在體育場前排一樣觀看比賽，同時與Gemini討論球員數據，將於今年晚些時候上市。

輕量級眼鏡：谷歌展示了最新的Android XR眼鏡原型，輕巧便攜，可全天佩戴，整合了鏡頭、麥克風和揚聲器，可選的鏡片內顯示屏還能在你需要時私密地顯示資訊。這意味著你的AI助理將真正“看”和“聽”到你所看到和聽到的，提供即時的、上下文感知的幫助，就像戴上了“超能力眼鏡”！現場演示中，它能識別咖啡杯上的咖啡店名字，幫你導航，預約咖啡，甚至進行即時跨語言翻譯。谷歌宣布，Warby Parker和Gentle Monster將成為首批與Android XR合作的眼鏡品牌，未來你將能戴上符合自己風格的時尚AI眼鏡，開發者也將於今年晚些時候開始為眼鏡平台開發。

其他

Gemma 3n：一款超輕量級的多模態模型（支援文字、圖像、音訊、影片），專為智慧型手機和邊緣裝置打造。

Lyria RealTime：互動式音樂大語言模型，支援現場表演，並可透過API進行微調。

MedGemma & SignGemma：兩款開放的專業模型，分別用於醫學圖像分析和手語翻譯。

Agentic Colab：一款能夠自我修復程式碼並自動執行任務的筆記本環境。

Gemini Code Assist 2.5：免費的程式設計助理和程式碼審查代理，現已支援200萬token的上下文。

Firebase Studio：AI工作空間，可將Figma設計稿轉換為全棧應用程式，並自動設定後端。

Stitch：可根據描述或圖像生成UI設計和前端程式碼。

Google AI Studio升級：在編輯器中直接整合了Gemini 2.5 Pro、Imagen 4和Veo 3，並提供了GenAI SDK。

新的Gemini API功能：包括原生音訊輸出、即時API、非同步函式呼叫、電腦使用API、URL上下文及MCP支援。

Project Beam：Starline專案的繼任者，與惠普合作開發3D視訊通話硬體。

Project Astra升級：一款能看、能聽、能說的主動式多模態助理。

以上就是谷歌本次大會發布內容簡要總結。

寫在最後

首先，這清晰地表明了谷歌正如何傾盡全力發展其AI生態系統。如果說過去蘋果公司以其卓越協調的裝置生態系統著稱，那麼現在谷歌正透過AI將這一理念推向新的高度。具體而言：Gemini如今能在系統中主動工作。

此外，得益於其跨所有產品協調的原生語言模組，Gemini已更深層次地融入幾乎所有谷歌產品中。無論是谷歌手錶、XR眼鏡還是Pixel手機，Gemini都能完美適配，並根據裝置特性提供相應的擴展功能（例如XR裝置中的地圖疊加功能，效果驚豔！）。

因此，如果說蘋果過去透過iCloud實現了所有裝置的互聯互通，那麼現在的谷歌則更進一步。

發布會中，谷歌DeepMind CEO 諾獎得主Demis Hassabis 提到正在努力將Gemini擴展成為“世界模型”。他將其定義為“一個能夠透過模擬世界的各個方面來制定計畫和想像新體驗的模型，就像大腦一樣”。谷歌內部肯定已經在搞了，這是實現AGI的終極大招。

谷歌，王者歸來。

炸裂！谷歌I/O大會王者歸來：Gemini“世界模型”初現，搜尋“換腦”，一句話製作原聲電影

分享短網址