剛剛，Google AI 路線圖曝光：竟然要拋棄注意力機制？Transformer 存在致命缺陷！

新智元報導

編輯：Aeneas KingHZ

【新智元導讀】未來AI路線圖曝光！Google發明了Transformer，但在路線圖中承認：現有注意力機制無法實現「無限上下文」，這意味著下一代AI架構，必須「從頭重寫」。Transformer的時代，真的要終結了嗎？在未來，Google到底有何打算？

就在最近，Google未來的AI路線圖曝光！

Google產品負責人Logan Kilpatrick在AI工程師世界博覽會的演講中，介紹了Gemini模型的未來。

在未來，Gemini的全模態是重點，模型正在逐步變成智能體，推論能力還會持續擴展。

重點速覽——

· 全模態（r）

已經原生支援圖像 + 音訊生成，接下來是影片

· Diffusion的早期實驗（r）

擴散模型相關

· 預設具備Agent能力（m）

一流的工具呼叫與工具使用能力，但更重要的是，模型正在逐步變成智能體

· 推論能力持續擴展（s）

一個又一個研究突破接踵而至

· 更多小模型（s）

很快會有更多內容可以分享

· 無限上下文（r）

以當前注意力機制和上下文處理方式，這是不可能實現的我們需要在核心架構層面進行全新創新，才能實現這一目標

· 大模型

規模即一切

注意，(r)、(s) 和 (m) 表示每個專案在Google路線圖中的進展程度：

• (s) = short: 短期/即將上線——表示已經在進行中或即將推出的專案

• (m) = medium: 中期——仍在開發中的專案，將在未來幾個季度內推出

• (r) = research: 研究/長期專案——在發布之前仍處於實驗階段或需要突破性進展

矽谷大廠混戰

AI年中成績單大盤點

可以看出，Google現在是春風得意馬蹄疾，Gemini 2.5 Pro讓它穩穩扳回了一局，再次證明了自己在AI領域老大哥的地位。

X上的大V「Chubby」，也對矽谷大廠們進行了一期「年中盤點」。

OpenAI

目前仍處於領先地位，憑藉o3、o3 pro以及即將到來的GPT-5，依然地位穩固。他們保持著定期更新，經常發布AI工具，不斷增長的使用者數量說明了一切。

DeepSeek

DeepSeek在r1取得可觀成功後陸續推出了重大更新，但目前全世界仍在等待後續產品r2。關於DeepSeek後期將如何繼續推進，目前尚無線索。

Anthropic

仍然是軟體開發(SWE)領域的領頭羊。如果其CEO所言不虛，智能體和進一步的發展將在未來幾年內實現所有流程的自動化，並由通用智能體來處理。目前，Anthropic 正專注於商業領域（這一點從較低的速率限制上也不難看出），並繼續保持強勁地位。

Google

然而，今年最大的贏家可能是Google，它幾乎是從後起之秀躍居領先地位。Gemini 已經取得了令人矚目成功。產品的定期更新、許多公告，包括出色的TPU定位，讓Google的未來看起來一片光明。

Meta

不可否認，Meta已經落後了。Llama 4失敗了，Behemoth也還沒有發布。小扎組建了新的超級智能團隊，試圖再次迎頭趕上。Alexandr Wang從Scale AI加入Meta是否會成為轉捩點？仍有待觀察。

Grok

Grok 3.5也即將上線。目前很難評估。Grok在Colossus集群中顯然處於有利位置。然而，它是否能訓練出更好的模型？仍有待觀察。

這其中評價最高的Google，接下來一段時間會有什麼大動作？

讓我們仔細看看Logan Kilpatrick的演講內容，從中找出關鍵線索。

全公司公認，Gemini 2.5 Pro是Google重大轉捩點

這次大會上，前OpenAI成員、Google AI Studio產品負責人Logan Kilpatrick的演講乾貨滿滿，透露了不少Gemini 2.5 Pro以及將來Google Gemini的計畫的細節。

關於Logan Kilpatrick這位哥，還有一件趣事：據說Gemini製作笑話的能力完全是根據他的推文訓練出來的，這就是為什麼它們都不好笑。🤣

目前，Logan Kilpatrick負責Gemini API開發及AGI研究

在演講中，Logan Kilpatrick快速講了三部分內容：

1. 關於Gemini 2.5 Pro的一些有趣的發布內容；

2. 回顧過去一年的Gemini進展；

3. 展望未來 —— 模型本身、Gemini App，以及開發者平台的後續計畫。

關於Gemini 2.5 Pro，他認為它被Google內部、也被外部開發者生態認為是一次「轉捩點」——

在數學、程式設計、推論上，全面封神，穩坐所有榜單第一。

它為Gemini的未來奠定了堅實的基礎。

Gemini的願景

「統一助手」

Logan Kilpatrick給大家提了一個問題：Google過去各產品之間的連接是什麼？

大多數人會想到：Google帳號。但Google帳號本身其實不「保留狀態」，它的作用只是讓你登入各個獨立產品。

而現在，Gemini正在成為「統一線程」（thread）——串聯起Google所有服務的那條線。

Gemini App，很有意思，很酷，體現了Google如何思考AI產品的未來。

他相信，Google的未來會呈現出這樣的面貌：

Gemini將成為統一介面，連接所有Google產品，形成真正的「全域助手」。

目前大多數AI產品，仍然是「使用者主動操作」——你要主動提問，主動請求功能。

但最令人興奮的是AI的下一個階段：

「主動式AI」（Proactive AI）——AI 主動為你發現問題、提供建議、自動處理任務。

而現在，Google全力押注新範式轉移：

1. 多模態能力：原生音訊處理已支援Astra和Gemini Live，Veo技術保持業界領先，影片整合將是下一階段重點

2. 模型進化：從單純的token處理器轉向具備系統化推論能力的智能體，「推論擴展」尤其值得關注

3. 架構創新：包括小模型生態、無限上下文解決方案（需突破現有注意力機制限制）以及早期擴散實驗展現的驚人token處理能力

向「全模態統一模型」邁進

從模型層面看，Gemini最初就被設想為一個統一多模態模型：音訊、圖像、影片，全都能處理。

在這方面，Google取得了很大進展：

Google I/O大會宣布了Gemini的原生語音能力（文字轉語音TTS、語音合成、語音互動）；

它已經支援自然對話，聽起來非常自然；

這些能力已整合到Astro與Gemini Live。

目前，Astro整合了下列能力：

Google還在推進「Veo」相關能力（Video + Other），它已在多個指標上達到SOTA水準，未來也會並入主線Gemini模型。

此外，Google還在研究「基於擴散的推論」（diffusion-based reasoning）—— Gemini Diffusion。但此專案仍屬研究前沿，尚未進入主線，但前景令人期待。

Gemini Diffusion有極高吞吐速率，每秒可取樣1000餘token

智能體成為主流

最近，Logan Kilpatrick一直在思考：隨著系統推論能力越來越強，未來AI產品是什麼形態？

過去，開發者總是把模型當作黑盒工具：

輸入token，輸出 token；

然後在外部建構各種scaffolding（支架）以增強功能。

但現在，情況變了：

模型自身越來越系統化，越來越能自主做事，不再只是「被動計算器」。

他認為，「推論過程」將成為一個核心變革點：如何擴展模型的推論能力。

他非常期待的問題是：

過去外部做的很多scaffolding，未來是否會被整合進模型的內部推論流程？這將徹底改變開發者建構產品的方式。

更多路線圖：小模型、大模型、無限上下文

除此之外，Google還會在以下新產品和研究上發力。

更多「小模型」——輕量級，適合行動端與低功耗設備；

更大的模型——滿足使用者對極致能力的期待；

更重要的是：「無限上下文」的研究突破。

當前的AI模型架構（如Transformer）的重要缺陷之一，就是無法很好地支援無限上下文。

Google認為，既然注意力機制無法無限擴展，那就必須有新結構。

他們正在積極探索：如何讓模型引入、理解並高效處理超大規模上下文。

即將上線的開發者功能重點如下。

1. 嵌入模型（Embeddings）雖然感覺像「AI早期工具」，但仍是核心組件。 RAG應用背後大多數都依賴embedding。 Google即將發布一款最先進的Gemini嵌入模型，並拓展給更多開發者。

2. 深度研究API（Deep Research API）使用者對「深度研究」功能喜愛有加。 Google正在將這些能力聚合為專門的 API 介面，面向研究型產品開發者。

3. Veo3與Imagine 4接入API：很快將上線。

最後一個重點，Google計畫重新定位「AI Studio」:

不再是2C產品，而是明確定位為「開發者平台」。

未來，AI Studio將成為真正的開發工具平台，內嵌Agent建構能力，例如Jules或開發者專屬程式碼Agent，為開發者提供完整建構體驗。

2024：Gemini最瘋狂的一年

對Google Gemini團隊來說，過去一年可以說是「最瘋狂的一年」。

在Google I/O上，Pichai展示了一頁幻燈片：過去12個月，Google Gemini團隊彷彿壓縮了10年的開發工作。

從個人角度出發，Logan Kilpatrick認為Google真正的優勢在於：

不僅在做AI基礎研究，還在推進科學、幾何、機器人等多領域的研究，

這些研究最後都會反饋到主線Gemini模型中。

在Google I/O演講中，Pichai還展示了另一張幻燈片：在過去一年，Google伺服器AI推論任務處理量提升了50倍！

Logan Kilpatrick認為：「這說明外部開發者生態對Gemini模型的需求呈爆炸式增長。」

其實背後的關鍵不只是技術，而是組織結構的變革。

2023 年初，Google把多個AI研究團隊整合到DeepMind，制定了新方向：

不再僅限於理論研究，而是要做真正實用的模型，服務於Google內部與外部開發者生態。

之後，又邁出第二步，將產品團隊也納入DeepMind。這意味著：

DeepMind負責研發模型、推動研究；

同時也打造產品並將其交付給全球使用者。

最近，Google還任命DeepMind的首席技術長Koray Kavukcuoglu擔任新的高級副總裁職位——首席AI架構師。

Koray Kavukcuoglu

與研究團隊密切合作，把尖端模型能力帶到現實世界——

這種「前沿協作」的過程讓Logan Kilpatrick個人非常享受。

這種創新的節奏非常令人興奮，他相信這才剛剛開始。

Google DeepMind內部公式很簡單，總結一句話：

找到最優秀的人，發現基礎設施優勢，然後……不斷發布！

參考資料：

https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s

https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments

剛剛，Google AI 路線圖曝光：竟然要拋棄注意力機制？Transformer 存在致命缺陷！

分享短網址