Google推出革命性文本擴散技術!
你可能沒注意的是,Google DeepMind 在 I/O 2025 上發布了一個重磅實驗性模型——Gemini Diffusion!
一個將擴散(diffusion)技術用於文本生成的全新嘗試!
這或許是一個意義重大的技術突破。
擴散模型在圖像生成領域已經證明了其強大的能力(如 Stable Diffusion、DALL-E),但將其應用於純文字生成,這算得上是對傳統語言模型範式的重大挑戰。
為什麼這麼快?
傳統的自回歸語言模型(如 GPT-4、Claude)生成文本的方式是從左到右順序生成每個標記,類似於人類的寫作過程。
也就是模型每多生成一個token,都得先得到其左邊所有的token,然後再將所有當前的token 全部送進神經網路,再透過預測得到下一個token。
而 Gemini Diffusion 採用了完全不同的方法:它不是逐個標記生成,而是先將整段文本初始化為「雜訊」,然後透過多次迭代,逐步將這些雜訊「淨化」,最終形成有意義的完整文本。
這種方法帶來了顯著的性能提升:官方測試數據顯示,Gemini Diffusion 每秒能生成約 1500 個token!
比現有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍!
核心能力
據 Google DeepMind 的技術介紹,Gemini Diffusion 具備三大關鍵優勢:
超高響應速度:顯著快於谷歌現有的最快模型
更高文本連貫性:能夠一次性生成整塊標記,而非逐個生成
迭代自我修正:在生成過程中進行錯誤糾正,確保輸出的一致性
特別是對於程式設計和數學這類需要高度邏輯一致性和多次驗證的任務,擴散模型展現出了明顯的優勢。
@amirkdev 提出了一個有趣的問題:
「對於程式設計來說,它會不會與自己爭論哪種括號風格最好?」
這是一個幽默卻也頗有洞察的問題——由於并行生成的特性,擴散模型能夠在多個迭代步驟中全局優化整段程式碼,包括保持一致的編碼風格。
性能相當,但快如閃電
值得注意的是,儘管 Gemini Diffusion 採用了全新的生成機制,但在標準基準測試上與 Gemini 2.0 Flash-Lite 的表現相當接近:
基準測試
Gemini Diffusion
Gemini 2.0 Flash-Lite
LiveCodeBench (v6)
30.9%
28.5%
BigCodeBench
45.4%
45.8%
HumanEval
89.6%
90.2%
AIME 2025
23.3%
20.0%
注意:兩者性能相當,但 Gemini Diffusion 的速度優勢高達 5 倍!
官方提供了詳細的基準測試結果:
數據顯示 Gemini Diffusion 在大多數指標上與 Gemini 2.0 Flash-Lite 表現相當,且在 AIME 2025(數學)測試上略有優勢。
速度突破的技術原理
網友@karthik_dulam 也好奇提問:
「誰能解釋為什麼擴散語言模型能夠快一個數量級?」
那麼,為什麼擴散模型在文本生成領域能實現數量級的速度提升呢?
據分析,這涉及四個核心技術「加速機制」:
1. 並行解碼架構
自回歸模型:必須按順序生成標記,後一個標記依賴前一個的完成。
擴散模型:整句話同時處理,所有位置并行進行雜訊去除。
@itsArmanj 給出了推測性的分析:
「幫我理解:如果你讓 Transformer 計算二乘三,它會推理出 2*3=,然後下一個標記是 6。擴散模型如何在形成 2*3 之前就得出 6?」
事實上,擴散模型不依賴順序推理,而是在多輪迭代中優化整個序列。
它先生成包含雜訊的「候選答案」,然後透過多步去噪過程,確保整個表達式和答案在數學上的一致性。
2. 可調迭代步數
Gemini Diffusion 僅需約12步迭代就能生成高品質文本,而自回歸模型處理一個包含1000個標記的段落則需要1000次順序處理。
3. 高效算子融合
擴散模型採用雙向注意力而非單向注意力機制,不需要維護 KV-cache,更適合充分利用 GPU/TPU 的并行計算架構。
@LeeLeepenkman 觀察到:
「我們又回到了擴散器和 DIT 塊的路線。之前大家都在嘗試自回歸圖像生成,因為 4oimage 採用了這種方式,但當你深入思考或實際嘗試時會發現這種方式相當緩慢。透過大規模擴展擴散模型,我們或許能達到這種邏輯和文本精度,就像實現逼真的光照一樣。」
透過規模擴展,擴散模型將有可能達到與自回歸模型相同的邏輯推理能力和準確性,同時保持其顯著的速度優勢。
4. 計算資源優化
擴散模型僅在最後一步將輸出映射到詞表,顯著減少了計算開銷。
技術路線對比:擴散與自回歸的範式之爭
維度
擴散語言模型
自回歸 Transformer
生成流程
并行:整句初始化為雜訊,迭代去噪
串行:逐個標記順序生成
延遲
約 12 步迭代,與序列長度基本無關
與序列長度呈線性增長
可控性
基於梯度優化,更易實現精確控制
主要依賴 RLHF 和提示工程
成熟度
處於實驗階段,尚需驗證
技術成熟,已廣泛應用
@TendiesOfWisdom 提出了一個富有啟發性的類比:
「科幻電影《降臨》中的外星人文字 = 新的擴散語言模型?他們的圓形文字一次性傳遞完整概念;這些模型并行迭代達成連貫性,拋棄了逐步生成標記的方式。非線性思維與 AI 的下一波浪潮相遇。」
這個比喻倒是有些意思,科幻電影《降臨》中外星人的圓形文字能夠一次性表達完整概念,擴散語言模型也採用「非線性」方式同步生成整段內容。
跨模態統一的技術趨勢
值得關注的是,Google 正將擴散技術統一應用於文本(Gemini Diffusion)、圖像(Imagen 4)和影片(Veo 3)三大領域,這顯然是在構建一個基於擴散技術的全模態 AI 生態系統。
Google 尚未發布 Gemini Diffusion 的詳細技術論文,僅有一篇簡單的產品介紹連結:
https://deepmind.google/models/gemini-diffusion/
不過,此前也有相關的技術路線研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。
目前,Gemini Diffusion 僅向有限的合作夥伴開放測試,但 Google 已開放了候補名單供研究者和開發者註冊。
我已經排上隊了,連結在此:
https://docs.google.com/forms/u/0/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/formResponse
這次的Gemini Diffusion,展示的不只是速度的提升,更可能是生成範式的根本性變革。
這,或將會是個有趣的實驗對象。
而隨著擴散模型在文本生成領域應用的開啟,我們可能正在見證 AI 生成技術的又一次革命性轉變。
👇
👇
👇
另外,我還用AI 進行了全網的AI 資訊採集,並用AI 進行挑選、審核、翻譯、總結後發布到《AGI Hunt》的知識星球中。
這是個只有資訊、沒有感情的 AI 資訊信息流(不是推薦流、不賣課、不講道理、不教你做人、只提供資訊)
歡迎你的加入!也歡迎加群和2000+群友交流