突發!
在 ChatGPT 發佈三週年,DeepSeek 嚯一下推出兩個模型:
• DeepSeek-V3.2
• DeepSeek-V3.2-Speciale
在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達到 GPT-5 的水準,僅略低於 Gemini-3.0-Pro;相較 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少計算開銷與使用者等待時間。
前者著重平衡實用性,適用於日常問答、通用 Agent 任務、真實應用場景下的工具呼叫。
推理達 GPT-5 水準,略低於 Gemini-3.0-Pro。
後者主打極致推理,推理基準性能媲美 Gemini-3.0-Pro。
還一把拿下 IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025 金牌。
重點,ICPC 達到人類選手第二、IOI 人類選手第十名水準。
具體來說,DeepSeek-V3.2 側重平衡推理能力與輸出長度,降低計算開銷。
DeepSeek 官推文中寫道,「DeepSeek-V3.2 模型在 Agent 評測中達到目前開源模型的最高水準」。
該模型其他情況如下:
• 推理能力比肩 GPT-5;
• 相較 Kimi-K2-Thinking 大幅縮短輸出長度,減少使用者等待時間;
• DeepSeek 旗下首個「思考融入工具呼叫」的模型,支援思考/非思考雙模式工具呼叫;
• 基於 1800+ 環境、85000+ 複雜指令的大規模 Agent 訓練資料,泛化能力強。
下圖展示 DeepSeek-V3.2 與其他模型在各類 Agent 工具呼叫評測集上的得分
——特別強調,DeepSeek-V3.2 並沒有針對這些測試集的工具做特殊訓練。
DeepSeek-V3.2-Speciale 是 DeepSeek-V3.2 的長思考強化版,融合了 DeepSeek-Math-V2 的定理證明能力。
在指令遵循、數學證明、邏輯驗證方面,DeepSeek-V3.2-Speciale 能力出眾,推薦用來完成高度複雜數學推理、程式競賽、學術研究類任務。
特別注明!這個版本目前沒有針對日常對話與寫作做專案優化。
而且僅供研究使用,不支援工具呼叫。
在高度複雜任務上,Speciale 模型大幅優於標準版本,但消耗的 Tokens 也顯著更多,成本更高。
目前,DeepSeek 的 App 和網頁版,都已經更新為正式版 DeepSeek-V3.2;Speciale 版本目前僅供臨時 API 使用。
模型發佈同時,技術報告也已經公開。
論文裡透露的技術細節相當硬核:
新的稀疏注意力機制 DSA 大幅降低計算複雜度,強化學習訓練的計算量超過預訓練的 10%,還有全新的大規模 Agent 任務合成管線……
具體情況,我們詳細來看。
提出 DSA 高效稀疏注意力機制,長文本不再是負擔
DeepSeek-V3.2 最大的架構創新是引入了 DSA(DeepSeek Sparse Attention)機制。
傳統的注意力機制在處理長序列時計算複雜度是 O(L²),嚴重制约模型的部署效率和後續訓練的可擴展性。
DSA 讓計算複雜度降低到 O(L·k),k 遠小於 L。
與此同時,DSA 讓模型在長上下文任務中顯著加速推理,且無明顯性能損失。
支援 FP8 精度,適配 MLA(Multi-Query Attention)架構,訓練友好。
怎麼做到的?
DSA 主要包含兩個組件,一個叫 lightning indexer(閃電索引器),另一個叫 fine-grained token selection(細粒度 token 選擇)機制。
閃電索引器負責快速計算查詢 token 和歷史 token 之間的相關性分數,然後只選擇 top-k 個最相關的 token 進行注意力計算。
團隊特意選用了 ReLU 激活函數來提升吞吐量。
DeepSeek-V3.1-Terminus 開始繼續訓練時,團隊採用了兩階段策略。
第一階段是 Dense Warm-up,保持密集注意力,只訓練 lightning indexer,讓它學會對齊主注意力的分布。
這個階段只用了 1000 步,處理了 21 億個 tokens。
第二階段才引入稀疏機制,每個查詢 token 選擇 2048 個鍵值對,訓練了 15000 步,總共處理了 9437 億個 tokens。
實測效果相當給力——
在 128k 長度的序列上,DeepSeek-V3.2 的推理成本比 V3.1-Terminus 降低了好幾倍。
H800 叢集上的測試顯示,當序列長度達到 128K 時,預填充階段每百萬 token 的成本從 0.7 美元降到 0.2 美元左右,解碼階段從 2.4 美元降到 0.8 美元。
後訓練算力超過預訓練的 10%
值得注意的是,DeepSeek 團隊這次在強化學習上下了血本。
論文裡明確提到,RL 訓練的計算預算已經超過了預訓練成本的 10%,這在開源模型裡相當罕見。
DeepSeek 在技術報告中提到,開源模型在 post-training 階段的計算資源投入不足,限制了其在困難任務上的性能。
為此,團隊開發了穩定、可擴展的 RL 協議,使訓練後階段的計算預算超過了預訓練成本的 10%,從而解鎖了模型的先進能力。
展開講講——
為了穩定地擴展 RL 計算規模,團隊在 GRPO(Group Relative Policy Optimization)演算法基礎上做了好幾項改進。
首先是無偏 KL 估計,修正了原始的 K3 估計器,消除了系統性誤差。
原来的估計器在某些情況下會給出無界的梯度權重,導致訓練不穩定。
其次是離線序列遮罩策略。
在實際訓練中,為了提高效率通常會生成大批量的 rollout 資料,然後分成多個 mini-batch 進行梯度更新。這種做法本身就引入了 off-policy 行為。
團隊透過計算資料採樣策略和目前策略之間的 KL 散度,把那些偏離太遠的負樣本序列給遮罩掉,避免它們干擾訓練。
團隊還特別針對 MoE 模型設計了 Keep Routing 操作。
推理框架和訓練框架的實現差異可能導致同樣的輸入激活不同的專家,這會造成參數空間的突變。透過保存推理時的路由路徑並在訓練時強制使用相同路徑,確保了參數優化的一致性。
在具體訓練上,團隊採用了專家蒸餾的策略。
先為每個任務訓練專門的模型,包括數學、程式設計、通用邏輯推理、通用 Agent 任務、Agent 程式設計和 Agent 搜尋這 6 個領域,每個領域都支援思考和非思考兩種模式。
然後用這些專家模型生成特定領域的資料來訓練最終模型。
Agent 能力的突破
此外,此次新模型在 Agent 任務上的突破也讓人眼前一亮。
這次團隊找到了讓模型同時具備推理和工具使用能力的方法。
在思考上下文管理方面,團隊發現 DeepSeek-R1 那種每次開啟新對話就丟棄推理內容的策略,实在是太——浪費 token 了。
於是設計了新的管理機制:
只有在引入新的使用者訊息時才丟棄歷史推理內容,如果只是添加工具相關訊息,推理內容會被保留。即使推理痕跡被刪除,工具呼叫歷史和結果也會保留在上下文中。
冷啟動階段,DeepSeek-V3.2 團隊採用了巧妙的 prompt 設計。
團隊透過精心設計的系統提示,讓模型學會在推理過程中自然地插入工具呼叫。
比如在處理程式競賽題目時,系統會明確要求模型先思考再給出答案,並用特殊標籤標記推理路徑。
最硬核的是團隊開發了一個自動環境合成 pipeline,生成 1827 個任務導向的環境和 85000 個複雜提示。
以旅行規劃為例,模型需要在滿足各種約束條件下規劃三天的行程,包括不重複城市、根據飯店價格調整餐廳和景點預算等複雜邏輯。
雖然在巨大的組合空間中找到滿足所有約束的方案很困難,但驗證給定方案是否滿足約束相對簡單,這種「難解易驗」的特性非常適合 RL 訓練。
在程式碼 Agent 方面,團隊從 GitHub 挖掘了數百萬個 issue-PR 對,經過嚴格篩選和自動環境建構,成功搭建了數萬個可執行的軟體問題解決環境,涵蓋 Python、Java、JavaScript 等多種語言。
搜尋 Agent 則採用多 Agent pipeline 生成訓練資料,先從大規模網路語料中採樣長尾實體,再透過問題建構、答案生成和驗證等步驟產生高品質資料。
評測結果顯示,DeepSeek-V3.2 在 SWE-Verified 上達到 73.1% 的解決率,在 Terminal Bench 2.0 上準確率 46.4%,都大幅超越了現有開源模型。
在 MCP-Universe 和 Tool-Decathlon 等工具使用基準測試上,DeepSeek-V3.2 也展現出接近閉源模型的性能。
這些提升,證明了模型能夠將推理策略泛化到訓練時未見過的 Agent 場景。
One More Thing
技術報告最後,研究人員坦誠地指出了一些局限性。
由於總訓練 FLOPs 較少,DeepSeek-V3.2 的世界知識廣度仍落後於領先的閉源模型。
Token 效率也是個挑戰。通常情況下,本次上新的兩個模型需要生成更長的軌跡,才能達到 Gemini-3.0-Pro 的輸出品質。
但團隊發話了,這些都是未來版本的改進方向。
不過——
DeepSeek 啊 DeepSeek,我們心心念念的 R2,什麼時候抬上來啊!!!!