DeepSeek R2 秘密武器曝光!梁文鋒剛拿下頂級大獎的技術,讓 AI 讀長文速度狂飆 11 倍

DeepSeek R2 尚未問世,但 DeepSeek 下一代模型的更新,已在今年的 ACL 最佳論文中提前「劇透」了。

圖片

昨天,全球自然語言處理領域的頂級會議 ACL 公布了今年的最佳論文。

這個會議堪稱自然語言處理領域的「世界杯」,不僅是未來一兩年大型語言模型的風向球,而且從這裡走出的頂尖技術,往往會迅速被全產業採用。當年顛覆了整個 AI 領域的 Transformer 架構,最初就是在這裡嶄露頭角的。

而今年,一篇由 DeepSeek 和北京大學聯合完成的論文榮獲「最佳論文獎」:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

論文連結🔗 https://arxiv.org/abs/2502.11089

從標題就能看出,這是一篇非常硬核的技術論文,關鍵字密度極高:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬體對齊)、Trainable(可訓練)……

但即便如此,它依然值得所有關注大型模型未來的人認真閱讀,因為它首次將稀疏注意力從理論推導帶入了完整訓練流程,在保持模型效能的同時,還帶來了高達 11 倍的推論加速。

圖片

論文第一作者北京大學碩轉博研究生袁境陽(左三),導師張銘(右一),圖片來源:https://x.com/aclmeeting/status/1950745647214161930

對 DeepSeek 來說,這不僅是一次學術認可,更可能是下一代模型落地的技術預演。

為什麼「長文本」這麼難?AI 的「注意力渙散症」

要理解 DeepSeek 這個技術的厲害之處,得先知道現在大型模型處理長文本的「痛點」。

目前,所有大型模型的核心技術之一都叫做「注意力機制」(Attention),這也是大型語言模型的奠基之作「Attention Is All You Need」。

關於注意力機制,你可以把它想像成一個學生在課堂上聽講。

傳統的「全注意力」(Full Attention)機制,就像一個記憶力超群但效率極低的學生。老師每說一個新詞(Query),他都要把這個詞和從開學第一天到現在說過的所有詞(Keys/Values)都重新比對一遍,來理解新詞的含義。

圖片

論文中的對比圖顯示,NSA(紅色)在各項基準測試中效能均優於或持平全注意力(橙色),同時在解碼、前向和後向傳播等各個階段都實現了巨大的速度提升。

當文本很短時,這沒問題。

但當文本長達數十萬字時,這種「每個字都和前面所有字比對」的計算量會呈平方級暴增。這不僅讓模型回應變得極慢,訓練和推論的成本也高得離譜。

這就是為什麼我們現在使用的大型模型,雖然上下文窗口越來越大,但一旦接近極限,速度就會明顯變慢,API 價格也更貴。

論文中也提到,傳統的注意力機制在 64k 上下文長度下,softmax attention(傳統注意力機制中的一個模組)的計算佔據了整個推論延遲的 70%–80%。

DeepSeek 的解法:像人一樣「抓重點」

為了解決這個問題,過去一段時間,誕生了各種稀疏注意力技術。

從這個月 Kimi K2 技術報告中提到,使用自動調節的 QK-Clip 機制,做到「萬億總參數,啟用參數僅百億,保持在訓練友好的稀疏度」。

到 Manus 在這個月也發布了一篇部落格,提到了「六大上下文工程法則」,提高 KV-Cache 命中率,用檔案系統承載持久上下文。

圖片

2024 年的一篇論文提到當時大型語言模型的上下文長度情況

但無論是 token 距離限制,還是 KV cache 剪枝,它們大多都還有兩個問題:

1. 只能用在推論階段,訓練階段還得用全注意力。

2. 稀疏注意力在理論上速度快,但實際執行慢,尤其是在多卡部署、A100/V100 上。

科學家們提出了「稀疏注意力」(Sparse Attention),想法很簡單:沒必要看每一個字,只關注重要的部分就行。但這說起來容易做起來難,很多舊方法要嘛是速度提不上去,要嘛是丟掉了關鍵資訊導致效能下降。

圖片

圖片來源:https://x.com/casper_hansen_/status/1950649481617342803

而 DeepSeek 和北大這篇最佳論文提出的 NSA(Natively Sparse Attention,原生稀疏注意力)正是為了解決這些問題。它的核心思想是模仿人類閱讀長篇報告時的智慧:

粗讀摘要(Token Compression):首先,NSA 會將長文本中較早的內容打包成一個個「壓縮區塊」,像閱讀章節摘要一樣,快速掌握全局的粗略資訊。這確保了模型不會忘記一百八十頁之前提到的關鍵前提。

精讀重點(Token Selection):在理解了全局大意後,模型會根據當前需要處理的內容,回頭去「選取」之前那些最相關的原文細節區塊進行精讀。例如,在回答關於第三章的問題時,就重點去看第三章的原文,而不是全文掃視。

強記最近(Sliding Window):就像我們總能清晰記得剛剛讀過的那幾段話,NSA 也會專門保留一個「滑動窗口」,對最近的上下文資訊保持最精細的注意力。

圖片

NSA 架構概述圖,NSA 像一個聰明的讀者,透過三種方式(Compression 壓縮、Selection 選取、Sliding 滑動窗口)來處理資訊,並透過一個「門控」機制動態決定哪部分資訊更重要。

最巧妙的是,NSA 透過一個「門控機制」動態地學習如何平衡這三種閱讀策略。

此外,NSA 是「原生可訓練」的,這意味著模型從預訓練開始就在學習這種高效的注意力分配方法,而不是等到模型長大(推論階段)再強行給它加裝一個稀疏機制。

這使得 NSA 的稀疏模式和模型的其他部分能夠完美協同,最終實現了效能和效率的雙重飛躍。

實測結果:訓練更快,推論更強,效能不降反升

DeepSeek 在論文中用詳盡的實驗數據證明了 NSA 的強大實力。

效能不降反升:在 MMLU、GSM8K 等一系列通用知識、推論和程式碼能力的標準測試中,搭載了 NSA 的 27B 模型在 9 項指標中的 7 項都擊敗了傳統的全注意力模型。

圖片

尤其在考驗推論能力的 DROP 和 GSM8K 測試中,提升顯著。這說明,透過稀疏化濾除雜訊資訊,反而可能讓模型更專注於關鍵邏輯。

長文本理解能力拔尖:在經典的「大海撈針」測試中,NSA 在 64k(約 8 萬字)的超長文本中做到了 100% 的資訊檢索準確率,無論資訊藏在哪個角落都能精準找到。

圖片

在更複雜的 LongBench 評測中,NSA 的平均分也超越了包括全注意力在內的大部分基準方法。

圖片

速度快到飛起:這是最令人興奮的部分。與目前最高效的全注意力實現 FlashAttention-2 相比,NSA 在處理 64k 長度的序列時:

圖片

基於 Triton 的 NSA 核心與基於 Triton 的 FlashAttention-2 核心的比較。NSA 的實現顯著降低了所有上下文長度下的延遲,並且隨著輸入長度的增加,改進效果更加明顯。

訓練速度:前向計算加速 9.0 倍,反向傳播加速 6.0 倍。這意味著訓練新模型的效率大大提高。

推論速度:使用者最關心的生成回覆階段(解碼),速度提升了驚人的 11.6 倍。

圖片

這意味著,過去你需要等半分鐘才能獲得的長篇分析,未來可能幾秒鐘就搞定了。

DeepSeek 的未來:更快、更強、更便宜?

上下文長度正在成為大型模型新能力的戰場。無論是跨檔案程式碼補齊、長文件摘要,還是多輪複雜對話,模型都需要在數十萬甚至數百萬 Token 級別的上下文中快速定位、理解、推論。

這項由 DeepSeek 和北大研究員主導完成的研究,幾乎可以肯定,NSA 技術將成為未來 DeepSeek 系列大型模型的核心競爭力之一。

Refer to caption

NSA 核心設計,確保了 GPU 總是在其最快的記憶體上進行計算

NSA 已經跑完了在 27B、MoE 架構上的完整預訓練驗證,訓練框架也基於 DeepSeek 自研的 MoE 系統,兼容 GQA 架構、FlashAttention-2 核心,並使用 Triton(英偉達開源的推論服務框架)重寫了關鍵核心。

這意味著,它不僅僅是一個「可以做」的研究,而是一個「準備好落地」的系統模組。

對於我們普通使用者來說,未來可以直接將整本書、幾十份財報、一個完整的 GitHub 專案程式碼庫丟給 AI,讓它進行深度分析、總結和問答,而無需手動拆分。

DeepSeek 的回應速度也會更快,而計算效率的巨大提升,最終會傳導到 API 的價格上,我們的使用成本也會更低。

圖片

部分模型定價對比,圖片來源:https://artificialanalysis.ai/

從「價格殺手」到技術引領者,DeepSeek 正在透過像 NSA 這樣堅實的技術創新,一步步構建自己的護城河。

這看起來不僅是學術界的勝利,更是整個 AI 應用生態即將迎來又一次提速的號角。

接下來就拭目以待,看看搭載了「原生稀疏注意力」的下一代 DeepSeek 大型模型,會給我們帶來怎樣的驚喜。

主標籤:AI 技術

次標籤:大型語言模型DeepSeek自然語言處理稀疏注意力


上一篇:人工智慧安全與沉思:心靈與通用人工智慧對齊的計算模型

下一篇:回顧Qwen3廢棄的混合推理模式

分享短網址